7 set 2023 10 min read OpenAI

Termini & Gergo Usati nelle AI

In questo articolo, in continuo aggiornamento riporto una lista di termini e concetti che potrebbe essere utile conoscescere. Ne do anche una descrizione per sommi capi

midjourney

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Anche se il termine Intellingenza Artificiale risale a molte decadi fa, l'esplosione di curiosità sul tema, avvenuta a fine 2022 grazie OpenAI ha fatto in modo che ci siano tanti, troppi termini usati in malo modo.

In questo articolo, in continuo aggiornamento riporto una lista di termini e concetti che potrebbe essere utile conoscescere. Ne do anche una descrizione per sommi capi (spesso rapinata da wikipedia :-)

So anche che mantenere questa pagina sarà un compito Erculeo, se noti che mi scappano delle cose, ti prego di commentare o mandarmi una mail! Grazie

A

AGI / Artificial general intelligence

Conosciuta anche come Intelligenza artificiale forte. La capacità di un agente intelligente di apprendere e capire un qualsiasi compito intellettuale che può imparare un essere umano. È l'obiettivo principale di alcune delle ricerche nell'intelligenza artificiale e un argomento comune nella fantascienza e nella futurologia. Alcune fonti accademiche riservano il termine "IA forte" (strong AI) a quei programmi informatici in grado di essere senziente e di avere una coscienza.

AI Agent

AI generativa

L'IA generativa utilizza algoritmi di apprendimento automatico per generare nuovi dati, approfondimenti o contenuti da dati esistenti. Imparando dalla struttura e dagli schemi dei dati in ingresso, algoritmi come ChatGPT (una forma di IA generativa) sono in grado di generare varianti di contenuto completamente originali, di migliorare i contenuti esistenti e di fornire approfondimenti.

La tendenza è alla multimodalità, ad esempio con input in una o più modalità (testo, immagine ) si ottengono output diversi (altra immagine, video...).

Gli LLM sono quindi modelli di AI generativa, cosi come Midjourney è un'azienda che fornisce servizi di AI generativa in campo visuale

AI multimodale:

un tipo di IA in grado di elaborare diversi tipi di input, tra cui testo, immagini, video e voce.

AI ristretta

AI weak, o AI ristretta: IA che si concentra su un compito particolare e non è in grado di apprendere oltre le proprie capacità. Tutte le AI di oggi sono IA deboli.

Algoritmo:

Una serie di istruzioni che consente a un programma informatico di apprendere e analizzare i dati in un modo particolare, ad esempio riconoscendo gli schemi, per poi imparare da essi e svolgere compiti autonomamente.

Allineamento delle AI:

Modifica di un'intelligenza artificiale per ottenere i risultati desiderati. Questo può riferirsi a qualsiasi cosa, dalla moderazione dei contenuti al mantenimento di interazioni positive con gli esseri umani.

Allucinare:

Il termine che si usa quando un chatbot genera risposte inventate. Può includere l'IA generativa che produce risposte non corrette ma dichiarate con sicurezza come se fossero corrette. Ad esempio, quando si chiede a una chatbot AI: "Quando Leonardo da Vinci ha dipinto la Monna Lisa?", questa potrebbe rispondere con un'affermazione errata: "Leonardo da Vinci ha dipinto la Monna Lisa nel 1590". La spiegazione più accreditata di questo fenomeno è il modo in cui sono state progettati gli LLM, vedi "pappagallo stocastico"

Antropomorfismo:

Quando gli esseri umani tendono ad attribuire a oggetti non umani caratteristiche simili a quelle umane. Nelle AI, questo può includere la convinzione che un chatbot sia più simile a un essere umano e consapevole di quanto non sia in realtà, come credere che sia felice, triste o addirittura senziente.

Auto a guida autonoma / FSD

Full self-driving, le automobili che si guidano da solo sono uno dei progetti su più si sta investendo. Questo perchè le sfide, enormi, sono -probabilmente- superabili. Ne abbiamo parlato qui sul blog più volte

B

Bias

in riferimento ai modelli linguistici di grandi dimensioni, errori derivanti dai dati di addestramento. Questo può portare ad attribuire erroneamente determinate caratteristiche a certe razze o gruppi sulla base di stereotipi.

Ci sono centinaia di bias nell'essere umano, qualche anno fa ho scritto questo articolo intitolato i 20 Bias cognitivi che più ti influenzano la vita, che è ancora molto attuale

C

Chatbot:

Un programma che comunica con gli esseri umani attraverso un testo che simula il linguaggio umano. Il termine è molto ampio anche se probabilmente Chatbot prenderà il significato di Agenti o comunque

ChatGPT:

Un chatbot AI sviluppato da OpenAI che utilizza la tecnologia dei modelli linguistici di grandi dimensioni. Se sei qui a leggere è probabile che sia dovuto a ChatGPT

D

Data augmentation / Aumento dei dati:

Rimescolamento di dati esistenti o aggiunta di un insieme più diversificato di dati per addestrare un'intelligenza artificiale.

Data Set:

Gli insiemi di dati utilizzati per aiutare i modelli di intelligenza artificiale ad apprendere, compresi testi, immagini, codici o dati.

Deep Learning:

Sottocampo del Machine Learning, che utilizza parametri multipli per riconoscere pattern complessi in immagini, suoni e testi. Il processo si ispira al cervello umano e utilizza reti neurali artificiali per creare modelli.

Deep Learning Models

Algoritmi avanzati di intelligenza artificiale che imitano le reti neurali del cervello umano per elaborare vasti set di dat

Diffusione:

Un altro metodo di Machine Learning che prende un dato esistente, come una foto, e aggiunge un rumore casuale. I modelli di diffusione addestrano le loro reti a rielaborare o recuperare quella foto. Esempi famosi: Stable Diffusion, Midjourney, Dall-E.

E

Emergent behavior:

Un comportamento che "emerge" viene fuori quando un modello di intelligenza artificiale mostra abilità non intenzionali.

E2E learning

Processo di deep Learning in cui un modello viene istruito per eseguire un compito dall'inizio alla fine. Non viene addestrato a svolgere un compito in sequenza, ma impara dagli input e lo risolve tutto in una volta.

Etica:

Anche se al momento la parola Etica è associata a "rallentamenti" e spesso accompagnata da un bel pernacchio è una delle cose più importanti. La Consapevolezza delle implicazioni etiche dell'IA e delle questioni legate alla privacy, all'utilizzo dei dati, alla correttezza, all'uso improprio e ad altri problemi di sicurezza potrebbe modificare il panorama con cui le aziende operano e il mondo procede.

F

Foom:

Un improvviso aumento dell'intelligenza artificiale tale da rendere un sistema AI estremamente potente.Per estenzione il concetto che se qualcuno costruisce un'intelligenza artificiale potrebbe essere già troppo tardi per salvare l'umanità.

G

GAN:

Generative adversarial networks / Reti generative avversarie. Un modello di intelligenza artificiale generativa composto da due reti neurali per generare nuovi dati: un generatore e un discriminatore. Il generatore crea nuovi contenuti e il discriminatore ne verifica l'autenticità.

Google Bard:

Un chatbot AI di Google che funziona in modo simile a ChatGPT, ma che attinge informazioni dal web attuale, mentre ChatGPT è limitato ai dati fino al 2021 e non è connesso a Internet. #Bard lo Trovi qui: https://bard.google.com/

Ecco i miei pensieri su bard appena uscito:

E' stato sostituito da Gemini

Google Gemini

Guardrail:

Politiche e restrizioni imposte ai modelli di IA per garantire che i dati siano gestiti in modo responsabile e che il modello non crei contenuti inquietanti (vedi Etica)

L

LiDAR

Con LiDAR (Light Detection And Ranging) si identifica la tecnologia che misura la distanza da un oggetto illuminandolo con una luce laser e che al contempo è in grado di restituire informazioni tridimensionali ad alta risoluzione sull’ambiente circostante. Un LiDAR utilizza tipicamente diversi componenti come laser, fotorilevatori e altri per misurare la distanza illuminando un bersaglio e analizzando la luce riflessa. Di base il LIDAR è una tecnica simile a un radar basata sul principio dell‘eco. Lo stesso principio utilizzato dai radar, che utilizza come “segnale” la luce (pulsata) anziché un segnale radio.

Il LiDAR è utilizzato per le auto a guida autonoma.

LLL / Large Language Model

I modelli linguistici di grandi dimensioni (LLM) sono modelli di apprendimento automatico a molti parametri addestrati su grandi quantità di dati testuali. I modelli linguistici di grandi dimensioni possono essere utilizzati per una serie di compiti linguistici, tra cui la generazione di testi, il riassunto e la classificazione.

Il termine "Large" è quanto mai indicativo: GPT-3, per esempio, ha 175 Miliardi parametri.

M

Machine Learning

Componente dell'IA che consente ai computer di apprendere e migliorare i risultati predittivi senza una programmazione esplicita. Può essere abbinato a set di formazione per generare nuovi contenuti.

Microsoft Bing:

Un motore di ricerca di Microsoft che utilizza la tecnologia di ChatGPT per fornire risultati di ricerca basati sull'intelligenza artificiale. È simile a Google Bard in quanto collegato a Internet.

Midjourney:

Midjourney è un programma e un servizio di intelligenza artificiale generativa creato e ospitato dal laboratorio di ricerca indipendente Midjourney, Inc. con sede a San Francisco. Midjourney genera immagini a partire da descrizioni in linguaggio naturale, chiamate "prompt", simili a DALL-E di OpenAI e a Stable Diffusion di Stability AI. #midjourney

Il team di Midjourney è guidato da David Holz, co-fondatore di Leap Motion. Gli utenti creano opere d'arte con Midjourney utilizzando i comandi del bot Discord. Su questo blog ne parliamo moltissimo.

N

Natural language processing / NLP

Un ramo dell'IA che utilizza il Machine Learning e il deep Learning per dare ai computer la capacità di comprendere il linguaggio umano, spesso utilizzando algoritmi di apprendimento, modelli statistici e regole linguistiche.

Neural Network

Rete neurale: Un modello computazionale che assomiglia alla struttura del cervello umano e che ha lo scopo di riconoscere gli schemi nei dati. Consiste in nodi interconnessi, o neuroni, in grado di riconoscere modelli e di apprendere nel tempo.

O

OpenAI

Azienda che con la versione 3.5 di ChatGPT (30 Novembre 2022) ha dato il via all'esplosione delle AI Generative. Ne parliamo tantissimo qui sul blog, #OpenAI

Overfitting:

Errore nell'apprendimento automatico in cui il modello funziona troppo vicino ai dati di addestramento e può essere in grado di identificare solo esempi specifici in tali dati, ma non nuovi.

Parametri:

Valori numerici che conferiscono all'LLM struttura e comportamento, consentendogli di fare previsioni.

Pappagallo stocastico:

Un'analogia con gli LLM che illustra come il software non abbia una comprensione più ampia del significato del linguaggio o del mondo che lo circonda, a prescindere da quanto convincente possa sembrare l'output. La frase si riferisce al modo in cui un pappagallo può imitare le parole umane senza comprenderne il significato.

Prompt chaining

Concatenamento di prompt: Capacità dell'intelligenza artificiale di utilizzare le informazioni provenienti da interazioni precedenti per determinare le risposte future.

Temperatura:

Parametri impostati per controllare la casualità dell'output di un modello linguistico. Una temperatura più alta significa che il modello corre più rischi.

Test di Turing:

Prende il nome dal famoso matematico e informatico Alan Turing e verifica la capacità di una macchina di comportarsi come un essere umano. La macchina passa se un umano non riesce a distinguere la risposta della macchina da quella di un altro umano.

Transformer model

Un'architettura di rete neurale e un modello di deep learning che apprende il contesto tracciando le relazioni nei dati, come nelle frasi o nelle parti delle immagini. Così, invece di analizzare una frase una parola alla volta, può guardare all'intera frase e capire il contesto.

R

Reinforcement learning

L'apprendimento per rinforzo (RL) è un'area dell'apprendimento automatico che si occupa di come gli agenti intelligenti dovrebbero intraprendere azioni in un ambiente per massimizzare la nozione di ricompensa cumulativa. L'apprendimento per rinforzo è uno dei tre paradigmi fondamentali dell'apprendimento automatico, insieme all'apprendimento supervisionato e all'apprendimento non supervisionato.

La tipica struttura di uno scenario di apprendimento per rinforzo (RL): un agente compie azioni in un ambiente, che vengono interpretate in una ricompensa e in una rappresentazione dello stato, che vengono restituite all'agente. (fonte: WIkipedia)

L'apprendimento per rinforzo si differenzia dall'apprendimento supervisionato per il fatto che non è necessario presentare coppie ingresso/uscita etichettate e che non è necessario correggere esplicitamente le azioni non ottimali. L'attenzione si concentra invece sulla ricerca di un equilibrio tra esplorazione (di un territorio inesplorato) e sfruttamento (delle conoscenze attuali).

Leggi tutto su wikipedia.

S

Self-supervised learning

L'apprendimento auto-supervisionato (SSL) si riferisce a un paradigma di apprendimento automatico per l'elaborazione di dati non etichettati al fine di ottenere rappresentazioni utili che possano aiutare a svolgere attività di apprendimento a valle.

L'aspetto più importante dei metodi SSL è che non hanno bisogno di etichette annotate dall'uomo, il che significa che sono progettati per accettare insiemi di dati costituiti interamente da campioni di dati non etichettati.

La tipica pipeline SSL consiste quindi nell'apprendimento di segnali di supervisione (etichette generate automaticamente) in una prima fase, che vengono poi utilizzati per qualche compito di apprendimento supervisionato nella seconda e nelle successive fasi. Per questo motivo, la SSL può essere descritta come una forma intermedia di apprendimento non supervisionato e supervisionato.

Leggi tutto su Wikipedia.

Stable Diffusion

Stable Diffusion è un modello di deep learning da testo a immagine (TTI) rilasciato nel 2022. È utilizzato principalmente per generare immagini dettagliate condizionate da descrizioni testuali, anche se può essere applicato ad altri compiti come l'inpainting, l'outpainting e la generazione di traduzioni da immagine a immagine guidate da una richiesta di testo. È stato sviluppato dai ricercatori del gruppo CompVis dell'Università Ludwig Maximilian di Monaco e da Runway con una donazione di calcolo da parte di Stability AI e dati di addestramento da parte di organizzazioni non profit.

Scritto in Python, è in open source qui: https://github.com/Stability-AI/stablediffusion

T

TTI

Acronimo di Text-to-Image: sono AI generative che dato un testo generano delle Immagini: Dall-E, Stable Diffusion e Midjourney sono TTI.

Z

Zero-shot learning

L'apprendimento a zero colpi (ZSL) è un problema di deep learning in cui, al momento del test, si osservano campioni di classi che non sono state osservate durante l'addestramento e deve prevedere la classe a cui appartengono.

Ad esempio, dato un insieme di immagini di animali da classificare, insieme a descrizioni testuali ausiliarie dell'aspetto degli animali, un modello di intelligenza artificiale che è stato addestrato a riconoscere i cavalli, ma a cui non è mai stata data una zebra, può comunque riconoscere una zebra quando sa anche che le zebre assomigliano a cavalli a strisce. Questo problema è ampiamente studiato nella computer vision, nell'elaborazione del linguaggio naturale e nella percezione artificiale.

A