RETRO, un modello di intelligenza artificiale dell’azienda, utilizza una memoria esterna per evitare alcuni dei costi di addestramento di una vasta rete neurale e per non cadere vittima dei pregiudizi dei sistemi di AI esistenti.
di Will Douglas Heaven
Nei due anni trascorsi da quando Open AI ha rilasciato il suo modello linguistico GPT-3, la maggior parte dei laboratori di intelligenza artificiale di grandi aziende ha prodotto versioni simili. Google, Facebook e Microsoft, così come una manciata di aziende cinesi, hanno tutte forme di intelligenza artificiale in grado di generare testi convincenti, chattare con gli umani, rispondere a domande e altro ancora.
Sotto forma di modelli linguistici di grandi dimensioni a causa della vastità delle reti neurali che li sostengono, sono diventati una tendenza dominante nell’AI, mostrandone sia i suoi punti di forza – la notevole capacità delle macchine di usare il linguaggio – sia i suoi punti deboli, in particolare i pregiudizi intrinseci e la quantità insostenibile di potenza di calcolo che può consumare.
Fino ad ora, DeepMind ha brillato per la sua assenza. Ma l’azienda con sede nel Regno Unito che può vantare alcuni dei risultati più impressionanti nel campo dell’intelligenza artificiale, tra cui AlphaZero e AlphaFold, si è unita al gruppo rilasciando nello stesso giorno tre nuovi studi su modelli linguistici di grandi dimensioni. Il risultato principale di DeepMind è un’intelligenza artificiale arricchita con una memoria esterna sotto forma di un vasto database contenente passaggi di testo, che utilizza come una sorta di promemoria quando genera nuove frasi.
Chiamata RETRO (per “Retrieval-Enhanced Transformer”), l’AI eguaglia le prestazioni delle reti neurali 25 volte le sue dimensioni, riducendo i tempi e i costi necessari per addestrare modelli molto grandi. I ricercatori affermano inoltre che il database semplifica l’analisi di ciò che l’intelligenza artificiale ha appreso, il che potrebbe aiutare a filtrare i pregiudizi e il linguaggio tossico.
“Essere in grado di cercare le cose al volo invece di dover memorizzare tutto può spesso essere utile, come lo è per gli umani”, afferma Jack Rae di DeepMind, che guida la ricerca settoriale dell’azienda. I modelli linguistici generano il testo prevedendo quali parole verranno dopo in una frase o in una conversazione. Più un modello è grande, più informazioni sul mondo può apprendere durante l’addestramento, il che rende migliori le sue previsioni. GPT-3 ha 175 miliardi di parametri, i valori in una rete neurale che memorizzano i dati e vengono regolati man mano che il modello apprende.
Il modello linguistico Megatron-Turing di Microsoft ha 530 miliardi di parametri. Ma questi modelli di grandi dimensioni richiedono anche grandi quantità di potenza di calcolo per essere addestrati, mettendoli fuori dalla portata di tutte le organizzazioni tranne quelle più ricche.
Con RETRO, DeepMind ha cercato di ridurre i costi di formazione senza modificare la qualità dell’apprendimento dell’AI. I ricercatori hanno addestrato il modello su un vasto set di dati di articoli di notizie, pagine di Wikipedia, libri e testo da GitHub, un repository di codice online. Il set di dati contiene testo in 10 lingue, tra cui inglese, spagnolo, tedesco, francese, russo, cinese, swahili e urdu.
La rete neurale di RETRO ha solo 7 miliardi di parametri, ma il sistema compensa questo con un database contenente circa 2 trilioni di passaggi di testo. La rete neurale e il database vengono addestrati contemporaneamente. Quando RETRO genera del testo, utilizza il database per cercare e confrontare passaggi simili a quello che sta scrivendo, il che rende le sue previsioni più accurate. Esternalizzare parte della memoria della rete neurale al database consente a RETRO di fare di più con meno.
L’idea non è nuova, ma questa è la prima volta che viene sviluppato un sistema di ricerca per un modello linguistico di grandi dimensioni e sempre per la prima volta è stato dimostrato che questo approccio può competere con le prestazioni delle migliori AI linguistiche in circolazione.
Più grande non è sempre meglio
RETRO attinge a due studi complementari pubblicati da DeepMind, uno che esamina come le dimensioni di un modello influenzano le sue prestazioni e uno che esamina i potenziali danni causati da queste AI. Per studiare le dimensioni, DeepMind ha costruito un grande modello linguistico chiamato Gopher, con 280 miliardi di parametri. Ha superato i modelli all’avanguardia sull’82 per cento delle oltre 150 sfide linguistiche comuni utilizzate per i test. I ricercatori l’hanno quindi confrontato con RETRO e hanno scoperto che il modello da 7 miliardi di parametri era in linea con le prestazioni di Gopher nella maggior parte delle attività.
Lo studio sull’etica è un’indagine completa su problemi noti inerenti ai modelli linguistici di grandi dimensioni. Questi modelli raccolgono pregiudizi, disinformazione e linguaggio tossico come l’incitamento all’odio contenuti negli articoli e nei libri sui cui contenuti hanno lavorato. Di conseguenza, a volte se ne escono con affermazioni spiazzanti, riportando ciò che hanno letto nel testo di formazione senza sapere cosa significhi. “Anche un modello che imitasse perfettamente i dati sarebbe distorto”, afferma Rae.
Secondo DeepMind, RETRO potrebbe aiutare ad affrontare questo problema perché è più facile vedere cosa ha imparato l’AI esaminando il database invece di studiare la rete neurale. In teoria, ciò potrebbe consentire di filtrare o bilanciare esempi di linguaggio dannoso con esempi più appropriati a determinati argomenti. Ma DeepMind non ha ancora testato questa affermazione. “Non è un problema completamente risolto e il lavoro per affrontare queste sfide è ancora in corso”, afferma Laura Weidinger, ricercatrice di DeepMind.
Il database può anche essere aggiornato senza riqualificare la rete neurale. Ciò significa che nuove informazioni, come per esempio chi ha vinto gli US Open, possono essere aggiunte rapidamente e le informazioni obsolete o false possono essere rimosse. Sistemi come RETRO sono più trasparenti dei modelli simili a una scatola nera come GPT-3, afferma Devendra Sachan, studentessa di dottorato presso la McGill University in Canada. “anche se non è una garanzia che eviterà commenti tossici e pregiudizi”.
Per Sachan, che ha sviluppato un precursore di RETRO in una precedente collaborazione con DeepMind, correggere il comportamento dannoso dei modelli linguistici richiede un’attenta cura dei dati di formazione prima dell’inizio della formazione. Tuttavia, sistemi come RETRO possono aiutare: “È più facile adottare queste linee guida quando un modello utilizza dati esterni per le sue previsioni”, afferma. DeepMind potrebbe essere arrivata in ritardo, ma ha scelto di affiancare ai modelli esistenti un approccio alternativo.
Immagine di: Ms Tech, Getty
(rp)