Centinaia di scienziati in tutto il mondo stanno lavorando insieme per comprendere come si sta sviluppando una delle più potenti tecnologie emergenti prima che sia troppo tardi per porre rimedio ai danni che potrebbe fare.
di Karen Hao
Il 18 maggio, il CEO di Google Sundar Pichai ha annunciato un nuovo straordinario strumento: un sistema di intelligenza artificiale chiamato LaMDA in grado di chattare con gli utenti su qualsiasi argomento. Per iniziare, Google prevede di integrare LaMDA nel suo portale di ricerca principale, nel suo assistente vocale e in Workplace, la sua raccolta di software di lavoro basato su cloud che include Gmail, Documenti e Drive. Ma l’obiettivo finale, ha affermato Pichai, è creare un’interfaccia di conversazione che consenta alle persone, semplicemente chiedendo, di recuperare qualsiasi tipo di informazione (testo, immagini, audio) su tutti i prodotti Google.
Il lancio di LaMDA segnala un altro modo in cui le tecnologie linguistiche stanno diventando sempre più parte della nostra vita quotidiana. Ma la presentazione appariscente di Google ha dribblato il dibattito etico che ora circonda tali sistemi all’avanguardia. LaMDA è noto come LLM (Large Language Model), un algoritmo di apprendimento profondo addestrato su enormi quantità di dati di testo.
Gli studi hanno già dimostrato come le idee razziste, sessiste e offensive siano prevalenti in questi modelli: i medici sono uomini, le infermiere sono donne, i bianchi sono buoni, i neri sono cattivi. Spesso incoraggiano genocidi, autolesionismo e abusi sessuali sui minori. A cuasa delle loro dimensioni hanno un’impronta di carbonio incredibilmente alta. Con la loro fluidità, confondono facilmente le persone e fanno credere che i messaggiu vengano scritti da un essere umano, aprendo la strada alla disinformazione di massa.
A dicembre, Google ha licenziato Timnit Gebru, la sua co-responsabile dell’AI etica, dopo che si era rifiutata di ritirare un articolo in cui parlava di questi problemi. Pochi mesi dopo, malgrado la denuncia su vasta scala di quella che una lettera aperta dei dipendenti di Google definiva la “censura della ricerca senza precedenti” dell’azienda, è stata licenziata anche Margaret Mitchell, la più stretta collaboratrice di Gebru.
Non è solo Google a implementare questa tecnologia. I modelli linguistici di più alto profilo finora sono stati GPT-2 e GPT-3 di OpenAI, che producono passaggi di testo straordinariamente convincenti e possono anche essere riutilizzati per completare composizioni musicali e codice di computer. Microsoft ora concede in licenza esclusivamente GPT-3 per incorporarlo in nuovi prodotti.
Facebook ha sviluppato i propri LLM per la traduzione e la moderazione dei contenuti. E le startup stanno creando dozzine di prodotti e servizi basati sui modelli dei giganti della tecnologia. Ben presto, tutte le nostre interazioni digitali, quando inviamo email, cerchiamo o pubblichiamo sui social media, saranno filtrate tramite LLM.
Sfortunatamente, sono state condotte pochissime ricerche per capire come i difetti di questa tecnologia potrebbero influenzare le persone nelle applicazioni del mondo reale o per capire come progettare LLM migliori che mitighino queste sfide. Come è apparso chiaro con il comportamento di Google nei confronti di Gebru e Mitchell, le poche aziende abbastanza ricche da produrre e mantenere LLM hanno un forte interesse finanziario a rifiutarsi di analizzarli in profondità. In altre parole, gli LLM vengono sempre più integrati nell’infrastruttura linguistica di Internet su fondamenta scientifiche traballanti.
Più di 500 ricercatori in tutto il mondo stanno ora collaborando per saperne di più sulle capacità e sui limiti di questi modelli. Nell’ambito, del progetto BigScience, guidato da Huggingface, una startup che adotta un approccio di “scienza aperta” per comprendere l’elaborazione del linguaggio naturale (PNL), cercano di costruire un LLM open source che fungerà da risorsa condivisa per la comunità scientifica. L’obiettivo è generare più studi possibili in un singolo anno. La loro domanda centrale: come e quando dovrebbero essere sviluppati e implementati gli LLM per raccogliere i loro benefici senza le loro conseguenze dannose?
“Non possiamo davvero fermare questa corsa folle verso i grandi modelli linguistici, in cui tutti mirano ad addestrarli”, dice Thomas Wolf, il chief science officer di Huggingface, che è co-leader dell’iniziativa. “Ma quello che possiamo fare è cercare di spingerla nella direzione più vantaggiosa”.
Pappagalli stocastici
Nello stesso mese in cui BigScience ha dato il via alle sue attività, una startup chiamata Cohere è uscita silenziosamente dall’ombra. Promossa da ex ricercatori di Google, promette di portare gli LLM a qualsiasi azienda che ne desideri uno, con una singola riga di codice. Ha sviluppato una tecnica per addestrare e ospitare il proprio modello con gli scarti inattivi delle risorse computazionali in un data center, in mod da tenere bassi i costi di affitto dello spazio cloud necessario per la manutenzione e la distribuzione.
Tra i suoi principali clienti c’è la startup Ada Support, una piattaforma per la creazione di chatbot per l’assistenza dei clienti senza codice, che serve Facebook e Zoom. E l’elenco degli investitori di Cohere include alcuni dei più grandi nomi del settore: il pioniere della visione artificiale Fei-Fei Li, il vincitore del premio Turing Geoffrey Hinton e il responsabile dell’intelligenza artificiale di Apple, Ian Goodfellow.
Cohere è una delle numerose startup e iniziative che ora cercano di portare gli LLM in vari settori. C’è anche Aleph Alpha, una startup con sede in Germania che cerca di costruire un GPT-3 tedesco, un’impresa anonima avviata da diversi ex ricercatori OpenAI e l’iniziativa open source Eleuther, che ha recentemente lanciato GPT-Neo, una riproduzione gratuita (e un po’ meno potente) di GPT-3.
Ma è il divario tra ciò che sono gli LLM e ciò che aspirano a essere che ha preoccupato un numero crescente di ricercatori. Gli LLM sono effettivamente le tecnologie di completamento automatico più potenti al mondo. Entrando in contatto con milioni di frasi, paragrafi e persino esempi di dialoghi, apprendono i modelli statistici per assemblare i dati in un ordine ragionevole.
Ciò significa che gli LLM possono migliorare determinate attività: per esempio, sono utili per creare chatbot che seguono uno script ben definito e sono più interattivi e fluidi nella conversazione, ma in realtà non capiscono cosa stanno leggendo o dicendo. Molte delle funzionalità più avanzate degli LLM oggi sono disponibili solo in inglese.
Tra le altre cose, questo è ciò che hanno denunciato Gebru, Mitchell e altri cinque scienziati in un loro articolo, in cui gli LLM vengono definiti “pappagalli stocastici”. “La tecnologia del linguaggio può essere molto utile quando è adeguatamente individuata, situata e inquadrata”, afferma Emily Bender, professore di linguistica dell’Università di Washington e uno dei coautori dell’articolo. Ma la natura generica degli LLM e la persuasività del loro mimetismo invoglia le aziende a utilizzarli in aree per cui non sono attrezzati.
In un recente discorso a una delle più grandi conferenze sull’intelligenza artificiale, Gebru ha collegato questo frettoloso dispiegamento degli LLM a situazioni che ha vissuto nella sua vita. Gebru è nata e cresciuta in Etiopia, dove un’escalation della guerra ha devastato la regione più settentrionale del Tigray. L’Etiopia è anche un paese in cui si parlano 86 lingue, quasi tutte non presenti nelle principali tecnologie linguistiche.
Nonostante gli LLM abbiano queste carenze linguistiche, Facebook fa molto affidamento su di loro per automatizzare la moderazione dei contenuti a livello globale. Quando la guerra nel Tigray è scoppiata per la prima volta a novembre, Gebru ha visto la piattaforma annaspare per gestire la raffica di disinformazione. Questo è emblematico di un modello persistente che i ricercatori hanno osservato nella moderazione dei contenuti. Le comunità che parlano lingue non considerate prioritarie dalla Silicon Valley hanno vita difficile negli ambienti digitali.
Gebru ha notato che i danni vanno anche oltre. Quando le notizie false, l’incitamento all’odio e persino le minacce di morte non vengono eliminate, diventano poi parte dei dati di addestramento per costruire la prossima generazione di LLM. E questi modelli, ripetendo a pappagallo ciò su cui sono stati addestrati, finiscono per rigurgitare questi modelli linguistici tossici su Internet.
In molti casi, i ricercatori non hanno elementi sufficienti per sapere come questa tossicità potrebbe manifestarsi nelle applicazioni a valle. Ma, per esempio, nel suo libro del 2018 Algorithms of Oppression, Safiya Noble, professore associato di informazioni e studi afroamericani dell’Università della California, a Los Angeles, ha documentato come i pregiudizi incorporati nella ricerca di Google perpetuano il razzismo e, in casi estremi, forse addirittura favoriscono la violenza razziale.
“Le conseguenze sono piuttosto gravi e significative”, dice. Google non è solo il principale portale di conoscenza per i cittadini medi. Fornisce inoltre l’infrastruttura informativa per istituzioni, università e governi statali e federali. Google utilizza già un LLM per ottimizzare alcuni dei suoi risultati di ricerca.
Con il suo ultimo annuncio di LaMDA e una recente proposta pubblicata in un documento di prestampa, l’azienda ha chiarito che aumenterà la sua dipendenza dalla tecnologia. “Il fatto che il team di intelligenza artificiale etica di Google sia stato licenziato per aver sollevato domande molto importanti sui modelli di discriminazione razzisti e sessisti incorporati in grandi modelli linguistici avrebbe dovuto essere un campanello d’allarme”, spiega Noble.
BigScience
Il progetto BigScience è iniziato in risposta diretta alla crescente necessità di un controllo scientifico degli LLM. Osservando la rapida proliferazione della tecnologia e il tentativo di censura di Gebru e Mitchell da parte di Google, Wolf e diversi colleghi si sono resi conto che era tempo che la comunità di ricerca prendesse in mano la situazione.
Ispirati da collaborazioni scientifiche aperte come quella del CERN nella fisica delle particelle, hanno concepito un’idea per un LLM open source che potrebbe essere utilizzato per condurre ricerche critiche indipendentemente da qualsiasi azienda. Nell’aprile di quest’anno, il gruppo ha ricevuto una sovvenzione per costruirlo utilizzando il supercomputer del governo francese.
Nelle aziende tecnologiche, gli LLM sono spesso prodotti da un piccolo gruppo di persone che ha principalmente competenze tecnologiche. BigScience vuole coinvolgere centinaia di ricercatori provenienti da un’ampia gamma di paesi e discipline per partecipare a un processo di costruzione di modelli veramente collaborativi. Wolf, che è francese, si è avvicinato per la prima volta alla comunità francese di PNL. Da lì, l’iniziativa si è trasformata in un’operazione globale che comprende più di 500 persone.
La collaborazione è ora organizzata in modo approssimativo in una dozzina di gruppi di lavoro e di analisi, ciascuno dei quali affronta diversi aspetti dello sviluppo e dell’indagine del modello. Un gruppo misura l’impatto ambientale del modello, inclusa l’impronta di carbonio della formazione e della gestione del LLM e il calcolo dei costi del ciclo di vita del supercomputer.
Un altro si concentra sullo sviluppo di modalità responsabili di reperimento dei dati di formazione, cercando alternative alla semplice raccolta di dati dal Web, come la trascrizione di archivi radio storici o podcast. L’obiettivo è evitare un linguaggio “tossico” e la raccolta non consensuale di informazioni private.
Altri gruppi di lavoro si dedicano allo sviluppo e alla valutazione della struttura “multilingue” del modello. Per iniziare, BigScience ha selezionato otto lingue o famiglie linguistiche, tra cui inglese, cinese, arabo, indiano (incluso hindi e urdu) e bantu (incluso swahili). Il piano è quello di lavorare a stretto contatto con ogni comunità linguistica per mappare il maggior numero possibile dei suoi dialetti regionali e garantire che le sue specifiche norme sulla privacy dei dati siano rispettate. “Vogliamo che le persone abbiano voce in capitolo sull’utilizzo dei propri dati”, afferma Yacine Jernite, ricercatrice di Huggingface.
Il punto non è costruire un LLM commercialmente valido per competere con prodotti del calibro di GPT-3 o LaMDA. Il modello sarà troppo grande e troppo lento per essere utile alle aziende, afferma Karën Fort, professore associato alla Sorbona. La risorsa è stata progettata esclusivamente per la ricerca. Ogni punto di dati e ogni decisione di modellazione vengono documentati con attenzione e pubblicamente, quindi è più facile analizzare come tutti i pezzi influenzano i risultati del modello. “Non si tratta solo di fornire il prodotto finale”, afferma Angela Fan, una ricercatrice di Facebook. “Immaginiamo ogni singolo pezzo di esso come un prodotto finale”.
Il progetto è indubbiamente ambizioso, il più ampio e collaborativo a livello globale di quanto abbia mai visto la comunità di intelligenza artificiale. La logistica del coordinamento di così tanti ricercatori è di per sé una sfida. Inoltre, ogni singolo ricercatore contribuisce su base volontaria. La sovvenzione del governo francese copre solo risorse computazionali, non umane.
Ma i ricercatori affermano che il bisogno condiviso che ha riunito la comunità ha galvanizzato un livello impressionante di energia e slancio. Molti sono ottimisti sul fatto che entro la fine del progetto, che durerà fino a maggio del prossimo anno, avranno prodotto strumenti e pratiche migliori per costruire LLM e distribuirli in modo responsabile.
Gli organizzatori sperano di indurre più persone nell’industria a incorporare i loro metodi nella loro strategia LLM, sebbene siano i primi ad ammettere di essere idealisti. Semmai, l’enorme numero di ricercatori coinvolti, inclusi molti di giganti della tecnologia, aiuterà a stabilire nuove norme all’interno della comunità della PNL.
In qualche modo le regole sono già cambiate. Cohere ha sentito molti clienti preoccupati per la sicurezza della tecnologia. Sul suo sito include una pagina con l’impegno a investire continuamente nella ricerca tecnologica per mitigare i possibili danni del suo modello. Dice che riunirà anche un consiglio consultivo composto da esperti esterni per aiutarla a creare politiche sull’uso consentito delle sue tecnologie.
“La PNL è a un punto di svolta molto importante”, afferma Fort. BigScience ne è il fulcro. Consente alla comunità di portare avanti la ricerca e fornire un’alternativa promettente allo status quo all’interno dell’industria. “La PNL deve fare il bene delle persone”, conclude.
Immagine di: Ariel Davis