Gli agenti intelligenti di OpenAI si sono evoluti in milioni di sedute di allenamento fino a mostrare comportamenti complessi, aprendo la strada a un piano di lavoro promettente per lo sviluppo di un’intelligenza artificiale più sofisticata.
di Karen Hao
All’inizio della vita sulla Terra, gli organismi biologici erano estremamente semplici. Erano microscopiche creature unicellulari con poca o nessuna capacità di coordinarsi. Eppure miliardi di anni di evoluzione attraverso la competizione e la selezione naturale hanno portato alle complesse forme di vita che abbiamo oggi, così come alla forma evoluta di intelligenza umana.
I ricercatori di OpenAI, il laboratorio di ricerca sull’intelligenza artificiale con sede a San Francisco, stanno ora testando un’ipotesi: se si potesse imitare lo stesso processo evolutivo in un mondo virtuale, si genererebbe un’intelligenza artificiale molto più sofisticata di quella attuale?
L’esperimento si basa su due idee già conosciute nel campo di ricerca: un sistema di apprendimento multi-agente, vale a dire più algoritmi in competizione o coordinamento per provocare l’emergere di nuovi comportamenti e l’ apprendimento di rinforzo, la specifica tecnica di apprendimento automatico che impara a raggiungere un obiettivo attraverso prove ed errori (DeepMind ha reso popolare quest’ultimo con il suo rivoluzionario programma AlphaGo, che ha battuto il miglior giocatore umano nell’antico gioco da tavolo cinese Go).
In un articolo pubblicato pochi giorni fa, OpenAI ha rivelato i suoi risultati iniziali. Attraverso centinaia di milioni di ripetizioni di un semplice gioco, il nascondino, due team opposti di agenti di intelligenza artificiale hanno sviluppato nascondigli sempre più elaborati e strategie di ricerca che hanno comportato l’uso di strumenti di cooperazione.
La ricerca offre inoltre informazioni sulla strategia operativa dominante di OpenAI: rendere di massa le tecniche di intelligenza artificiale esistenti per vedere quali proprietà emergono.
Sei passaggi strategici
Per creare il gioco, i ricercatori hanno progettato un ambiente virtuale che consisteva in uno spazio chiuso con vari oggetti come blocchi, rampe e barriere mobili e immobili. Gli agenti stessi erano controllati da algoritmi di apprendimento di rinforzo.
Per ogni partita, gli agenti sono stati divisi in due squadre: chi si nascondeva è stato penalizzato o premiato a seconda se si era fatto trovare o no; chi cercava veniva ricompensato o penalizzato se riusciva o meno a trovare gli agenti nascosti.
Come in un classico gioco a nascondino, chi si nascondeva ha avuto qualche decina di secondi di vantaggio per nascondersi. Nel corso di centinaia di milioni di round di gioco, gli agenti hanno sviluppato diverse strategie e controstrategie.
Durante la prima fase, chi cercava e chi si nascondeva hanno sviluppato strategie di evitamento e inseguimento molto grossolane, muovendosi nello spazio senza utilizzare nessuno degli oggetti.
Ma dopo 25 milioni di partite, il gioco è diventato più sofisticato. Chi si nascondeva ha imparato a spostare e bloccare le scatole disposte nell’ambiente per costruire fortezze intorno a sé, in modo da non farsi vedere, e ha anche sviluppato strategie collaborative, come il passaggio reciproco di oggetti, per accelerare il processo di costruzione dei nascondigli.
Dopo altri 75 milioni di round, tuttavia, chi cercava ha scoperto una controstrategia, dando vita a una terza fase di sviluppo. Ha imparato a spostare una rampa vicino al nascondiglio di chi scappava e ad usarla per scavalcare le pareti.
Nella quarta fase, dopo altre 10 milioni di partite, chi si nascondeva aveva capito come bloccare le rampe prima di costruire il nascondiglio (Nessuna delle due squadre poteva sbloccare un oggetto bloccato da una squadra avversaria).
Inizialmente, i ricercatori di OpenAI credevano che questa fosse l’ultima fase del gioco, ma alla fine, dopo 380 milioni di giocate, sono emerse altre due strategie. Chi cercava ha sviluppato una nuova strategia per irrompere nei rifugi organizzati da chi scappava, usando una rampa bloccata per arrampicarsi su una scatola sbloccata e calarsi oltre le mura difensive.
Nella fase finale, chi si nascondeva è riuscito ancora una volta a bloccare tutte le rampe e le scatole prima di costruire il suo nascondiglio.
L’intelligenza emergente
I ricercatori ritengono che questi risultati iniziali dimostrino la validità del nuovo metodo per lo sviluppo di una IA più complessa. “Non abbiamo fornito istruzioni a chi cercava e a chi si nascondeva per utilizzare gli strumenti a loro disposizione e trovare forme di cooperazione”, afferma Bowen Baker, uno degli autori della ricerca. “Ma attraverso una collaborazione multiagente, in autonomia hanno creato nuovi compiti l’uno per l’altro in modo che l’altra squadra dovesse trovare delle contromisure”.
Questo studio è relativamente unico nell’approccio di OpenAI alla ricerca sull’IA. Sebbene il laboratorio abbia anche investito nello sviluppo di nuove tecniche relative ad altri laboratori, si è fatto un nome principalmente reinterpretando le tecnologie a disposizione.
GPT-2, il discusso modello linguistico del laboratorio, per esempio, ha preso in prestito la progettazione algoritmica da modelli linguistici precedenti, incluso BERT di Google. Le principali innovazioni di OpenAI sono state introdotte in ambito ingegneristico e nell’espansione delle risorse computazionali.
In un certo senso, questo studio ribadisce il valore di testare i limiti delle tecnologie esistenti su larga scala. Il team prevede di continuare con questa strategia. I ricercatori affermano che il primo ciclo di esperimenti non si è avvicinato al raggiungimento dei limiti delle risorse computazionali che si potrebbero dedicare al problema.
“Vogliamo capire cosa succederebbe se si allargasse questo tipo di esperimenti ad ambienti molto più complessi”, afferma Baker. “I comportamenti che si apprendono potrebbero effettivamente essere in grado di affrontare alcuni problemi che oggi non sappiamo risolvere”.
Immagine: OpenAI
(rp)