Le reti antagoniste generative possono mostrarci come gli algoritmi di intelligenza artificiale “ragionano”.
di Karen Hao
Le reti antagoniste generative, o GAN, sono la stella degli algoritmi di IA per i social media. Sono responsabili della creazione dei primi dipinti prodotti da una intelligenza artificiale e venduti a un’asta d’arte, oltre che della sovrapposizione dei volti delle celebrità sui corpi delle star del porno. Operano mettendo a confronto due reti neurali per creare output realistici basati sui dati in esse introdotti. Introducete foto di cani, e otterrete immagini di cani interamente nuovi; introducete foto di volti umani, e otterrete nuovi volti umani.
Per quanto scompiglio possano creare, i ricercatori del MIT-IBM Watson AI Lab si sono resi conto del potenziale nascosto nelle GAN: dipingendo ciò che “pensano”, le reti antagoniste generative potrebbero offrire agli esseri umani uno scorcio del processo di apprendimento e ragionamento delle reti neurali, una prospettiva che l’intera comunità scientifica sta cercando di ottenere da tempo, e un aspetto sempre più fondamentale per garantire l’affidabilità degli algoritmi.
“Abbiamo la possibilità di scoprire ciò che una rete impara dai suoi tentativi di ricreare il mondo visivo”, spiega David Bau, uno studente PhD del MIT che ha lavorato al progetto.
I ricercatori hanno cominciato a sondare i meccanismi di apprendimento della GAN introducendo svariate foto di scenari – alberi, erba, edifici e cielo – per verificare se questa avrebbe imparato a organizzare i pixel in gruppi sensati senza aver ricevuto istruzioni esplicite su come procedere.
Sorprendentemente, con il passare del tempo, la GAN è riuscita nel suo intento. Attivando e disattivando “neuroni” differenti e chiedendo alla GAN di raffigurare ciò a cui stava pensando, i ricercatori hanno identificato cluster di neuroni che avevano imparato a rappresentare un albero, ad esempio. Altri cluster riuscivano invece a raffigurare un prato, muri o porte; in altre parole, il sistema era riuscito a raggruppare pixel di alberi o porte a prescindere dal colore che questi avevano nelle differenti foto utilizzate per l’addestramento.
“Le GAN stanno imparando concetti molto simili a quelli espressi dagli esseri umani con le parole”, spiega Bau. Oltretutto, pare che la GAN sapesse esattamente quale porta dipingere in base al tipo di muro raffigurato nell’immagine di addestramento. Un edificio in mattone, con un’architettura tipica dello stile georgiano, avrebbe presentato una porta fedele allo stile di partenza. Il sistema si è persino rifiutato di dipingere porte nel cielo. Senza neanche aver ricevuto indicazioni a riguardo, la GAN avrebbe colto alcune verità inespresse del mondo reale.
Questa scoperta è stata importante per il team di ricerca. “Stanno emergendo aspetti di logica comune”, commenta Bau. “In precedenza non era chiaro se esistesse alcun modo per apprendere questo genere di cosa per un algoritmo di apprendimento automatico”. Il fatto che sia possibile lascia intravvedere la possibilità per l’apprendimento profondo di avvicinarsi al modo in cui funziona un cervello umano, anche se con un livello di intelligenza lontano da quello della nostra specie.
<iframe width=”560″ height=”315″ src=”https://www.youtube.com/embed/yVCgUYe4JTM” frameborder=”0″ allow=”accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture” allowfullscreen></iframe>
Altri gruppi di ricerca hanno cominciato a identificare processi di apprendimento simili nelle reti addestrate con altre forme di dati, stando a Bau. Nella ricerca per l’elaborazione linguistica, ad esempio, i ricercatori hanno scoperto cluster di neuroni capaci di esprimere parole al plurale e pronomi di genere.
La possibilità di identificare quali cluster corrispondano a determinati concetti permette di controllare l’output della rete neurale. Il gruppo di Bau può solo attivare uno alla volta i cluster di neuroni che producono alberi o porte. Le reti linguistiche, allo stesso modo, possono essere manipolate per alterarne l’output. “Stiamo cominciando ad acquisire l’abilità di intervenire su una rete neurale per causare risposte differenti”, spiega Bau.
Il team ha realizzato l’app GANpaint per trasformare questa nuova abilità in uno strumento artistico. L’app consente di selezionare specifici cluster di neuroni per dipingere scenari di edifici su prati e tante, tante porte. Al di là della semplicità di questo prodotto giocoso, il processo sottostante rappresenta il grande potenziale di questa ricerca.
“Il problema con le IA è che, chiedendogli di svolgere una mansione, si ripone in essa una fiducia enorme”, dice Bau. “Si inserisce un input, quindi si attende che l’IA porti a termine i suoi ‘geniali’ ragionamenti e fornisca il suo output. Persino lavorando con un essere umano super intelligente, non vorremmo collaborarvi a questo modo”.
Con GANpaint è possibile cominciare ad aprire la scatola nera delle IA e instaurare una prima forma di rapporto. “Potete scoprire cosa succede prendendo una decisione piuttosto che un’altra”, spiega il creatore dell’app Hendrik Strobelt. “Nel momento in cui si può giocare con queste funzioni si comincia ad acquistare una maggiore fiducia nelle capacità e nei limiti dei sistemi”.
(MO)