Trent’anni fa, quando Geoff Hinton, il pioniere dell’AI, ha espresso la sua fede nelle reti neurali si è trovato isolato. Ora, come spiega in questa intervista, è difficile trovare qualcuno che non sia d’accordo con lui.
di Karen Hao
* Sulle lacune nel campo dell’AI: “Sono necessarie alcune scoperte concettuali … abbiamo anche bisogno di lavorare su dimensioni più grandi”.
* Sui punti deboli delle reti neurali: “Le reti neurali sono sorprendentemente brave a gestire una quantità di dati piuttosto ridotta, con un numero enorme di parametri, ma le persone hanno prestazioni migliori”.
* Su come funzionano i nostri cervelli: “Quello che c’è dentro il cervello sono grandi vettori di attività neurale”.
La moderna rivoluzione dell’AI è iniziata durante un oscuro concorso di ricerca. Era il 2012, il terzo anno del concorso annuale ImageNet, che sfidava i team a costruire sistemi di visione artificiale in grado di riconoscere 1.000 oggetti, dagli animali ai paesaggi alle persone. Nei primi due anni, le migliori squadre non erano riuscite a raggiungere nemmeno il 75 per cento di precisione. Ma nel terzo, un gruppetto di tre ricercatori, un professore e i suoi studenti, ha colto di sorpresa tutti. Hanno vinto la competizione con l’incredibile cifra di 10,8 punti percentuali. Quel professore era Geoffrey Hinton e la tecnica utilizzata era il deep learning.
Hinton ha effettivamente lavorato al deep learning dagli anni 1980, ma la sua efficacia è stata limitata dalla mancanza di dati e di potenza di calcolo. La sua ferma fiducia nella tecnica alla fine ha pagato enormi dividendi. Al quarto anno del concorso ImageNet, quasi tutti i team utilizzavano il deep learning, ottenendo miracolosi guadagni in termini di precisione. Ben presto l’apprendimento profondo è stato applicato ad altri compiti oltre il riconoscimento delle immagini e in un’ampia gamma di settori.
L’anno scorso, per il suo contributo fondamentale al campo, Hinton ha ricevuto il Turing Award, insieme ad altri pionieri dell’AI del calibro di Yann LeCun e Yoshua Bengio. Il 20 ottobre, ho parlato con lui alla conferenza annuale EmTech MIT di “MIT Technology Review” sullo stato del campo di ricerca e su quali saranno gli sviluppi futuri.
Pensa che il deep learning riuscirà a replicare l’intera intelligenza umana?
Credo che il deep learning sarà in grado di fare tutto, ma saranno necessarie alcune scoperte concettuali. Per esempio, nel 2017, Ashish Vaswani e altri hanno introdotto i trasformatori, che ottengono vettori davvero buoni che rappresentano i significati delle parole. È stata una svolta concettuale che ha portato progressi in quasi tutti i migliori processi di elaborazione del linguaggio naturale. Avremo bisogno di molte altre scoperte come questa.
Se sarà così, l’apprendimento profondo eguaglierà l’intelligenza umana?
Sì. Soprattutto scoperte relative al modo in cui si ottengono grandi vettori di attività neurale per implementare facoltà importanti come la ragione. Ma abbiamo anche bisogno di un significativo aumento di dimensioni. Il cervello umano ha circa 100 trilioni di parametri o sinapsi. Quello che ora chiamiamo un modello importante, come GPT-3, ne ha 175 miliardi. È mille volte più piccolo del cervello. GPT-3 ora può generare testo in parte plausibile, pur essendo minuscolo rispetto al cervello.
Quando parla di dimensioni, intende reti neurali più grandi, più dati o entrambi?
Tutti e due. C’è una sorta di discrepanza tra ciò che accade nell’informatica e ciò che accade con l’uomo. Le persone dispongono di un’enorme quantità di parametri rispetto alla quantità di dati che hanno di fronte. Le reti neurali sono sorprendentemente brave a gestire una quantità di dati piuttosto ridotta, con un numero enorme di parametri. Tuttavia, le persone hanno sempre prestazioni migliori.
Molti esperti del settore credono che l’acquisizione del buon senso sia la prossima grande sfida da affrontare. E’ d’accordo con loro?
Condivido questa posizione. Credo anche che il controllo motorio sia altrettanto essenziale e le reti neurali profonde ora stanno diventando brave in questo. In particolare, alcuni lavori recenti di Google hanno dimostrato che si può ottenere un controllo motorio fine e combinarlo con il linguaggio, in modo da poter aprire un cassetto e prendere un quaderno, e il sistema può dire in linguaggio naturale cosa sta accadendo.
Nel caso di GPT-3, è chiaro che deve capire molto per generare questo tipo di testo, ma non è abbastanza chiaro fin dove arrivi una reale comprensione. Ma se viene aperto un cassetto e preso un quaderno e il sistema dice: “Ho appena aperto un cassetto e ho tirato fuori un quaderno”, è difficile dire che non capisce cosa sta facendo.
Il campo dell’AI ha sempre guardato al cervello umano come la sua più grande fonte di ispirazione e molti approcci all’intelligenza artificiale sono derivati da diverse teorie delle scienze cognitive. Crede che il cervello costruisca effettivamente le rappresentazioni più efficaci per comprendere il mondo esterno o sia solo al momento lo strumento più avanzato per interagirci?
Molto tempo fa, nelle scienze cognitive, c’era un dibattito tra due scuole di pensiero. Una era guidata da Stephen Kosslyn, e credeva che quando si manipolano le immagini nella mente, si producono una serie di pixel in continuo spostamento. L’altra scuola di pensiero era più in linea con l’AI convenzionale e sosteneva che si trattava di descrizioni gerarchiche e strutturali, nel senso che si ha una struttura simbolica nella mente ed è quello che viene manipolata.
Penso che stessero facendo entrambi lo stesso errore. Kosslyn riteneva che stessimo manipolando i pixel perché le immagini esterne sono fatte di pixel, e questa è una rappresentazione che comprendiamo. Gli altri pensavano che stessimo manipolando i simboli perché rappresentiamo le cose con i simboli, e anche questa è una rappresentazione che comprendiamo. A mio parere, invece, dentro il cervello abbiamo dei grandi vettori di attività neurale.
Alcuni studiosi credono ancora che la rappresentazione simbolica sia uno degli approcci validi per l’AI.
Assolutamente sì. Ho buoni amici come Hector Levesque, che crede davvero nell’approccio simbolico e sta portando avanti un ottimo lavoro. Non sono d’accordo con lui, ma l’approccio simbolico è un sistema perfettamente ragionevole da provare. Ma la mia ipotesi è che alla fine ci renderemo conto che i simboli esistono solo là fuori nel mondo esterno, mentre noi facciamo operazioni interne basate su grandi vettori.
Quale crede che sia la sua posizione più “ardita” sul futuro dell’AI?
Le opinioni controcorrente in genere dopo qualche anno diventano mainstream. La maggior parte delle mie opinioni più azzardate degli anni 1980 sono ora ampiamente condivise.
Immagine: Geoff Hinton. Noah Berger / AP
(rp)