Un decennio fa, Geoffrey Hinton, il pioniere dell’intelligenza artificiale, ha innovato il settore di ricerca. Ora sta lavorando a un nuovo sistema immaginario chiamato GLOM.
di Siobhan Roberts
A novembre del 2020, dopo mezzo secolo di tentativi, alcuni di grande successo, lo scienziato informatico e psicologo cognitivo Geoffrey Hinton ha avuto un’altra intuizione promettente su come funziona il cervello e su come replicare i suoi circuiti in un computer. “È la ricerca più promettente che sto portando avanti”, dice Hinton dal suo ufficio a Toronto, dove si è ritirato durante la pandemia.
Se tutto andrà bene, il suo studio potrebbe dare vita alla prossima generazione di reti neurali artificiali: sistemi di calcolo matematico, vagamente ispirati ai neuroni e alle sinapsi del cervello, che sono al centro dell’intelligenza artificiale di oggi. A febbraio Hinton, collaboratore di Google e cofondatore del Vector Institute for Artificial Intelligence, ha annunciato su Twitter di aver pubblicato un documento di 44 pagine sul server di preprint di arXiv.
Ha iniziato con una dichiarazione di non responsabilità: “Questo documento non descrive un sistema funzionante”, ha scritto. Piuttosto, presenta un “sistema immaginario”. L’ha chiamato “GLOM”. Il termine deriva dalla fusione di “agglomerate” e dell’espressione “glom together”.
Hinton pensa a GLOM come a un modo per modellare la percezione umana in una macchina, a un tentativo di elaborare e rappresentare le informazioni visive in una rete neurale. A livello tecnico, alla base del sistema si trova un incollaggio di vettori simili. Questi elementi – insiemi organizzati di numeri che codificano le informazioni – sono fondamentali per le reti neurali. L’esempio più semplice sono le coordinate xyz di un punto: tre numeri che indicano dove si trova il punto nello spazio tridimensionale.
Un vettore a sei dimensioni contiene altre tre informazioni, come nel caso dei valori rosso-verde-blu per il colore del punto. In una rete neurale, i vettori in centinaia o migliaia di dimensioni rappresentano intere immagini o parole. E trattando dimensioni ancora più elevate, Hinton crede che ciò che accade nel nostro cervello coinvolga “grandi vettori di attività neurale”.
Per analogia, Hinton paragona il suo raggruppamento di vettori simili alla dinamica di una camera d’eco: l’amplificazione di credenze simili. “Una camera d’eco è un completo disastro per la politica e la società, ma per le reti neurali è un’ottima cosa”, dice Hinton. Lui le chiama “isole di vettori identici” o, più colloquialmente, “isole di accordo” che, quando i vettori concordano sulla natura delle loro informazioni, si muovono nella stessa direzione.
Hinton ritiene che l’intuizione sia cruciale per la percezione. Definisce l’intuizione come la nostra capacità di fare analogie senza sforzo. Dall’infanzia attraverso il corso della nostra vita, diamo un senso al mondo usando il ragionamento analogico, mappando le somiglianze da un oggetto, un’idea o un concetto a un altro o, meglio, da un grande vettore all’altro. “Le somiglianze dei grandi vettori spiegano come le reti neurali eseguono il ragionamento analogico intuitivo”, afferma Hinton.
Più in generale, l’intuizione cattura quel modo ineffabile in cui un cervello umano genera intuizioni. Lo stesso Hinton è guidato dall’intuizione e dallo strumento dell’analogia. E la sua teoria su come funziona il cervello si basa sull’intuizione. Hinton spera che GLOM possa essere una delle numerose scoperte necessarie a far sì che l’intelligenza artificiale sia in grado di risolvere i problemi in modo veramente agile, il tipo di pensiero umano che consentirebbe a un sistema di dare un senso a cose mai incontrate prima; attingere a somiglianze da esperienze passate, giocare con le idee, generalizzare, estrapolare, capire.
“Se le reti neurali fossero più simili alle persone”, egli spiega, “potrebbero sbagliare come fanno le persone, e così capiremmo dove nasce l’errore”. Lui stesso definisce GLOM “vaporware”, ossia un prodotto che non si sa se vedrà mai la luce.
Fuori dagli schemi
La devozione di Hinton alle reti neurali artificiali (un’invenzione della metà del XX secolo) risale ai primi anni 1970. Nel 1986 si sono registrati notevoli progressi: mentre inizialmente le reti comprendevano solo un paio di strati di neuroni, input e output, Hinton e collaboratori escogitarono una tecnica per una rete più profonda e multistrato. Ma ci sono voluti 26 anni prima che la potenza di calcolo e la capacità dei dati raggiungessero e capitalizzassero l’architettura profonda.
Nel 2012, Hinton ha guadagnato fama e ricchezza grazie a una svolta nel deep learning. Con due studenti, ha implementato una rete neurale multistrato e l’haaddestrata a riconoscere gli oggetti in enormi set di dati di immagini. La rete neurale ha imparato a migliorare in modo iterativo la classificazione e l’identificazione di vari oggetti, per esempio un acaro, un fungo, uno scooter a motore, un gatto del Madagascar. E ha dimostrato una precisione spettacolare.
Il deep learning ha dato il via all’ultima rivoluzione dell’AI, trasformando la visione artificiale e il campo nel suo complesso. Hinton crede che il deep learning sia quasi tutto ciò che serve per replicare completamente l’intelligenza umana.
Ma nonostante i rapidi progressi, ci sono ancora grandi sfide. Se la si espone a un set di dati sconosciuto o a un ambiente estraneo, la rete neurale si rivela fragile e poco flessibile. Le auto a guida autonoma e i generatori di linguaggio per scrivere saggi impressionano, ma mostrano lacune evidenti. I sistemi visivi dell’AI possono essere facilmente confusi: una tazza di caffè che viene riconosciuta da una posizione laterale può diventare un’incognita dall’alto se il sistema non è stato addestrato a farlo e con la manipolazione di pochi pixel, un panda può essere scambiato per uno struzzo, o addirittura uno scuolabus.
GLOM affronta due dei problemi più complessi per i sistemi di percezione visiva: comprendere un’intera scena in termini di oggetti e delle loro parti naturali; riconoscere gli oggetti da un nuovo punto di vista (l’attenzione di GLOM è sulla visione, ma Hinton si aspetta che l’idea possa essere applicata anche al linguaggio).
La relazione parziale tra gli elementi e il punto di vista sono cruciali per il sistema di visione umano. “Se GLOM dovesse mai funzionare”, dice Hinton, “renderà la percezione più simile a quella umana rispetto alle attuali reti neurali”. Raggruppare le parti in interi, tuttavia, può essere un problema difficile per i computer, poiché le parti a volte sono ambigue. Un cerchio potrebbe essere un occhio, una ciambella o una ruota.
Come spiega Hinton, la prima generazione di sistemi di visione AI ha cercato di riconoscere gli oggetti basandosi principalmente sulla geometria della relazione parte-tutto. La seconda generazione si è invece basata principalmente sul deep learning, lasciando che la rete neurale si allenasse su grandi quantità di dati. Con GLOM, Hinton combina gli aspetti migliori di entrambi gli approcci.
“C’è una certa umiltà intellettuale che mi piace al riguardo”, afferma Gary Marcus, fondatore e CEO di Robust AI e noto critico della forte dipendenza dal deep learning. Marcus ammira la volontà di Hinton di sfidare qualcosa che gli ha portato la fama, per ammettere che non funziona del tutto. “È coraggioso”, dice. “Ed è un ottimo correttivo dire: ‘Sto cercando di pensare fuori dagli schemi'”.
L’architettura di GLOM
Nel creare il nuovo sistema, Hinton ha cercato di adottare alcune scorciatoie mentali – strategie intuitive o euristiche – che le persone usano per dare un senso al mondo. “GLOM, e in effetti gran parte del lavoro di Geoff, riguarda l’osservazione delle euristiche che le persone sembrano avere, la costruzione di reti neurali che potrebbero esse stesse avere quelle euristiche, e quindi mostrare che le reti ottengono risultati migliori nella visione”, afferma Nick Frosst, un informatico di una startup che si occupa di linguaggio a Toronto, che ha lavorato con Hinton in Google Brain.
Con la percezione visiva, una strategia consiste nell’analizzare parti di un oggetto, come i diversi tratti del viso, e quindi comprendere il tutto. Se si vede un determinato naso, lo si può riconoscere come parte del viso di Hinton, ma è una gerarchia parziale. “Per costruire un sistema di visione migliore”, dice Hinton, “si devono utilizzare gerarchie parzialmente intere”.
I cervelli umani comprendono questa composizione parte-tutto creando quello che viene chiamato un “albero sintetico”, un diagramma ramificato che dimostra la relazione gerarchica tra il tutto, le sue parti e le sottoparti. La faccia stessa è in cima all’albero e gli occhi, il naso, le orecchie e la bocca componenti formano i rami sottostanti.
Uno degli obiettivi principali di Hinton con GLOM è, a differenza delle esperienze precedenti, replicare l’albero di analisi in una rete neurale. Per motivi tecnici, è difficile da fare. “Non è semplice perché ogni singola immagine sarebbe analizzata da una persona in un albero di analisi unico e noi vorremmo che una rete neurale facesse lo stesso”, afferma Frosst. “Per un’architettura statica come quella di una rete neurale, assumere una nuova struttura, un albero di analisi, per ogni nuova immagine che vede è un’operazione complessa”. Hinton ci ha provato più volte. GLOM è una revisione importante del suo precedente tentativo nel 2017, combinato con altri progressi correlati nel campo.
Un modo generalizzato di pensare all’architettura GLOM è il seguente: l’immagine di interesse (per esempio, una fotografia del volto di Hinton) è divisa in una griglia. Ogni regione della griglia è una “posizione” sull’immagine: una per l’iride di un occhio, un’altra per la punta del naso. Per ogni posizione nella rete ci sono circa cinque strati, o livelli. E livello per livello, il sistema fa una previsione, con un vettore che rappresenta il contenuto o le informazioni. A un livello più basso, il vettore che rappresenta la posizione della punta del naso potrebbe prevedere: “Faccio parte di un naso!” E al livello successivo, nel costruire una rappresentazione più coerente di ciò che sta vedendo, il vettore potrebbe prevedere: “Faccio parte di una faccia vista lateralmente!”.
Il problema è se i vettori dei livelli adiacenti sono d’accordo. Se è così, i vettori puntano nella stessa direzione, verso la stessa conclusione: “Sì, apparteniamo entrambi allo stesso naso”. O, più in alto nell’albero di analisi, “Sì, apparteniamo entrambi alla stessa faccia”. Per trovare il consenso sulla natura di un oggetto – su cosa sia precisamente l’oggetto, in definitiva – i vettori di GLOM operano iterativamente, posizione per posizione e strato su strato.
La rete calcola la media in modo selettivo, con previsioni vicine che mostrano somiglianze. “In America è un fenomeno ben noto, chiamato camera d’eco”, egli spiega. “Quello che si fa è accettare solo le opinioni di persone con cui si è già d’accordo, ottenendo una camera d’eco in cui un intero gruppo di persone ha esattamente la stessa opinione. GLOM utilizza questo meccanismo in modo costruttivo. Hinton le definisce “isole di accordo”.
“Si immagini un gruppo di persone in una stanza, che sostengono lievi variazioni della stessa idea”, dice Frosst, e si pensi a queste persone come vettori che con piccole differenze puntano tutti nella stessa direzione. “In breve convergerebbero su un’unica idea, e tutti aderirebbero con convinzione perché l’hanno confermata dalle altre persone intorno a loro.” È così che i vettori di GLOM rafforzano e amplificano le loro previsioni collettive su un’immagine.
GLOM utilizza queste isole di vettori concordanti per rappresentare un albero di analisi in una rete neurale. Mentre alcune reti neurali recenti utilizzano l’accordo tra i vettori per l’ attivazione , GLOM utilizza l’accordo per la rappresentazione, vale a dire la descrizione di cose all’interno della rete. Per esempio, quando diversi vettori concordano sul fatto che ci si trova davanti a parti del naso, il loro piccolo gruppo rappresenta il naso nell’albero di analisi della rete per il viso.
Un altro piccolo gruppo di vettori concordanti potrebbe raffigurare la bocca dell’albero sintetico e il grande ammasso in cima all’albero descriverebbe l’immagine nel suo insieme come il volto di Hinton. “Il modo in cui l’albero di analisi è rappresentato qui”, spiega Hinton, “è che a livello di oggetto si ha una grande isola, le parti dell’oggetto sono isole minori e le sottoparti sono isole ancora più piccole e così via”. (Si veda figura 2)
Secondo Yoshua Bengio, uno scienziato informatico dell’Università di Montreal, amico e collaboratore di lunga data di Hinton, se GLOM riuscisse a risolvere la sfida ingegneristica di rappresentare un albero sintetico in una rete neurale, sarebbe un passo avanti sostanziale per fare in modo che le reti neurali funzionino correttamente. “Geoff ha prodotto intuizioni incredibilmente potenti molte volte nella sua carriera, molte delle quali si sono dimostrate giuste”, dice Bengio.
La forza della convinzione di Hinton è radicata non solo nell’analogia con la camera d’eco, ma anche nelle analogie matematiche e biologiche che hanno ispirato e giustificato alcune delle decisioni progettuali nella nuova ingegneria di GLOM. “Geoff è un pensatore originale in quanto è in grado di attingere a concetti matematici complessi e integrarli con vincoli biologici per sviluppare teorie”, afferma Sue Becker, ex studentessa di Hinton, ora neuroscienziata cognitiva computazionale alla McMaster University.
Dalla filosofia all’ingegneria
Finora, la nuova idea di Hinton è stata ben accolta. “Su Twitter, ho ricevuto molti ‘Mi piace’”, dice. E un tutorial di YouTube rivendicava il termine “MeGLOMania”. Hinton è il primo ad ammettere che attualmente GLOM è poco più di una riflessione filosofica (ha trascorso un anno come studente di filosofia prima di passare alla psicologia sperimentale). A suo parere, se un’idea suona bene in campo filosofico, è buona. ” La scienza, in confronto, è “piena di cose che sembrano spazzatura completa”, ma si rivelano funzionare molto bene, come nel caso delle reti neurali”, egli afferma.
GLOM è progettato per suonare filosoficamente plausibile. Ma funzionerà?
Chris Williams, professore di machine learning presso la School of Informatics dell’Università di Edimburgo, si aspetta che GLOM possa generare grandi innovazioni. Tuttavia, spiega, “l’aspetto che distingue l’AI dalla filosofia è che possiamo usare i computer per testare tali teorie. È possibile che un difetto nell’idea possa essere scoperto, forse anche eliminato, dagli esperimenti. Al momento non credo che abbiamo prove sufficienti per valutare il vero significato dell’idea, anche se credo che le premesse siano ottime”.
Alcuni dei colleghi di Hinton di Google Research, a Toronto, sono nelle primissime fasi di investigazione sperimentale di GLOM. Laura Culp, un ingegnere del software che implementa nuove architetture di rete neurale, sta utilizzando una simulazione al computer per verificare se GLOM può produrre le isole di accordo di Hinton nella comprensione di parti e interi di un oggetto, anche quando gli input parziali sono ambigui. Negli esperimenti, le parti sono 10 ellissi, ovali di varie dimensioni, che possono essere disposte per formare una faccia o una pecora. (Si veda figura 3)
Con input casuali di un’ellisse o di un’altra, il modello dovrebbe essere in grado di fare previsioni, dice Culp, e “affrontare l’incertezza se l’ellisse fa parte o meno di una faccia o di una pecora e se è la gamba di una pecora, o la testa di una pecora”. Di fronte a qualsiasi perturbazione, anche il modello dovrebbe essere in grado di correggersi.
Un passo successivo è stabilire una linea di base, che indica se una rete neurale di deep learning standard potrebbe essere confusa da un tale compito. Finora, GLOM è altamente supervisionato: Culp crea ed etichetta i dati, sollecitando e facendo pressione sul modello per trovare previsioni corrette e avere successo nel tempo.
In questo stato preliminare, è troppo presto per trarre conclusioni importanti. Culp sta aspettando altri dati. Tuttavia, Hinton è rimasto impressionato. “Una semplice versione di GLOM può guardare 10 ellissi e vedere una faccia e una pecora in base alle relazioni spaziali tra le ellissi”, spiega. “Questo è complicato, perché una singola ellisse non comunica nulla sul tipo di oggetto a cui appartiene o su quale parte di quell’oggetto è”.
Nel complesso, Hinton è soddisfatto del feedback. “Volevo solo pubblicarlo per la comunità, per far sperimentare a chiunque una serie di combinazioni di queste idee. Così si trasforma la filosofia in scienza”, conclude.
Immagine di: Kiel Mutschelknaus
(rp)