Nel settore dell’intelligenza artificiale ci si chiede quale direzione si stia imboccando e in che modo si stia contribuendo allo sviluppo della società.
di Karen Hao
Dagli anni 1950, l’IA è stata spesso al centro di accese discussioni. Mentre gli ultimi anni hanno visto incredibili balzi in avanti grazie all’apprendimento profondo, il mondo dell’intelligenza artificiale è ancora fragile e ha difficoltà ad adattarsi ai diversi ambienti. Tutte queste sfide rendono la tecnologia poco affidabile e limitano i suoi potenziali vantaggi per la società.
Il 26 marzo all’evento annuale EmTech Digital di “MIT Technology Review” americana, due personalità di spicco dell’IA sono salite sul palco virtuale per discutere su come il settore avrebbe potuto superare questi problemi.
Gary Marcus, professore emerito alla New York University e fondatore e CEO di Robust.AI, è un noto critico del deep learning. Nel suo libro Rebooting AI, pubblicato lo scorso anno, ha sostenuto che le carenze dell’IA sono inerenti alla tecnica. I ricercatori devono quindi guardare oltre l’apprendimento profondo, egli sostiene, e combinarlo con sistemi di intelligenza artificiale classici o simbolici che codificano la conoscenza e sono in grado di ragionare.
Danny Lange, vicepresidente dell’IA e dell’apprendimento automatico presso Unity, è la persona giusta per parlare di apprendimento profondo. Ha costruito la sua carriera sulla promessa e sul potenziale della tecnica, avendo ricoperto i ruoli di direttore del machine learning presso Uber, direttore generale di Amazon Machine Learning e responsabile di prodotto presso Microsoft, con particolare riferimento all’apprendimento automatico su larga scala.
In Unity, ora collabora con DeepMind e OpenAI alla costruizione di ambienti di formazione virtuali che addestrano gli algoritmi.
Durante l’evento, ciascun relatore ha tenuto una breve presentazione, a cui è seguito un confronto di gruppo. I disaccordi emersi rispecchiano la discussione all’interno del campo di studi, evidenziando quanto la tecnologia sia al centro di una continua battaglia di idee e quanta poca certezza ci sia su dove sulla direzione da intraprendere.
Di seguito, forniamo una sintesi della tavola rotonda.
Gary, vista la sua esperienza nei campi delle neuroscienze e della psicologia cosa pensa manchi all’IA classica per collaborare in modo fattivo con il mondo dell’apprendimento profondo?
GMLa prima cosa che dirò è che avremo bisogno di ibridi più complessi del semplice apprendimento profondo e dell’IA classica. E’ il requisito minimo per andare avanti. Ma potrebbero esserci una lunga serie di cose che non abbiamo ancora nemmeno sognato. Dobbiamo essere aperti a tutte le novità.
Perché aggiungere l’IA classica al mix? I nostri ragionamenti sono basati sulla conoscenza del mondo che abbiamo e l’apprendimento profondo non la rispecchia. In questi sistemi non c’è modo di rappresentare cosa sia una palla o una bottiglia e che rapporto ci possa essere tra una cosa e l’altra. Quindi anche se i risultati sembrano notevoli, non sono generalizzabili.
L’IA classica può, per esempio, analizzare una frase per la sua rappresentazione semantica, o avere conoscenza di ciò che sta accadendo nel mondo e quindi fare delle deduzioni al riguardo. Ma ha i suoi punti deboli: di solito non ha una copertura completa, perché una buona parte è scritta a mano. Ma almeno in linea di principio, è l’unico modo che conosciamo per creare sistemi in grado di fare cose come inferenza logica e inferenza induttiva su una conoscenza astratta. Non significa ancora che sia la strada giusta in assoluto, ma è di gran lunga il sistema migliore a nostra disposizione.
Intorno a noi ci sono molte prove psicologiche che le persone possono arrivare, anche a livelli precoci, a un certo livello di rappresentazione simbolica. Quando lavoravo sullo sviluppo cognitivo, ho fatto esperimenti con bambini di sette mesi e ho dimostrato che quei bambini potevano generalizzare la conoscenza simbolica. Quindi se un bambino di sette mesi può farlo, perché non riusciamo a replicare questi meccanismi con l’IA?
Ha avuto modo di vedere progetti che hanno messo insieme con successo l’apprendimento profondo e l’IA simbolica?
GM: In un mio articolo The next decade, ho elencato circa 20 diversi progetti recenti che cercano di mettere insieme modelli ibridi che prevedevano forme di apprendimento profondo e alcune conoscenze simboliche. Un esempio ben conosciuto è il sistema di ricerca di Google. Quando si digita una domanda, si attiva una modalità classica di IA che cerca di chiarire il significato contestuale delle parole.
Per esempio, con il grafico della conoscenza di Google, si analizza se la parola “Paris”, si riferisce a Paris Hilton, Paris Texas o la città di Parigi. Poi si utilizza il deep learning per fare altre cose, come trovare sinonimi usando il modello BERT. Naturalmente, la ricerca di Google non è l’obiettivo finale dell’intelligenza artificiale che speriamo di raggiungere, ma è una prova abbastanza solida che non si tratta di un sogno impossibile.
Danny, Lei è d’accordo sul fatto che dovremmo guardare a questi modelli ibridi?
DL: No, la penso diversamente. Il problema che ho con l’IA simbolica è il suo tentativo di cercare di imitare il cervello umano nel senso più profondo del termine. Mi ricorda un po’, quando, nel XVIII secolo, si cercavano sistemi di trasporto più rapidi e si lavorava sulla costruzione di un cavallo meccanico invece di inventare il motore a combustione. Quindi sono molto scettico dei tentativi dell’IA di imitare il funzionamento del cervello umano.
L’apprendimento profondo non è necessariamente la soluzione ideale, ma se gli si forniscono dati sufficienti e si ha a disposizione la giusta architettura di rete neurale, il sistema è in grado di apprendere “astrazioni” che noi come umani non possiamo raggiungere, ma che rendono il sistema molto efficiente nel risolvere un’ampia gamma di compiti.
L’impressione è che siate divisi su quale dovrebbe essere l’obiettivo dell’IA.
GM: Trovo alcuni aspetti del discorso paradossali. Quando ho avuto un dibattito con Yoshua Bengio a dicembre, mi sono sentito dire che il deep learning si basava soprattutto sulla neurologia. Ora ascolto posizioni che vanno all’estremo opposto.Mi sembra difficile prendere sul serio argomentazioni così diverse.
Credo che invece dovremmo chiederci: “I simboli possono aiutarci?” E la risposta è, senza alcun dubbio, sì. Quasi tutto il software del mondo è basato su simboli. La domanda successiva è: “Empiricamente, l’apprendimento profondo realizza quello che vogliamo faccia?”. Il problema finora è stato la mancanza di modelli.
Vicarious [una startup di robotica industriale basata sull’intelligenza artificiale] ha offerto una dimostrazione convincente di un sistema di apprendimento del gioco Atari che DeepMind ha reso molto popolare, imparando a giocare a Breakout a un livello sovrumano. Ma poi Vicarious ha spostato la paletta per ribattere la pallina di alcuni pixel e il tutto è crollato, perché il livello di apprendimento era troppo superficiale. Non aveva il concetto di paletta, palla e mattoncini.
Un algoritmo simbolico per Breakout sarebbe molto facilmente in grado di compensare questi difetti. Il motivo per guardare agli umani è perché ci sono alcune cose che gli umani fanno molto meglio dei sistemi di apprendimento profondo. Ciò non significa comunque che sia il modello giusto. I modelli vincenti dovranno mettere insieme alcune proprietà tipiche dei computer e altre prese in prestito dalle persone.
Non è auspicabile che i nostri sistemi di intelligenza artificiale abbiano una pessima memoria solo perché questa è una caratteristica umana. Ma considerando che le persone sono l’unico modello di un sistema in grado di sviluppare una profonda comprensione di qualcosa dobbiamo necessariamente prendere sul serio questo modello.
DL: Concordo sul fatto che i linguaggi di programmazione del mondo sono basati su simboli perché sono progettati per consentire agli umani di implementare idee e pensieri. Comunque, l’apprendimento profondo non è una replica del cervello umano. Forse si può dire che è ispirato alle reti neurali, ma è un software. Siamo solo agli inizi. Finora abbiamo lavorato su una quantità limitata di dati di allenamento.
Abbiamo avuto a disposizione strutture limitate con potenza di calcolo parziale. Ma il punto chiave è cheil deep learning apprende un concetto, capisce le caratteristiche fondamentali. Non è qualcosa di ingegnerizzato dall’uomo. Ritengo che che la differenza sostanziale tra l’approccio di Gary e il mio sia se gli ingegneri umani forniscono intelligenza al sistema o se il sistema apprende l’intelligenza stessa.
Lei ha appena detto che non abbiamo davvero visto il potenziale dell’apprendimento profondo a causa delle limitazioni nei dati e nel calcolo. Non dovremmo sviluppare nuove tecniche, dato che l’apprendimento profondo è così inefficiente?
DL: Uno dei problemi con il deep learning è che finora si è basato su una sorta di approccio classico: si genera un grande set di dati di training e poi lo si “nutre”. Una cosa che potrebbe davvero migliorare il deep learning è avere un processo di apprendimento attivo in cui la rete viene addestrata a ottimizzare i dati che le vengono forniti. Non ci si deve limitare semplicemente a inserire sempre più dati per migliorare il processo di apprendimento. Si possono inserire dati di allenamento mirati per andare a coprire un’area specifica.
Gary, Lei ha messo in evidenza le vulnerabilità del deep learning nei confronti dei pregiudizi e degli attacchi antagonistici. Danny, Lei ha sostenuto che i dati sintetici sono una soluzione a questi problemi perchè “non c’è parzialità” e si possono eseguire milioni di simulazioni che presumibilmente risolvono il problema delle “illusioni ottiche”. Chi ha ragione?
GM: I dati sintetici non aiuteranno a evitare distorsioni nella concessione di prestiti o nelle interviste di lavoro. Il vero problema è che questi sistemi hanno la tendenza a perpetuare pregiudizi che sono legati a ragioni storiche. Non c’è alcuna sicurezza che i dati sintetici siano la soluzione. A mio parere, la via d’uscita è rappresentata dalla costruzione di sistemi sufficientemente sofisticati da analizzare i pregiudizi culturali che stiamo cercando di evitare.
Gli attacchi antagonistici sono un diverso tipo di cosa. I dati potrebbero aiutare con alcuni di essi, ma ancora siamo lontani dall’aver raggiunto questo risultato. Un esempio evidente è rappresentato dai segnali stradali leggermente modificati che vengono interpretati in modo completamente erroneo. Possiamo correggere l’errore, ma ci saranno sempre dei casi a cui nessuno ha pensato. Un sistema basato esclusivamente sui dati continuerà a essere vulnerabile.
DL: I dati del mondo reale sono soggetti a distorsioni, qualunque cosa si faccia. Si raccolgono dati in un determinato ambiente, per esempio per i veicoli a guida autonoma, e si fornisce una rappresentazione più o meno del 90 per cento degli adulti e del 10 per cento dei bambini nelle strade. Questa è la distribuzione normale. Ma un sistema di apprendimento automatico deve allenarsi su quantità identica di adulti e bambini per evitare di provocare incidenti stradali.
Con i dati sintetici si può fare questa operazione di bilanciamento ed evitare la distorsione se si opera con grande attenzione. Ciò non significa che non si creeranno nuovi pregiudizi. Bisogna porre la massima attenzione a questo aspetto. Sicuramente non ci saranno problemi di privacy, perché non ci sono veri esseri umani o bambini veri in nessuno dei dati di allenamento.
Per quanto riguarda gli esempi antagonistici, il problema con molti di loro è che confondono i modelli di visione artificiale deboli, vale a dire quelli che sono stati formati su 10 o 20 milioni di immagini, per esempio, da ImageNet. Sono dati tutt’altro che sufficienti per arrivare a generalizzazioni tali da formare un modello valido.
Qual è la novità che fa ben sperare per il futuro dell’IA?
GM: Si è verificata una vera esplosione di interesse nei confronti dei modelli ibridi nell’ultimo anno. Mi sembra un filone di studio di grande interesse.
DL: Penso che siano davvero i sistemi multi-modello, che mettono insieme modelli diversi di percezione e comportamento per risolvere compiti davvero complessi.
Immagine: Marcus: R. Farrell/Itu; Lange: Cody Glenn/Web Summit
(rp)