Insieme, apprendimento profondo e ragionamento simbolico creano un programma capace di apprendere in maniera del tutto simile a un essere umano.
di Will Knight
Nei decenni trascorsi dall’ideazione dell’intelligenza artificiale, la ricerca si è concentrata particolarmente su due campi principali. I “simbolisti” hanno perseguito la creazione di macchine intelligenti attraverso la codificazione di regole e rappresentazioni logiche del mondo, mentre i “connessionisti” hanno cercato di costruire reti neurali artificiali, prendendo spunto dalla biologia per impartire nozioni sul mondo. I due gruppi sono storicamente contrapposti.
Un nuovo paper pubblicato da MIT, IBM e DeepMind mostra oggi le potenzialità dietro l’abbinamento dei due approcci, gettando una luce sulla possibile strada per ottenere nuovi risultati nel campo. Il team, guidato da Josh Tenenbaum, un professore del Center for Brains, Minds, and Machines del MIT, ha reato un programma denominato NS-CL (Neuro-Symbolic Concept Learner) in grado di apprendere nozioni sul mondo (anche se in versione semplificata) come un bambino: osservando e parlando.
Il sistema consiste di diverse componenti: Una rete neurale addestrata su una serie di scenari composti da piccoli numeri e oggetti; una seconda rete neurale addestrata su una raccolta di domande e risposte semplici riguardo gli scenari raffigurati. Questa rete impara a mappare le domande formulate con linguaggio naturale in un semplice programma che può essere eseguito su uno scenario per formulare delle risposte.
Il sistema NS-CL è anche programmato per comprendere concetti simbolici espressi all’interno del testo, come “oggetti”, attributi di oggetti” e “relazione spaziale”. Questa conoscenza aiuta il sistema a rispondere a nuove domande su uno scenario differente – il genere di capacità che risulterebbe più difficoltoso per un approccio connessionista puro. Il sistema è così in grado di riconoscere concetti espressi all’interno di domande nuove ed associarli visivamente allo scenario illustratogli.
“Questo è un approccio emozionante”, dice Brenden Lake, assistant professor della NYU. “Il riconoscimento di pattern con reti neurali permette al sistema di vedere, mentre i programmi simbolici gli permettono di ragionare. Insieme, le due tecnologie superano le capacità degli attuali sistemi di apprendimento profondo”.
In altre parole, il sistema ibrido affronta i limiti fondamentali dei due approcci distinti mettendoli assieme; supera i problemi di scalabilità del simbolismo, storicamente limitato nella capacità di codificare la complessità della conoscenza umana in maniera efficiente. Allo stesso tempo, affronta uno dei problemi più diffusi fra le reti neurali: il fatto che necessitino di quantitativi enormi di dati.
È possibile addestrare una rete neurale perché risponda a delle domande riguardo uno scenario addestrandola con milioni di dati d’esempio, ma un bambino umano non necessità di un simile quantitativo di dati per cogliere l’essenza di un nuovo oggetto o il suo rapporto con esso. Oltretutto, una rete così addestrata non manifesta una comprensione reale dei concetti coinvolti – il suo è semplicemente un ampio esercizio di associazione fra pattern. Un sistema simile commette facilmente degli errori semplici di fronte a nuovi scenari, un problema diffuso fra le odierne reti neurali (vedi “AI’s language problem”).
I puristi del connessionismo potranno opporsi a questo approccio basandosi sul fatto che il sistema richiede la codificazione manuale di qualche minima nozione di base. Eppure, questa ricerca è importante perché potrebbe condurci alla creazione di una forma di intelligenza più simile alla nostra. Gli scienziati cognitivi ritengono che la mente umana affronti passaggi simili, e che questi siano alla base della flessibilità dell’apprendimento umano.
Più praticamente, questo approccio potrebbe dare vita a nuove applicazioni per l’AI grazie ai minori requisiti in termini di dati d’addestramento. I sistemi robotizzati, ad esempio, potrebbero finalmente imparare nuove funzioni al volo, piuttosto che necessitare di lunghe sessioni di addestramento per riuscire ad affrontare ciascuno scenario unico.
“È un risultato veramente emozionante, perché ci permetterà di liberarci dalla dipendenza da grandi quantità di dati etichettati”, dice David Cox, lo scienziato alla guida del Watson AI lab di MIT e IBM.
I ricercatori dietro questo studio sono ora impegnati nello sviluppare una versione basata sulle fotografie di scene reali, soluzione che potrebbe rivelarsi utile per diverse applicazioni pratiche della visione artificiale.
(MO)