Un nuovo set di dati rivela quanto sia approssimativa l’IA nel ragionamento e indica che un nuovo approccio ibrido potrebbe essere il modo migliore per procedere.
di Karen Hao
CLEVRER, che sta per Collision Events for Video Representation and Reasoning, è un set di dati che comprende 20.000 brevi videoclip sintetici e oltre 300.000 accoppiamenti di domande e risposte relativi alla comprensione degli eventi proposti. Ogni video mostra un semplice mondo di oggetti giocattolo che si scontrano tra loro simulando le leggi della fisica. In uno, una palla di gomma rossa colpisce un cilindro di gomma blu, che a sua volta si scontra con un cilindro di metallo.
Le domande rientrano in quattro categorie: descrittiva (“Qual è la forma dell’oggetto che si scontra con il cilindro turchese?”), esplicativa (“Chi è il responsabile della collisione del cilindro grigio con il cubo?”), predittiva (“Quale evento accadrà dopo?”) e controfattuale (“ Senza l’oggetto grigio, quale evento non accadrà?”).
Le domande rispecchiano in buona parte i concetti che i bambini imparano in prima istanza mentre esplorano l’ambiente circostante. Ma le ultime tre categorie, che richiedono specificamente il ragionamento causale per rispondere, spesso mettono in difficoltà i sistemi di apprendimento profondo.
Il set di dati, creato dai ricercatori di Harvard, DeepMind e MIT-IBM Watson AI Lab, ha lo scopo di aiutare a valutare quanto i sistemi di intelligenza artificiale possono ragionare. Quando i ricercatori hanno testato diversi modelli all’avanguardia di visione artificiale e linguaggio naturale con il set di dati, hanno scoperto che tutti hanno risposto bene alle domande descrittive, ma hanno ottenuto risultati scarsi con le altre tipologie.
Il team ha quindi sperimentato un nuovo sistema di intelligenza artificiale che combina apprendimento profondo e logica simbolica. I sistemi simbolici erano di gran moda prima di essere eclissati dall’apprendimento automatico alla fine degli anni 1980. Entrambi gli approcci hanno i loro punti di forza: l’apprendimento profondo eccelle in termini di scalabilità e riconoscimento dei modelli; i sistemi simbolici raggiungono risultati migliori nell’astrazione e nel ragionamento.
Il sistema composito, noto come modello neuro-simbolico, sfrutta entrambi: utilizza una rete neurale per riconoscere i colori, le forme e i materiali degli oggetti e un sistema simbolico per comprendere la fisica dei loro movimenti e le relazioni causali tra loro. Inoltre, ha superato i modelli esistenti in tutte le categorie di domande.
Questo risultato è importante perché replica il modo di conoscere umano. Da bambini impariamo a osservare il mondo che ci circonda, deduciamo il perché le cose accadono in un certo modo e facciamo previsioni su ciò che accadrà dopo.
Queste previsioni ci aiutano a prendere le decisioni, muoverci nei nostri ambienti e proteggerci dai rischi. Replicare questo tipo di comprensione causale, fornirà alle macchine strumenti per interagire con il mondo in forme più avanzate.
Immagine: Per gentile concessione del MIT-IBM Watson AI Lab
(rp)