L’apprendimento “Less than one” permette all’intelligenza artificiale di identificare gli oggetti senza essere addestrata con migliaia di esempi.
di Karen Hao
L’apprendimento automatico in genere richiede una quantità enorme di dati. Per fare in modo che un modello di AI riconosca un cavallo, è necessario mostrargli migliaia di immagini del quadrupede. Questo è ciò che rende la tecnologia computazionalmente costosa e molto diversa dall’apprendimento umano. Un bambino ha spesso bisogno di vedere solo pochi esempi di un oggetto, o anche solo uno, prima di poterlo riconoscere per tutta la vita.
In realtà, i bambini a volte non hanno bisogno di alcun esempi per identificare qualcosa. Se vengono mostrate loro le foto di un cavallo e un rinoceronte e viene detto che un unicorno è una via di mezzo, possono riconoscere la creatura mitica in un libro illustrato la prima volta che lo vedono.
Ora, un nuovo documento dell’Università di Waterloo in Ontario indica che anche i modelli di intelligenza artificiale dovrebbero essere in grado di fare questo: un processo che i ricercatori chiamano apprendimento “Less than one” o LO-shot. In altre parole, un modello di intelligenza artificiale dovrebbe essere in grado di riconoscere con precisione più oggetti rispetto al numero di esempi sui quali è stato addestrato. Potrebbe essere una svolta per un campo che è diventato sempre più costoso e inaccessibile man mano che i set di dati utilizzati diventano sempre più grandi.
Come funziona l’apprendimento “meno di uno”
I ricercatori hanno offerto una dimostrazione durante la sperimentazione con il popolare set di dati di visione artificiale noto come MNIST, che contiene 60.000 immagini di addestramento di cifre scritte a mano da 0 a 9 e che viene spesso utilizzato per testare nuove idee sul campo. In un documento precedente, i ricercatori del MIT avevano introdotto una tecnica per “distillare” insiemi di dati di grandi dimensioni in piccoli insiemi e, come prova del concetto, avevano compresso MNIST fino a solo 10 immagini.
Le immagini non sono state selezionate dal set di dati originale, ma sono state attentamente progettate e ottimizzate per contenere una quantità di informazioni equivalente al set completo. Di conseguenza, quando addestrato esclusivamente sulle 10 immagini, un modello AI potrebbe raggiungere quasi la stessa precisione di uno addestrato su tutte le immagini di MNIST.
I ricercatori di Waterloo volevano portare avanti il processo di riduzione. Se è possibile scendere da 60.000 immagini fino a 10, perché non arrivare a cinque? Il trucco, secondo loro, era creare immagini che unissero più cifre insieme e quindi inserirle in un modello AI con etichette ibride o “soft”, come nel caso dell’esempio del cavallo e del rinoceronte con l’unicorno.
“Se si pensa alla cifra 3, si può confondere con l’8 ma non con il 7”, dice Ilia Sucholutsky, che sta svolgendo il dottorato a Waterloo e autrice principale dell’articolo. “Le etichette non rigide cercano di catturare queste caratteristiche condivise. Quindi, invece di dire alla macchina: ‘Questa immagine è la cifra 3’, diciamo: ‘Questa immagine è al 60 per cento un 3, al 30 per cento un 8 e al 10 per cento uno 0’”.
I limiti dell’apprendimento con LO-shot
Una volta che i ricercatori hanno utilizzato con successo le soft label per ottenere l’apprendimento LO-shot su MNIST, hanno iniziato a chiedersi fino a che punto questa idea potesse effettivamente spingersi. C’è un limite al numero di categorie da utilizzare per insegnare a un modello di intelligenza artificiale ad identificare qualcosa a partire da un numero esiguo di esempi?
Sorprendentemente, la risposta sembra essere no. Con etichette soft attentamente progettate, anche due esempi potrebbero teoricamente codificare un numero qualsiasi di categorie. “Con due punti, si possono separare un migliaio di classi o 10.000 classi o un milione di classi”, afferma Sucholutsky.
Questo è ciò che i ricercatori dimostrano nel loro ultimo articolo, attraverso un’esplorazione puramente matematica. Eseguono il concetto con uno dei più semplici algoritmi di apprendimento automatico, noto come k-neighbors (kNN), che classifica gli oggetti utilizzando un approccio grafico.
Per capire come funziona kNN, si ipotizzi il compito di classificare i frutti come esempio. Se si vuole addestrare un modello kNN a comprendere la differenza tra mele e arance, è necessario prima selezionare le caratteristiche che si desidera utilizzare per rappresentare ogni frutto. Nel caso si scelga il colore e il peso, per ogni mela e arancia si fornisce al kNN un punto dati con il colore del frutto come valore x e il peso come valore y. L’algoritmo kNN traccia quindi tutti i punti dati su un grafico 2D e disegna una linea di confine dritta al centro tra le mele e le arance. A questo punto il grafico è suddiviso in due classi e l’algoritmo può ora decidere se i nuovi punti dati rappresentano l’uno o l’altro in base al lato della linea su cui cadono.
Per esplorare l’apprendimento LO-shot con l’algoritmo kNN, i ricercatori hanno creato una serie di minuscoli set di dati sintetici e hanno progettato con cura le loro etichette soft. Quindi hanno lasciato che il kNN tracciasse le linee di confine e hanno scoperto che il diagramma era diviso in più classi che punti dati. I ricercatori hanno anche avuto un alto grado di controllo su dove cadevano le linee di confine. Utilizzando varie modifiche alle etichette soft, è stato possibile ottenere l’algoritmo kNN per disegnare modelli precisi a forma di fiori.
Naturalmente, queste esplorazioni teoriche hanno dei limiti. Mentre l’idea dell’apprendimento LO-shot dovrebbe trasferirsi ad algoritmi più complessi, il compito di ingegnerizzare gli esempi con etichette soft diventa molto più complesso. L’algoritmo kNN è interpretabile e visivo, consentendo agli umani di progettare le etichette a differenza delle reti neurali che sono complicate e impenetrabili. La riduzione dei dati, che funziona per la progettazione di esempi con etichette soft per reti neurali, ha anche un grande svantaggio: richiede di iniziare con un set di dati gigantesco per restringerlo incrementandone l’efficienza.
Sucholutsky sta lavorando ad altri modi per progettare questi minuscoli set di dati sintetici, sia che ciò significhi progettarli a mano o con un altro algoritmo. Nonostante queste ulteriori sfide di ricerca, tuttavia, il documento fornisce le basi teoriche per l’apprendimento LO-shot. “La conclusione dipende dal tipo di set di dati di cui si dispone”, egli afferma.
“Questo è l’aspetto più interessante”, sostiene Tongzhou Wang, un dottorato del MIT che ha guidato la precedente ricerca sulla riduzione dei dati. “Il documento si basa su un obiettivo davvero nuovo e importante: apprendere modelli potenti da piccoli set di dati”.
Ryan Khurana, ricercatore del Montreal AI Ethics Institute, fa eco a questo sentimento: “L’apprendimento “less than one” ridurrebbe radicalmente i requisiti di dati per ottenere un modello funzionante”. Ciò potrebbe rendere l’AI più accessibile alle aziende e ai settori che sono stati finora ostacolati dai requisiti di dati del campo. Potrebbe anche migliorare la riservatezza dei dati, perché è necessario ottenere meno informazioni dagli individui per formare modelli utili.
Sucholutsky sottolinea che la ricerca è ancora all’inizio, ma è entusiasta. Ogni volta che inizia a presentare il suo articolo ad altri ricercatori, la loro reazione iniziale è che l’idea è impossibile, egli spiega. Ma quando si rendono conto che non lo è, si apre un mondo completamente nuovo.
Immagine: Il mitico rinocorno Ms Tech / Pixabay
(rp)