Allenando GPT-2 sui pixel anziché sulle parole, il modello può accettare una parte di immagine e prevedere come completarla.
di Karen Hao
Nel febbraio dello scorso anno, il laboratorio di ricerca OpenAI di San Francisco ha annunciato che il suo sistema di intelligenza artificiale poteva scrivere testi convincenti in inglese. Si inserisce l’inizio di una frase o di un paragrafo in GPT-2, come si chiama il modello di elaborazione del linguaggio, e il sistema sviluppa il concetto con coerenza quasi umana.
Ora, il laboratorio sta esplorando cosa accadrebbe se lo stesso algoritmo fosse invece alimentato con parte di un’immagine. I risultati, che hanno ricevuto una menzione d’onore per il miglior articolo della International Conference on Machine Learning di questa settimana, aprono una nuova strada per la generazione di immagini, ricca di opportunità e conseguenze.
In sostanza, GPT-2 è un potente motore di previsione. Ha imparato a comprendere la struttura della lingua inglese guardando miliardi di esempi di parole, frasi e paragrafi, raschiati dal serbatoio di Internet. Grazie a questa struttura, può quindi articolare le parole in nuove frasi predicendo statisticamente l’ordine in cui dovrebbero apparire.
I ricercatori di OpenAI hanno deciso di scambiare le parole con i pixel e addestrare lo stesso algoritmo sulle immagini in ImageNet, la banca di immagini più popolare per il deep learning. Poiché l’algoritmo è stato progettato per funzionare con dati unidimensionali (ovvero stringhe di testo), hanno “srotolato” le immagini in un’unica sequenza di pixel. Hanno scoperto che il nuovo modello, chiamato iGPT, era ancora in grado di cogliere le strutture bidimensionali del mondo visivo. Data la sequenza di pixel per la prima metà di un’immagine, è in grado di prevedere la seconda metà in un modo che un umano riterrebbe ragionevole.
Nelle immagini a lato, si possono vedere alcuni esempi. La colonna più a sinistra è l’input, la colonna più a destra è l’originale e le colonne centrali sono i completamenti previsti di iGPT. (Si vedano altri esempi)
I risultati sono sorprendenti e dimostrano un nuovo percorso per l’utilizzo dell’apprendimento non supervisionato, che si allena su dati senza etichetta, nello sviluppo di sistemi di visione artificiale. I primi sistemi di questo tipo a metà degli anni 2000 avevano già sperimentato tali tecniche, ma non avevano avuto grande successo poiché si è imposto l’apprendimento supervisionato, che utilizza dati etichettati. Il vantaggio dell’apprendimento non supervisionato, tuttavia, è che consente a un sistema di intelligenza artificiale di conoscere il mondo senza un filtro umano e riduce significativamente il lavoro manuale dei dati di etichettatura.
Il fatto che iGPT utilizzi lo stesso algoritmo di GPT-2 mostra anche la sua promettente adattabilità. Ciò è in linea con l’obiettivo finale di OpenAI di arrivare a un’intelligenza artificiale più generalizzabile. Allo stesso tempo, il metodo presenta un nuovo modo di creare immagini di deepfake.
Le reti antagoniste generative, la categoria di algoritmi più comune utilizzata per creare deepfake in passato, devono essere addestrate su dati altamente curati. Se si desidera ottenere una GAN per generare un volto, per esempio, i suoi dati di addestramento dovrebbero includere solo i volti.
iGPT, al contrario, impara semplicemente dalla struttura del mondo visivo attraverso milioni e miliardi di esempi per creare immagini che potrebbero esistere al suo interno. L’addestramento del modello è ancora costoso dal punto di vista computazionale, offrendo una barriera naturale al suo accesso, ma la situazione potrebbe cambiare in breve.
OpenAI non ha concesso un’intervista, ma in una riunione del team che stabilisce le politiche interne a cui “MIT Technology Review” ha partecipato l’anno scorso, il suo direttore, Jack Clark, ha riflettuto sui rischi futuri della generazione in stile GPT, incluso cosa accadrebbe se il sistema fosse applicato alle immagini. “Probabilmente tra cinque anni”, ha concluso Clark, “si avrà una generazione di video che avanzano ipotesi a partire da un contenuto iniziale, entro uno spazio temporale di 5-10 secondi”.
Immagine di: Ben Barry / OpenAI
(rp)