Gli algoritmi di intelligenza artificiale possono generare un testo abbastanza convincente da ingannare l’utente medio, ma ora la stessa IA è in grado di smascherare i testi manipolati.
di Will Knight
I ricercatori dell’Università di Harvard e del laboratorio di IA del MIT-IBM Watson hanno sviluppato un nuovo strumento per individuare il testo generato con IA. Il kit, chiamato Giant Language Model Test Room (GLTR), sfrutta il fatto che i generatori di testo IA si basano su schemi statistici e non sul significato reale di parole e frasi.
In altre parole, il GLTR può dire se le parole del testo sembrano troppo prevedibili per essere state scritte da una mano umana.
La disinformazione viene sempre più automatizzata e la tecnologia necessaria per generare immagini e testi falsi sta avanzando rapidamente. Strumenti basati sull’intelligenza artificiale come questo possono diventare armi preziose nella lotta per smascherare notizie false, deepfake e bot di Twitter.
I ricercatori di OpenAI hanno recentemente presentato un algoritmo in grado di inventare passaggi sorprendentemente realistici. Hanno inserito enormi quantità di testo in un grande modello di apprendimento automatico, che ha imparato a raccogliere schemi statistici delle combinazioni di parole.
Il team di Harvard ha sviluppato il proprio kit utilizzando una versione del codice OpenAI che è stato rilasciato pubblicamente.
GLTR evidenzia le parole che statisticamente hanno la maggiore probabilità di apparire dopo la parola precedente nel testo. Come mostrato nella figura sopra (il testo è ripreso da Infinite Jest), le parole più prevedibili sono in verde, quelle meno prevedibili sono in giallo e in rosso e infine le più imprevedibili sono in viola.
Se questo sistema viene adottato su frammenti di testo scritti dall’algoritmo di OpenAI, riscontra molta prevedibilità. I veri articoli di cronaca e abstract scientifici contengono invece più sorprese.
Gli ideatori di GLTR hanno condotto un altro esperimento. Hanno chiesto agli studenti di Harvard di identificare il testo generato dall’intelligenza artificiale, prima senza il GLTR e poi con il suo aiuto. Gli studenti sono stati in grado di individuare solo la metà di tutti i falsi da soli, ma il 72 per cento con il kit a disposizione.
“Il nostro obiettivo è creare sistemi di collaborazione avanzati tra intelligenza umana e intelligenza artificiale”, conclude Sebastian Gehrmann, uno studente di dottorato coinvolto nel lavoro.
Se siete interessati, potete provare da soli.
(rp)