Hao Li, il più grande creatore di deepfake al mondo, è ora seriamente preoccupato dei potenziali danni delle manipolazioni online.
di Will Knight
È giugno a Dalian, in Cina, una città su una penisola che si protende nel Mar Giallo a poche centinaia di miglia da Pechino in una direzione e dal confine nordcoreano nell’altra.
Hao Li si trova all’interno di un edificio cavernoso e angolare che potrebbe facilmente essere il rifugio di un cattivo di Bond. Fuori il tempo è afoso e le misure di sicurezza sono soffocanti. In città si tiene la conferenza annuale del World Economic Forum.
Vicino a Li, politici e amministratori delegati di tutto il mondo entrano a turno in uno stand. All’interno, ridono mentre il loro viso si trasforma in quello di una persona famosa: Bruce Lee, Neil Armstrong o Audrey Hepburn. Il trucco si svolge in tempo reale e funziona quasi perfettamente.
La straordinaria macchina per lo scambio di volti non è stata creata semplicemente per divertire i ricchi e i potenti del mondo. Li vuole che queste persone potenti considerino le conseguenze che i “deepfake” potrebbero avere a livello globale.
La disinformazione è stata a lungo uno strumento popolare di sabotaggio geopolitico, ma i social media hanno iniettato propellente nella diffusione di notizie false. Quando video e notizie manipolati sono facili da produrre, le conseguenze sociali possono essere disastrose.
Si vogliono influenzare le elezioni, rovinare la carriera e la reputazione di un nemico o scatenare la violenza etnica? È difficile immaginare un veicolo più efficace di una clip che sembra autentica, che si propaga come un incendio attraverso Facebook, WhatsApp o Twitter, più velocemente di quanto le persone possano capire di essere state ingannate.
Come pioniere della contraffazione digitale, Li teme che i deepfake siano solo l’inizio. Nonostante abbia aiutato a inaugurare un’era in cui i nostri occhi possono ingannarci, vuole fare qualcosa per risolvere i problemi legati ai video falsificati.
E’ troppo tardi per intervenire?
Li non è il tipico deepfaker. Non si nasconde su siti come Reddit pubblicando falsi porno o riprese di film famosi modificati per interpretare Nicolas Cage. Ha trascorso la sua carriera a sviluppare tecniche all’avanguardia per forgiare facce in modo semplice e convincente.
Ha anche falsificato le immagini di alcuni dei volti più famosi al mondo, facendo credere a milioni di persone a un sorriso o a una strizzatina d’occhio che in realtà non c’è mai stata. Un pomeriggio, parlando su Skype dal suo ufficio di Los Angeles, menziona casualmente che Will Smith si è fermato da lui di recente, per un film a cui sta lavorando.
Gli attori si recano spesso nel laboratorio di Li presso la University of Southern California (USC) per farsi scansionare digitalmente la loro immagine. Vengono inseriti in una gamma sferica di luci e telecamere per la visione artificiale per catturare la forma del loro viso, le espressioni facciali, il colore e la superficie della pelle fino al livello dei singoli pori.
Un team che si occupa di effetti speciali può quindi manipolare scene di un film che sono già state girate o persino aggiungere un nuovo attore in fase di post-produzione.
Questo tipo di manipolazione digitale è ormai comune nei film ad alto budget. Gli sfondi sono spesso resi in modo digitale ed è comune che il viso di un attore venga incollato sul corpo di una controfigura per le scene d’azione.
Alcuni effetti speciali hanno fatto storia, come quando una giovane principessa Leia è apparsa brevemente alla fine di Rogue One: A Star Wars Story, anche se l’attrice che aveva interpretato Leia, Carrie Fisher, aveva quasi 60 anni quando è stato girato il film.
Questi “trucchi” richiedono normalmente competenze di ottimo livello e investimenti di milioni di dollari, ma grazie ai progressi dell’intelligenza artificiale, ora è quasi banale scambiare due volti in un video, usando niente di più potente di un laptop.
Con qualche conoscenza in più, si può fare in modo che un politico, un amministratore delegato o un nemico personale dica o faccia tutto ciò che si vuole (come nel video iniziale dell’articolo, in cui Li ha trasferito il volto di Elon Musk sulla mia faccia).
Una storia di inganni
Di persona, Li sembra più cyberpunk di chiunque si possa incontrare sul Sunset Strip. I suoi capelli hanno un taglio alla Mohawk e indossa una maglietta nera e una giacca di pelle. Quando parla, batte continuamente le palpebre tradendo le notti trascorse alla calda luce dello schermo di un computer. E’ estroverso e ama parlare delle sue creazioni e farle vedere sul suo smartphone.
Li, figlio di immigrati taiwanesi, è cresciuto a Saarbrücken, in Germania. Ha frequentato un liceo franco-tedesco e ha imparato a parlare fluentemente quattro lingue (francese, tedesco, inglese e mandarino).
Ricorda ancora il momento in cui fece la scelta decisiva nella sua vita. Era il 1993, quando vide un enorme dinosauro che si muoveva lentamente in Jurassic Park di Steven Spielberg.
Mentre gli attori fissavano la bestia generata dal computer, Li, allora 12enne, capì le potenzialità della tecnologia che aveva reso possibile girare quella scena. “Ho intuito che si poteva creare qualsiasi cosa, anche quelle che non esistono”, egli rammenta.
Li ha conseguito il dottorato di ricerca presso l’ETH di Zurigo, una prestigiosa università tecnologica in Svizzera, dove uno dei suoi consulenti lo ricorda sia come uno studente brillante sia come un burlone incorreggibile. I video che accompagnano i documenti accademici a volte includevano caricature poco lusinghiere dei suoi insegnanti.
Poco dopo il suo arrivo all’USC, Li ha creato la tecnologia di tracciamento facciale utilizzata per realizzare una versione digitale del defunto attore Paul Walker per il film d’azione Furious 7.
Il suo intervento è stato decisivo, dal momento che Walker, morto in un incidente d’auto a metà delle riprese, non aveva registrato nulla in precedenza e il suo personaggio doveva ancora apparire in numerose scene.
La tecnologia di Li è stata usata per incollare la faccia di Walker sui corpi dei suoi due fratelli, che si sono alternati recitando al suo posto in più di 200 scene.
Il film, che ha incassato 1,5 miliardi di dollari al botteghino, è stato il primo a dovere la sua fortuna a una stella ricreata digitalmente. Li menziona il ruolo virtuale di Walker quando parla della qualità dei suoi video. “Neanche io sono in grado di dire quali sono falsi”, dice scuotendo la testa.
L’io virtuale
Nel 2009, poco meno di un decennio prima che emergessero i deepfake, Li ha sviluppato un modo per catturare il volto di una persona in tempo reale e utilizzarlo per far funzionare un pupazzo virtuale.
Ciò ha comportato l’utilizzo dei più aggiornati sensori di profondità e software per mappare quella faccia e le sue espressioni e trasferirle a una maschera fatta di materiale virtuale deformabile.
L’approccio ha funzionato senza la necessità di aggiungere dozzine di marcatori di motion tracking sul viso di una persona, una tecnica industriale standard per il monitoraggio del movimento del viso. Li ha contribuito allo sviluppo di un software chiamato Faceshift, che in seguito avrebbe dato il nome a una spin-off universitaria.
L’azienda è stata acquisita da Apple nel 2015 e la sua tecnologia è stata utilizzata per creare il software Animoji che consente a chi lo utilizza di trasformarsi in un unicorno o in un mucchio di cacca parlante sugli ultimi iPhone.
Li e i suoi studenti hanno pubblicato decine di articoli su avatar che si muovono come umani, capelli virtuali realistici e pelle simulata che si allunga come quella vera. Negli ultimi anni, il suo gruppo si è ispirato all’apprendimento automatico e soprattutto all’apprendimento profondo per addestrare i computer a creare prodotti usando una grande rete neurale simulata.
La sua ricerca ha avuto applicazioni anche in campo medico, aiutando a sviluppare sistemi di tracciamento dei tumori all’interno del corpo e a modellare le proprietà delle ossa e dei tessuti.
Oggi, Li divide il suo tempo tra insegnamento, consulenza per studi cinematografici e gestione di una nuova startup, Pinscreen. L’azienda utilizza un’intelligenza artificiale più avanzata di quella dei deepfake per creare avatar virtuali.
La sua app trasforma una singola foto in un avatar 3D fotorealistico in pochi secondi. Impiega algoritmi di apprendimento automatico che sono stati addestrati per mappare l’aspetto di una faccia su un modello 3D sfruttando molte migliaia di immagini fisse e scansioni 3D corrispondenti.
Il processo viene migliorato utilizzando le reti antagoniste generative o GAN (che non fanno parte della cassetta d’attrezzi dei deepfake). Ciò significa avere un algoritmo che produce immagini false mentre un altro giudica la loro credibilità; questo processo migliora gradualmente il livello di falsificazione.
Si può fare in modo che l’avatar esegua balletti e indossi diversi abiti e si possono controllare le espressioni facciali dell’avatar in tempo reale, usando il proprio viso tramite la fotocamera dello smartphone.
Un ex dipendente, Iman Sadeghi, sta facendo causa a Pinscreen, sostenendo che ha falsificato una presentazione della tecnologia alla conferenza SIGGRAPH nel 2017. “MIT Technology Review” ha avuto modo di visionare lettere di diversi esperti e organizzatori SIGGRAPH in cui si respingevano queste accuse.
Pinscreen sta collaborando con diversi rivenditori di abbigliamento di grandi dimensioni che vedono la sua tecnologia come un modo per consentire alle persone di provare gli indumenti senza dover entrare in un negozio fisico.
La tecnologia potrebbe essere impiegata per videoconferenze, realtà virtuale e giochi. Si immagini, per esempio, un personaggio di Fortnite che non solo ci assomiglia, ma che ride e balla come noi.
Al di là di certi utilizzi banali del digitale, tuttavia, c’è una tendenza importante da considerare: l’IA sta rapidamente trasformando la manipolazione avanzata delle immagini nel territorio dello smartphone più che del desktop.
FaceApp, l’app sviluppata da un’azienda di San Pietroburgo, in Russia, ha conquistato milioni di utenti e ha sollevato roventi polemiche, offrendo un modo per cambiare il proprio volto sul telefono con un clic. Si può aggiungere un sorriso a una foto, rimuovere le imperfezioni o modificare età o sesso.
Non tutti sono entusiasti della prospettiva che questa tecnologia diventi onnipresente. Li e altri stanno “cercando di creare deepfake a immagine singola, mobile e in tempo reale”, afferma Sam Gregory, direttore di Witness, un’organizzazione no profit che si occupa del rapporto tra video e diritti umani.
“Questo è il livello di minaccia che mi preoccupa, quando si parla di qualcosa che è meno facilmente controllabile e più accessibile a una serie di utenti”.
Fortunatamente, molti deepfake sembrano ancora di basso livello. Un viso tremolante, un occhio incerto o uno strano colorito della pelle li rendono abbastanza facili da individuare.
Ma allo stesso modo di un esperto che può rimuoverne i difetti, i progressi nell’intelligenza artificiale promettono di appianarli automaticamente, rendendo i video falsi più semplici da creare e più difficili da scoprire.
Anche se Li è artefice dei progressi della falsificazione digitale, è profondamente turbato dai danni potenziali della tecnologia. “Siamo di fronte a un problema serio”, egli riconosce.
A caccia degli impostori
I politici statunitensi hanno paura che i deepfake possano essere usati per diffondere notizie false e disinformazione prima delle elezioni presidenziali del prossimo anno.
All’inizio di questo mese, l’Intelligence Committee della Camera ha chiesto a Facebook, Google e Twitter di chiarire come pensano di affrontare la minaccia dei deepfake. Ogni azienda ha detto che stava lavorando al problema, ma nessuna di loro ha avanzato una soluzione.
La DARPA, l’agenzia di ricerca finanziata dell’esercito americano, è anche preoccupata per l’ascesa della manipolazione digitale. Nel 2016, prima che i deepfake occupassero la ribalta digitale, DARPA ha lanciato un programma chiamato Media Forensics, o MediFor, per incoraggiare gli esperti di diritto digitale a sviluppare strumenti automatizzati per svelare immagini manipolate.
Un esperto umano potrebbe utilizzare una serie di metodi per individuare falsi fotografici, dall’analisi delle incoerenze nei dati di un file o dalle caratteristiche di pixel specifici alla ricerca di incoerenze fisiche come un’ombra fuori posto o un angolo improbabile.
MediFor si occupa ora prevalentemente dell’individuazione di deepfake. Il rilevamento è fondamentalmente più difficile della creazione perché gli algoritmi AI possono imparare a nascondere i difetti dei loro prodotti.
I primi metodi di rilevamento dei deepfake includono il monitoraggio di lampeggi innaturali e strani movimenti delle labbra. Ma gli ultimi deepfake hanno già capito come appianare automaticamente tali problemi.
All’inizio di quest’anno, Matt Turek, responsabile del programma DARPA per MediFor, ha chiesto a Li di offrire una dimostrazione delle sue manipolazioni ai ricercatori di MediFor. Ciò ha portato a una collaborazione con Hany Farid, professore alla UC Berkeley e una delle principali autorità al mondo in materia di diritto digitale.
La coppia è ora impegnata in una specie di sfida digitale, con Li che sviluppa deepfake da far scoprire a Farid, e poi ne corregge i difetti per sfuggire ai successivi rilevamenti. Farid, Li e altri hanno recentemente pubblicato un documento che propone un modo più efficace per individuare i deepfake.
Questo sistema si basa sull’addestramento di un algoritmo di apprendimento automatico che ha il compito di riconoscere le stranezze delle espressioni facciali e dei movimenti della testa di un determinato individuo.
Se ci si limita semplicemente a incollare il volto su qualcun altro, le altre funzioni non verranno trasferite, perché questa operazione richiederebbe molta potenza informatica e una grande quantità di dati di addestramento, per esempio immagini o video della persona.
Ma un giorno sarà possibile. “Le soluzioni tecnologiche continueranno a migliorare da parte dei manipolatori”, afferma Turek. “Ma sarà perfetto? Ne dubito”.
Alla ricerca della perfezione
Di ritorno a Dalian, un piccolo episodio mostra come le persone si stiano iniziando a rendere conto del pericolo dei deepfake. La mattina prima di incontrare Li, un politico europeo era entrato nel laboratorio in cui si scambiano i volti, ma i suoi accompagnatori lo hanno fermato per paura che il sistema potesse riprendere immagini dettagliate e rendere più facile per qualcuno creare clip false su di lui.
Mentre osserva alcuni video, Li mi dice che non esiste alcun motivo tecnico per cui i deepfake debbano essere rilevabili. “I video sono solo pixel con un determinato valore di colore”, egli afferma.
Renderli perfetti è solo una questione di tempo e risorse e, come dimostra la sua collaborazione con Farid, diventa sempre più facile. “Stiamo assistendo a una corsa agli armamenti tra manipolazioni digitali e la capacità di rilevarle”, spiega Li, “con i progressi degli algoritmi basati sull’intelligenza artificiale che catalizzano entrambe le parti”.
La cattiva notizia, pensa Li, è che alla fine vincerà lui. In pochi anni, egli sostiene,con un solo clic si potrebbero creare deepfake indistinguibili dalla realtà. “Quando arriverà quel momento”, egli conclude, “dovremo avere consapevolezza che non tutti i video che vedremo saranno veri”.
(rp)