Alcune aziende specializzate forniscono dati generati tramite programmi computerizzati per il deep learning, ma è difficile capire quanto siano attendibili.
di Karen Hao
Si possono vedere la barba corta, le rughe sulla fronte, le macchie sulla pelle. Non è una persona reale, ma dovrebbe imitarne una, così come le centinaia di migliaia di altri prodotti da Datagen, un’azienda che vende simulazioni di esseri umani. Non si tratta di avatar di gioco o personaggi animati per i film, ma di dati sintetici progettati per alimentare il crescente appetito degli algoritmi per il deep learning. Aziende come Datagen offrono un’alternativa convincente al costoso e lungo processo di raccolta dei dati del mondo reale.
Per generare i suoi umani sintetici, Datagen prima scansiona gli umani reali. Collabora con fornitori che pagano le persone per entrare in giganteschi scanner a corpo intero che catturano ogni dettaglio, dalle loro iridi alla struttura della pelle fino alla curvatura delle loro dita. La startup quindi prende i dati grezzi e li pompa attraverso una serie di algoritmi, che sviluppano rappresentazioni 3D del corpo, del viso, degli occhi e delle mani di una persona.
L’azienda, che ha sede in Israele, afferma che sta già lavorando con quattro importanti colossi tecnologici statunitensi, anche se ne dice i nomi. Il suo concorrente più accreditato, Synthesis AI, offre a sua volta umani digitali su richiesta. Altre aziende generano dati da utilizzare in ambito finanziario, assicurativo e sanitario. Per ogni settore, esistono aziende di dati sintetici.
Una volta considerati meno desiderabili di quelli reali, i dati sintetici sono ora visti da alcuni come una panacea. I dati reali sono disordinati e pieni di pregiudizi e le nuove normative sulla privacy ne rendono difficile la raccolta. Al contrario, i dati sintetici sono incontaminati e possono essere utilizzati per creare set più diversificati. Si possono generare volti perfettamente etichettati, per esempio, di età, forme ed etnie diverse per costruire un sistema di rilevamento dei volti.
Ma i dati sintetici hanno i loro limiti. Se non saranno in grado di riflettere la realtà, potrebbero creare un’intelligenza artificiale ancora peggiore dei dati disordinati e distorti del mondo reale, o semplicemente ereditare gli stessi problemi. “Quello che non voglio fare è dire che i problemi saranno risolti'”, afferma Cathy O’Neil, una scienziata dei dati e fondatrice della società di auditing algoritmica ORCAA.
Realistico, non reale
Il deep learning ha sempre riguardato i dati. Ma negli ultimi anni, la comunità di AI hanno imparato che i buoni dati sono più importanti dei big data. Anche piccole quantità di dati corretti e chiaramente etichettati possono fare di più per migliorare le prestazioni di un sistema di intelligenza artificiale di una quantità 10 volte maggiore di dati non curati, o anche di un algoritmo più avanzato.
Ciò cambia il modo in cui le aziende dovrebbero affrontare lo sviluppo dei loro modelli di intelligenza artificiale, afferma il CEO e cofondatore di Datagen, Ofir Chakon. Oggi si parte dall’acquisizione di quanti più dati possibile e poi si modificano e ottimizzano gli algoritmi per ottenere prestazioni migliori. Invece, si dovrebbe fare il contrario: usare l’algoritmo migliorando la qualità dei dati.
Ma raccogliere dati reali per eseguire questo tipo di sperimentazione iterativa è troppo costoso e richiede molto tempo. È qui che entra in gioco Datagen. Con un generatore di dati sintetici, i team possono creare e testare dozzine di nuovi set di dati al giorno per identificare quale massimizza le prestazioni di un modello.
Per garantire il realismo dei suoi dati, Datagen offre ai suoi fornitori istruzioni dettagliate su quante persone scansionare in ogni fascia di età, indice di massa corporea ed etnia, nonché un elenco di azioni da eseguire, come camminare in una stanza o bere una bibita. I fornitori restituiscono sia immagini statiche ad alta fedeltà che dati di motion capture, vale a dire registrazione del movimento di tali azioni. Gli algoritmi di Datagen espandono quindi questi dati in centinaia di migliaia di combinazioni. I dati sintetizzati vengono a volte ricontrollati. I volti falsi vengono tracciati su volti reali, per esempio, per vedere se sembrano realistici.
Datagen sta ora generando espressioni facciali per monitorare l’attenzione del conducente nelle auto intelligenti, movimenti del corpo per tenere traccia dei clienti nei negozi senza cassa e iridi e movimenti delle mani per migliorare le capacità di tracciamento degli occhi e delle mani dei visori VR. L’azienda afferma che i suoi dati sono già stati utilizzati per sviluppare sistemi di visione artificiale che servono decine di milioni di utenti.
Non sono solo gli umani sintetici che vengono prodotti in serie. Click-Ins è una startup che utilizza l’intelligenza artificiale sintetica per eseguire ispezioni automatizzate dei veicoli. Utilizzando un software di progettazione, ricrea tutte le marche e i modelli di auto che la sua intelligenza artificiale ha bisogno di riconoscere e quindi li rende con colori, danni e deformazioni diversi in diverse condizioni di illuminazione, su sfondi diversi.
Ciò consente all’azienda di aggiornare la sua intelligenza artificiale quando le case automobilistiche lanciano nuovi modelli e aiuta a evitare violazioni della privacy dei dati nei paesi in cui le targhe sono considerate informazioni private e quindi non possono essere presenti nelle foto utilizzate per addestrare l’intelligenza artificiale.
Mostly.ai collabora con società finanziarie, di telecomunicazioni e assicurative per fornire fogli di calcolo di dati di clienti falsi che consentono alle aziende di condividere il proprio database di clienti con fornitori esterni in modo legalmente conforme. L’anonimizzazione può ridurre la ricchezza di un set di dati, ma non riesce ancora a proteggere adeguatamente la privacy delle persone.
I dati sintetici, invece, possono essere utilizzati per generare set di dati falsi dettagliati che condividono le stesse proprietà statistiche dei dati reali di un’azienda. Possono anche essere utilizzati per simulare dati che l’azienda non ha ancora, inclusa una popolazione di clienti più diversificata o scenari come attività fraudolente.
I sostenitori dei dati sintetici affermano che possono anche aiutare a valutare l’AI. In un recente articolo pubblicato a una conferenza sull’intelligenza artificiale, Suchi Saria, professore associato di machine learning e assistenza sanitaria alla Johns Hopkins University, e i suoi coautori hanno dimostrato come le tecniche di generazione dei dati potrebbero essere utilizzate per estrapolare diverse popolazioni di pazienti da un singolo set di dati.
Ciò potrebbe essere utile se, per esempio, un’azienda disponesse solo dei dati della popolazione più giovane di New York City, ma volesse capire come si comporta la sua intelligenza artificiale sull’invecchiamento della parte di popolazione con diabete. Ora sta avviando la sua azienda, Bayesian Health, che utilizzerà questa tecnica per testare i sistemi di AI medica.
I limiti della finzione
Ma i dati sintetici sono sovrastimati? Quando si tratta di privacy, “solo perché i dati sono ‘sintetici’ e non corrispondono direttamente ai dati degli utenti reali non significa che non codifichino informazioni sensibili su persone reali”, afferma Aaron Roth, professore di informatica e scienze dell’informazione dell’Università della Pennsylvania. È stato dimostrato che alcune tecniche di generazione dei dati riproducono fedelmente immagini o testo trovati nei dati di addestramento, per esempio, mentre altre sono vulnerabili ad attacchi.
Questo potrebbe andare bene per un’azienda come Datagen, i cui dati sintetici non hanno lo scopo di nascondere l’identità delle persone che hanno acconsentito alla scansione. Ma sarebbe una cattiva notizia per le aziende che offrono la loro soluzione come un modo per proteggere le informazioni finanziarie o dei pazienti sensibili.
La ricerca suggerisce che la combinazione di due tecniche di dati sintetici in particolare – privacy differenziale e reti antagoniste generative – può produrre le più forti protezioni della privacy, afferma Bernease Herman, uno scienziato dei dati dell’University of Washington eScience Institute. Ma gli scettici temono che questa sfumatura possa essere persa nel gergo del marketing dei fornitori di dati sintetici, che non specificheranno sempre le tecniche che stanno utilizzando.
Nel frattempo, poche prove suggeriscono che i dati sintetici possono mitigare efficacemente la distorsione dei sistemi di intelligenza artificiale. Per prima cosa, l’estrapolazione di nuovi dati da un set di dati esistente che è distorto non produce necessariamente dati più rappresentativi. I dati grezzi di Datagen, per esempio, contengono in proporzione meno minoranze etniche, il che significa che utilizzano meno dati reali per generare falsi umani da quei gruppi.
Anche se il processo di generazione non è interamente basato su congetture, è ancora più probabile che quei falsi umani si discostino dalla realtà. “Se i volti dalla tonalità della pelle più scura non sono approssimazioni particolarmente buone dei volti reali, allora il problema rimane”, afferma O’Neil.
D’altra parte, set di dati perfettamente bilanciati non si traducono automaticamente in sistemi di intelligenza artificiale perfettamente equi, afferma Christo Wilson, professore associato di informatica della Northeastern University. Se un prestatore di carte di credito stesse cercando di sviluppare un algoritmo di intelligenza artificiale per valutare i potenziali mutuatari, non eliminerebbe tutte le possibili discriminazioni semplicemente rappresentando nei suoi dati sia i bianchi che i neri. La discriminazione potrebbe ancora insinuarsi attraverso le differenze tra i candidati bianchi e neri.
A complicare ulteriormente le cose, le prime ricerche mostrano che in alcuni casi potrebbe non essere nemmeno possibile ottenere un’AI privata ed equa con dati sintetici. In un recente articolo pubblicato a una conferenza sull’intelligenza artificiale, i ricercatori dell’Università di Toronto e del Vector Institute hanno provato a farlo con le radiografie del torace. Hanno scoperto di non essere in grado di creare un accurato sistema di intelligenza artificiale medica quando hanno cercato di creare un set di dati sintetici diversificato attraverso la combinazione di privacy differenziale e reti generative antagoniste.
Niente di tutto ciò significa che i dati sintetici non dovrebbero essere utilizzati. Anzi, potrebbe diventare una necessità. Poiché i regolatori affrontano la necessità di testare i sistemi di intelligenza artificiale per la conformità legale, potrebbe essere l’unico approccio che offre loro la flessibilità di cui hanno bisogno per generare dati di test mirati su richiesta, afferma O’Neil. Ma ciò rende le domande sui limiti di questo sistema ancora più importanti da approfondire.
Immagine: Per gentile concessione di Datagen