La comunità di ricerca ha cercato sistemi per eliminare i set di dati non etici, ma il problema non è stato ancora risolto.
di Karen Hao
Nel 2016, sperando di stimolare i progressi nel campo del riconoscimento facciale, Microsoft ha rilasciato il più grande database di volti al mondo. Chiamato MS-Celeb-1M, conteneva 10 milioni di immagini di 100.000 volti di celebrità. Tuttavia, “Celebrity” è stata definito in modo approssimativo. Tre anni dopo, i ricercatori Adam Harvey e Jules LaPlace hanno setacciato il set di dati e hanno trovato molti individui comuni, come giornalisti, artisti, attivisti e accademici, che mantengono una presenza online per le loro vite professionali.
Nessuno aveva dato il consenso a essere incluso, eppure i loro volti avevano trovato la loro strada nel database e oltre. La ricerca sui volti è stata condotta da aziende tra cui Facebook, IBM, Baidu e SenseTime, uno dei giganti cinesi del riconoscimento facciale, che vende la sua tecnologia alla polizia cinese. Poco dopo l’indagine di Harvey e LaPlace e le critiche della stampa, Microsoft ha rimosso il set di dati, affermando semplicemente: “La sfida della ricerca è finita”. Ma i problemi di privacy che ha creato permangono su Internet. E questo caso non è certo l’unico.
Setacciare il web per immagini e testo una volta era considerata una strategia inventiva per la raccolta di dati del mondo reale. Ora leggi come il GDPR (il regolamento europeo sulla protezione dei dati) e la crescente preoccupazione del pubblico per la privacy e la sorveglianza dei dati hanno reso la pratica legalmente rischiosa e sconveniente. Di conseguenza, i ricercatori di intelligenza artificiale hanno progressivamente ritirato i set di dati che hanno creato in questo modo.
Ma un nuovo studio mostra che ben poco è stato fatto per impedire che i dati problematici proliferassero e venissero utilizzati. Gli autori hanno selezionato tre dei set di dati più comunemente citati contenenti volti o persone, due dei quali erano stati ritirati, e hanno tracciato i modi in cui ciascuno era stato copiato, utilizzato e riproposto in quasi 1.000 documenti.
Nel caso di MS-Celeb-1M, esistono ancora copie su siti di terze parti e in set di dati derivati costruiti sull’originale. Anche i modelli open source pre-addestrati sui dati rimangono disponibili. Il set di dati e i suoi derivati sono stati citati anche in centinaia di articoli pubblicati tra i 6 e i 18 mesi dopo il ritiro.
DukeMTMC, un set di dati contenente immagini di persone che camminano nel campus della Duke University e ritirato nello stesso mese di MS-Celeb-1M, persiste allo stesso modo in set di dati derivati e centinaia di citazioni di documenti. L’elenco dei luoghi in cui permangono i dati è “più ampio di quanto inizialmente avremmo pensato”, afferma Kenny Peng, studente del secondo anno a Princeton e coautore dello studio. E anche questo, dice, è probabilmente una sottovalutazione, perché le citazioni nei documenti di ricerca non sempre tengono conto dei modi in cui i dati potrebbero essere utilizzati commercialmente.
Un sistema impazzito
Parte del problema, secondo l’articolo di Princeton, è che coloro che mettono insieme i set di dati perdono rapidamente il controllo delle proprie creazioni. I set di dati rilasciati per uno scopo possono essere rapidamente cooptati per altri che non sono stati previsti o immaginati dai creatori originali. MS-Celeb-1M, per esempio, aveva lo scopo di migliorare il riconoscimento facciale delle celebrità, ma da allora è stato utilizzato per il riconoscimento facciale in generale e l’analisi delle caratteristiche facciali, hanno scoperto gli autori. È stato anche rietichettato o rielaborato in set di dati derivati come Racial Faces in the Wild, che raggruppa le sue immagini per razza, aprendo la porta ad applicazioni controverse.
L’analisi dei ricercatori suggerisce anche che Labeled Faces in the Wild (LFW), un set di dati introdotto nel 2007 e il primo a utilizzare immagini di volti raccolti su Internet, si è trasformato più volte in quasi 15 anni di utilizzo. Mentre è iniziato come una risorsa per valutare i modelli di riconoscimento facciale solo per la ricerca, ora viene utilizzato quasi esclusivamente per monitorare i sistemi destinati all’uso nel mondo reale. Questo nonostante un’etichetta di avvertimento sul sito web del set di dati metta in guardia contro tale uso.
Più recentemente, il set di dati è stato riproposto in un derivato chiamato SMFRD, che ha aggiunto mascherine per il viso a ciascuna delle immagini per alimentare il riconoscimento facciale durante la pandemia. Gli autori osservano che ci troviamo dinanzi a nuove sfide etiche. I sostenitori della privacy hanno criticato tali applicazioni perchè favoriscono lo sviluppo dei sistemi di sorveglianza, per esempio, e soprattutto perchè consentono l’identificazione da parte dei governi dei manifestanti mascherati.
“Si tratta di un documento davvero importante, perché le persone generalmente non si rendono conto dei potenziali danni e rischi dei set di dati”, afferma Margaret Mitchell, ricercatrice di etica dell’intelligenza artificiale e leader nelle pratiche responsabili dei dati, che non era coinvolta nello studio. Per molto tempo, la cultura all’interno della comunità dell’AI è stata quella di presumere che i dati esistessero per essere utilizzati, continua. Questo documento mostra come ciò può portare a problemi su tutta la linea. “È molto importante pensare ai vari valori codificati da un set di dati, nonché ai valori codificati dalla disponibilità di un set di dati”, conclude.
Come cambiare
Gli autori dello studio forniscono diverse raccomandazioni alla comunità di intelligenza artificiale. In primo luogo, i creatori dovrebbero comunicare in modo più chiaro l’uso previsto dei loro set di dati, sia tramite licenze che tramite documentazione dettagliata. Dovrebbero anche porre limiti più severi all’accesso ai propri dati, magari chiedendo ai ricercatori di firmare termini di accordo o chiedendo loro di compilare una domanda, soprattutto se intendono costruire un set di dati derivato.
In secondo luogo, le conferenze di ricerca dovrebbero stabilire norme su come i dati dovrebbero essere raccolti, etichettati e utilizzati e dovrebbero creare incentivi per la creazione responsabile di set di dati. NeurIPS, la più grande conferenza di ricerca sull’AI, include già una lista di controllo delle migliori pratiche e linee guida etiche.
Mitchell suggerisce di andare oltre. Nell’ambito del progetto BigScience, una collaborazione tra ricercatori di intelligenza artificiale per sviluppare un modello di intelligenza artificiale in grado di analizzare e generare il linguaggio naturale secondo un rigoroso standard etico, ha sperimentato l’idea di creare organizzazioni di gestione dei set di dati, vale a dire un team di persone che curano l’uso dei dati e collaborano allo stesso tempo con avvocati, attivisti e il pubblico in generale per assicurarsi che siano conformi agli standard legali, vengano raccolti solo con il consenso e possano essere rimossi se qualcuno sceglie di ritirare le informazioni personali.
Tali organizzazioni di gestione non sarebbero necessarie per tutti i set di dati, ma certamente per i dati presi su internet che potrebbero contenere informazioni biometriche o di identificazione personale o proprietà intellettuale. “La raccolta e il monitoraggio dei set di dati non è un’attività una tantum per una o due persone”, spiega Mitchell. “Se lo si fa in modo responsabile, si scompone in un sacco di compiti diversi che richiedono una profonda esperienza e una varietà di persone diverse”.
Negli ultimi anni, il settore si è sempre più spostato verso la convinzione che set di dati più attentamente curati saranno la chiave per superare molte delle sfide tecniche ed etiche del settore. Ora è chiaro che costruire set di dati più responsabili non è abbastanza. Coloro che lavorano nell’AI devono anche impegnarsi a lungo termine per mantenerle e utilizzarle in modo etico.
Foto: Ms Tech / Pixabay