Si tratta di una tecnica matematica per difendere la privacy in un set di dati.
di Angela Chen
Nel 2020, il governo degli Stati Uniti dovrà affrontare un serio impegno: raccogliere dati sui 330 milioni di residenti nel paese, mantenendo private le loro identità. I dati sono pubblicati in tabelle statistiche che i politici e gli accademici analizzano quando scrivono leggi o conducono ricerche. Per legge, l’Ufficio censimento si deve assicurare che non si possa risalire alle persone a cui appartengono i dati.
Ma ci sono trucchi per “disanonimizzare” le persone, soprattutto se i dati del censimento sono combinati con altre statistiche pubbliche. Per ostacolare questa pratica negativa, il governo statunitense utilizzerà la nuova tecnica nel censimento del 2020.
Il Census Bureau inserirà imprecisioni o “rumore” nei dati; farà sembrare alcune persone più giovani e altre più anziane o etichetterà alcuni bianchi come neri e viceversa, mantenendo allo stesso tempo il valore complessivo di ogni età o gruppo etnico. Più rumore si inietta, più diventa difficile capire chi c’è dietro il dato anonimo.
La privacy differenziale è una tecnica matematica che rende rigoroso questo processo, misurando l’incremento della privacy quando viene aggiunto “il rumore”. Il metodo è già utilizzato da Apple e Facebook per raccogliere dati aggregati senza identificare determinati utenti.
Ma troppo rumore può rendere inutili i dati. Un’analisi ha mostrato che una versione del Censimento del 2010 rivista con la tecnica della privacy differenziale arrivava a includere famiglie che di circa 90 persone.
Se tutto va bene, il metodo sarà probabilmente utilizzato da altre agenzie federali. Anche paesi come il Canada e il Regno Unito sono in attesa dei possibili sviluppi.
(rp)