I dati rilasciati da Yahoo sulle letture di 20 milioni di utenti potrebbero aiutare a sviluppare algoritmi avanzati di raccomandazione.
di Tom Simonite
Ogni mese, centinaia di milioni di persone visitano i siti di notizie su Yahoo. La società ha appena rilasciato un gigantesco ammasso di informazioni sulle letture abituali di 20 milioni di utenti nel tentativo di aiutare i ricercatori a inventare software migliori nel prevedere quello che vogliamo.
Il gigantesco data set da 13 terabyte (13.000 gigabyte) è stato raccolto dalle attività condotte sui siti Yahoo fra il febbraio e il maggio dell’anno scorso, ed è stato messo a disposizione esclusivamente dei ricercatori universitari. Yahoo dice che questa raccolta di dati è la più grande ad essere mai stata resa disponibile gratuitamente, superando il data set da un terabyte che era stato rilasciato lo scorso anno dalla società di inserzioni online Criteo.
Suju Rajan, direttrice di ricerca per la scienza della personalizzazione presso gli Yahoo Labs, dice che i dati forniscono un prezioso letto di prova su cui addestrare e testare gli algoritmi che cercano di comprendere quello che le persone apprezzano in base al loro comportamento passato. “Questo non interessa solamente Yahoo; il lavoro su questo set di dati gioverà all’intera industria”, ha detto martedì scorso durante una seduta stampa.
Gli algoritmi di raccomandazione sono fondamentali per società tecnologiche quali Yahoo, Netflix, Amazon e Google, che li utilizzano per suggerire le cose che una persona potrebbe avere piacere a leggere, guardare o acquistare. È raro che le università abbiano modo di lavorare su dati simili in quantità pari a quelle messe a disposizione degli scienziati dei dati. Nel contempo, i ricercatori universitari hanno maggiori libertà di approcciare nuove idee che potrebbero offrire importanti migliorie, spiega Rajan.
I dati appena rilasciati includono le testate che gli algoritmi di Yahoo hanno scelto per i suoi utenti, un riassunto del contenuto degli articoli e la raccolta di articoli selezionati dagli utenti. I registri di quasi 7 milioni di utenti Yahoo includono informazioni demografiche di base come età, sesso e posizione.
Kristian Hammond, un professore della Northwestern University e scienziato capo presso la Narrative Science, ha accolto con entusiasmo la notizia. “Se i dati si riveleranno buoni, penso che i benefici saranno enormi”, dice.
Hammond sottolinea come la pubblicazione di Yahoo offra un utile contrappunto alla recente mossa di Google, che ha rilasciato un pacchetto software per l’apprendimento autonomo su larga scala (vedi “Ecco cosa stanno facendo gli sviluppatori con l’intelligenza artificiale di Google”). “La maggior parte delle persone non dispone di giganteschi data set come quello presentato da Yahoo”, dice. Oltre agli algoritmi di raccomandazione, i dati potrebbero rivelare particolarità negli interessi di demografie differenti, dice Hammond.
La pubblicazione di informazioni sulle attività online delle persone, ovviamente, comporta alcuni rischi. Nel 2006, pubblicando i registri di 650.000 persone senza averli ripuliti correttamente, AOL aveva accidentalmente esposto le identità e i pensieri privati di alcuni suoi clienti. Rajan sostiene che senza i nomi o altre informazioni distintive, l’apprendimento degli articoli selezionati da un utente anonimo on dovrebbe comportare un rischio simile. Hammond afferma però che alcune persone ci proveranno lo stesso.
(MO)