Il fenomeno della Mannequin Challenge, diventato virale su Internet a partire dal 2016, viene ora sfruttato per addestrare le reti neurali alla comprensione dei video 3D.
di Karen Hao
Le persone non hanno in genere problemi a trasformare un video 2D in immagini 3D, ma per una macchina robotica è molto meno semplice. La capacità di ricostruire la profondità e gli spostamenti degli oggetti in movimento può aiutare i robot a muoversi in un ambienti non familiari. Per questi motivi, la sfida ha affascinato a lungo i ricercatori di computer vision, soprattutto nel contesto delle auto a guida autonoma.
Per affrontare questo problema, un team di Google AI ha rivolto la sua attenzione a un set di dati inatteso, la cosiddetta Mannequin Challenge: migliaia di video di YouTube con persone immobili come manichini mentre una telecamera in movimento li riprende. Questi materiali filmati sono anche una nuova fonte di dati per comprendere la profondità di una immagine 2D.
I ricercatori hanno convertito 2.000 video in immagini 2D con dati sulla profondità ad alta risoluzione e li hanno utilizzati per addestrare una rete neurale, che è stata in grado di prevedere la profondità degli oggetti in movimento in un video con una precisione molto maggiore rispetto a quanto era possibile con i precedenti metodi.
La scorsa settimana, i ricercatori hanno ricevuto una menzione d’onore per i risultati ottenuti in una importante conferenza sulla visione artificiale.
Le migliaia di persone che hanno partecipato alla Mannequin Challenge stanno quindi contribuendo al progresso della visione artificiale e della ricerca robotica. Anche se può apparire sorprendente, questa è la regola nella ricerca sull’IA piuttosto che l’eccezione.
Molti set di dati fondamentali per l’avanzamento della ricerca in questo settore, tra cui l’ImageNet di Fei-Fei Li che ha dato il via alla rivoluzione dell’apprendimento profondo, sono stati ripresi da materiali pubblici comparsi su Twitter, Wikipedia, Flickr e altre fonti.
Questo modo di procedere è motivato dall’enorme quantità di dati necessari per addestrare algoritmi di deep-learning e negli ultimi anni il fenomeno si è accentuato perché i ricercatori utilizzano modelli sempre più estesi.
La tecnica di estrazione dei dati, il cosiddetto scraping, in sé non è né buona né cattiva, ma apre un fronte di discussione sul rispetto o meno della privacy. Man mano che i dati diventano sempre più mercificati e monetizzati, chi si occupa di tecnologie dovrà cercare di porre rimedio a questa situazione ambigua.
Immagine: Nexus / You Tube
(rp)