I sistemi per l’intelligenza artificiale si ispirano alla biologia umana, ma i loro sistemi di visione non funzionano esattamente allo stesso modo.
di Jamie Condliffe
La computer vision sta attraversando un periodo positivo. Gli algoritmi per il riconoscimento delle immagini non fanno più errori stupidi quando vengono interrogati sul mondo: oggi possono accuratamente dirvi se un gatto è presente in una immagine. Per riuscirci, però, la tecnologia ricorre a trucchi differenti rispetto a quelli sfruttati dagli esseri umani.
La maggior parte dei sistemi di computer vision identifica le caratteristiche nelle immagini utilizzando reti neurali che prendono spunto dalla nostra biologia e la rassomigliano nell’architettura – la differenza, in questo caso, è che i sensori e i neuroni biologici vengono sostituiti da funzioni matematiche. Ora, uno studio condotto da ricercatori di Facebook e della Virginia Tech sostiene che, nonostante le similarità, dovremmo stare attenti a non presumere che entrambe funzionino alla stessa maniera.
Per osservare esattamente quello che accade quando esseri umani e intelligenze artificiali analizzano una immagine, i ricercatori hanno studiato gli elementi su cui si concentrava la loro attenzione. I ricercatori hanno presentato ad entrambi una serie di immagini sfuocate e chiesto loro di descrivere quello che accadeva al loro interno – “Dove si trova il gatto?” ad esempio. Parte delle immagini poteva essere messa selettivamente a fuoco, un pezzo alla volta, fino a che gli esseri umani e l’intelligenza artificiale non riuscivano a rispondere alla domanda. Il team ha ripetuto i test utilizzando diversi altri algoritmi.
Ovviamente, sia gli esseri umani che le intelligenze artificiali sono riusciti a fornire la risposta – ma la cosa interessante è come sono riusciti a farlo. Su una scala compresa fra 1 e -1, dove 1 rappresenta un accordo totale e -1 un disaccordo totale, due partecipanti umani hanno ottenuto un risultato medio di 0.63 in termini di concentrazione sugli stessi punti dell’immagine. A confronto con una intelligenza artificiale, la media è scesa a 0.26.
In altre parole: Intelligenza artificiale ed essere umano stavano entrambi osservando la stessa immagine, venivano sottoposti alla stessa domanda, e presentavano entrambi la stessa risposta – giungendo allo stesso risultato dall’analisi di caratteristiche differenti nelle immagini.
Si tratta di un risultato che conferma esplicitamente un fenomeno al quale i ricercatori avevano già accennato. Nel 2014, un team della Cornell University e dell’Università del Wyoming ha dimostrato che era possibile ingannare una intelligenza artificiale creando semplicemente una immagine formata dalla caratteristiche alle quali era già stata abituata a individuare per riconoscere un oggetto.
Gli esseri umani, d’altro canto, possiedono una enorme dote di buon senso a cui attingere, per cui possono eludere tranelli così semplici. Questa è una delle caratteristiche che i ricercatori stanno cercando di incorporare in una nuova famiglia di software intelligenti in grado di comprendere il mondo semantico visivo.
Il semplice fatto che i computer non ricorrano allo stesso approccio, però, non significa necessariamente che siano inferiori. Potrebbero addirittura raggiungere risultati migliori ignorando completamente l’approccio umano.
Solitamente, il genere di reti neurali utilizzate nella computer vision sfrutta una tecnica conosciuta come apprendimento supervisionato per elaborare quello che accade all’interno di una immagine. La loro abilità nell’associare una complessa combinazione di caratteristiche, colori e forme al nome di un oggetto è dovuta all’addestramento dell’intelligenza artificiale con una raccolta di immagini i cui contenuti sono già stati descritti da un essere umano.
I team di Facebook e di Google DeepMind stanno però sperimentando sistemi di apprendimento non supervisionato che trangugiano il contenuto di immagini e video per imparare che aspetto hanno volti umani e oggetti. In questi casi è ancor più probabile che l’intelligenza artificiale sviluppi un processo simile a quello umano. Una volta ispiratasi al cervello degli esseri umani, l’intelligenza artificiale potrebbe semplicemente imparare ad essere sé stessa.
(MO)