Una nuova e potente tecnologia vocale, messa a punto da una azienda cinese leader nei servizi per Internet, rende molto più facile da usare uno smartphone.
di Will Knight
Passeggiando per Sanlitun, un vivace quartiere di Pechino pieno di turisti, bar con karaoke e negozi di lusso, si possono vedere una quantità di persone che utilizzano i più recenti smartphone di Apple, Samsung o Xiaomi. Guardando con maggiore attenzione, però, si nota come alcune di loro ignorino i dispositivi touch-screen, preferendo qualcosa di molto più efficiente e immediato: la voce.
I 691 milioni di utenti di smartphone in Cina costituiscono un pubblico ideale per le interfacce vocali, perché i caratteri cinesi non sono stati certamente progettati avendo in mente dei minuscoli touch screen. Ma in tutto il mondo molti potrebbero beneficiare dei progressi nella tecnologia vocale realizzati dal motore di ricerca cinese più popolare, Baidu. Questi progressi renderanno più facile per chiunque comunicare con le apparecchiature circostanti.
«Vedo la tecnologia vocale avvicinarsi a un punto in cui potrebbe diventare così affidabile da venire utilizzata senza neppure pensarci», sostiene Andrew Ng, ricercatore capo di Baidu e professore associato della Stanford University. «La migliore tecnologia è spesso invisibile e quando anche il riconoscimento vocale diventerà più affidabile, penso che si ritirerà in secondo piano».
Le interfacce vocali sono state un sogno dei tecnologi (per non parlare degli scrittori di fantascienza) per molti decenni. Ma negli ultimi anni, grazie ad alcuni impressionanti progressi nel machine learning, il controllo vocale è diventata molto più praticabile. Non più limitato solo ad alcuni comandi predeterminati, ora funziona anche in un ambiente rumoroso, come le strade di Pechino o quando si sta parlando in una stanza.
Assistenti vocali virtuali, come Siri di Apple, Cortana di Microsoft e Google sono forniti con buona parte degli smartphone e i dispositivi più recenti, come Alexa di Amazon, offrono un modo semplice per cercare informazioni, scaricare canzoni e realizzare liste della spesa con la voce. Questi sistemi non sono ancora perfetti, a volte trasentendo e fraintendendo i comandi in maniera quasi comica, ma appaiono in costante miglioramento e offrono un assaggio di un futuro in cui ci sarà meno bisogno di imparare a utilizzare una nuova interfaccia per ogni nuovo dispositivo.
Baidu sta facendo notevoli progressi, in particolare con la precisione del suo riconoscimento vocale, e ha la possibilità di perfezionare ancora di più le interfacce di conversazione. L’azienda, fondata nel 2000 come risposta cinese a Google, attualmente in stallo, domina il mercato interno con il 70 per cento di tutte le richieste, diventando un fornitore di molti servizi, dalla musica e dai film in streaming al settore bancario e assicurativo.
Una interfaccia mobile più efficiente costituirebbe un grande aiuto in Cina. Gli smartphone sono molto più comuni di desktop o laptop e l’esplorazione del Web, la messaggistica e altre attività possono risultare ancora lente e frustranti. Esistono migliaia di caratteri cinesi e anche se un sistema chiamato Pinyin permette di generarli foneticamente da quelli latini, molte persone (soprattutto se oltre i 50 anno) non conoscono questo sistema. È anche comune in Cina utilizzare applicazioni di messaggistica come WeChat per molti generi di attività, come pagare i conti al ristorante. Eppure in molte delle regioni più povere della Cina, dove Internet potrebbe avere gli effetti sociali ed economici più significativi, i livelli di alfabetizzazione sono ancora bassi.
«Si tratta di una sfida e di una opportunità», afferma Ng, selezionato nel 2008 tra i Giovani Innovatori di MIT Technology Review per il suo lavoro nel campo della Intelligenza Artificiale e della robotica, a Stanford. «Invece di formare le persone, già in grado di utilizzare dei desktop, a nuovi comportamenti appropriati ai telefoni cellulari, si dovrebbe addestrarle ai modi migliori di utilizzare un dispositivo mobile fin dall’inizio».
Ng ritiene che la voce potrebbe presto diventare abbastanza affidabile da interagire con tutti i tipi di dispositivi. Robot o elettrodomestici, per esempio, potrebbero essere più facili da gestire se si potesse semplicemente parlare con loro. L’azienda dispone di gruppi di ricerca presso la sua sede a Pechino e nella Silicon Valley, che lavorano per migliorare la precisione del riconoscimento vocale e rendere i computer più abili nel comprendere il significato delle frasi.
Jim Glass, uno ricercatore senior del MIT, il quale ha lavorato sulla tecnologia vocale negli ultimi anni, concorda sul fatto che i tempi sono finalmente maturi per il controllo vocale: «Il problema ha raggiunto un punto di svolta nella nostra azienda. Per mia esperienza, quando le persone possono parlare con un dispositivo piuttosto che tramite un telecomando, vogliono anche farlo».
Lo scorso novembre, Baidu ha raggiunto un importante traguardo con la tecnologia vocale, annunciando che il suo laboratorio di Silicon Valley ha sviluppato un nuovo e potente sistema di riconoscimento vocale chiamato Deep Speech 2 e consistente in una grande, o “profonda”, rete neurale che impara ad associare i suoni con le parole e le frasi, potendo contare su milioni di trascrizioni discorsive. Deep Speech 2 è in grado di riconoscere le parole pronunciate con una precisione sorprendente. In effetti, i ricercatori hanno scoperto che a volte può trascrivere frammenti di discorso in mandarino più accuratamente di una persona.
I progressi di Baidu appaiono tanto più impressionanti perché il mandarino è un linguaggio foneticamente complesso, con espressioni tonali che trasformano il significato di una parola. Deep Speech 2 sorprende anche perché pochi dei ricercatori in California, dove è stata sviluppata la tecnologia, parlano il mandarino, il cantonese, o qualsiasi altra variante del cinese. Il sistema funziona come un sistema linguistico universale e può imparare l’inglese altrettanto bene se dispone di sufficienti materiali di base.
La massima parte dei comandi vocali che il sistema di ricerca della Baidu processa oggi riguardano semplici interrogazioni relative, per esempio, all’andamento del tempo o ai livelli dell’inquinamento. Per queste interrogazioni, il sistema è di solito straordinariamente accurato. Sempre più spesso, tuttavia, gli utenti rivolgono domande più complicate. Per rispondere adeguatamente, l’anno scorso l’azienda ha lanciato il suo assistente vocale, chiamato DuEr, come parte della sua principale applicazione per cellulare. DuEr può aiutare gli utenti a trovare film e orari degli spettacoli, o a prenotare un tavolo al ristorante.
La grande sfida per Baidu concernerà l’addestramento dei suoi sistemi di IA perché riescano a capire frasi complicate, rispondendo in modo intelligente. Ma Baidu vorrebbe che DuEr fosse in grado di prendere parte a una conversazione nei due versi, comprendente modifiche delle informazioni in discussione. Per arrivarci, un gruppo di ricerca della Baidu di Pechino si sta dedicando al miglioramento del sistema che interpreta le interrogazioni degli utenti. Ciò comporta l’impiego della tecnologia neurale che Baidu ha applicato al riconoscimento vocale, con ulteriori accorgimenti. A questo scopo, Baidu ha creato un gruppo di ricerca per analizzare le interrogazioni rivolte a DuEr e correggerne gli errori, migliorando progressivamente la efficacia del sistema.
«In futuro, mi piacerebbe essere in grado di parlare con tutti i nostri dispositivi, sicuro che mi capiscano», conclude Ng. «Spero di avere un giorno dei nipoti i quali troverebbero strano che, nel 2016, dicendo “Ciao” al forno a microonde, questo non gli rispondesse, ignorandoli».
Dati: China Internet Network Information Center