La principale società Internet della Cina, Baidu, sta sviluppando potenti sistemi di riconoscimento vocale per le sue interfacce vocali.
di Will Knight
Baidu, la principale società cinese dei motori di ricerca, ha sviluppato un sistema vocale in grado di riconoscere il mandarino e l’inglese parlato meglio delle persone, almeno in alcuni casi.
Il nuovo sistema, denominato Deep Speech 2, è particolarmente significativo perché si affida interamente all’apprendimento automatico per effettuare le traduzioni. Laddove i sistemi di riconoscimento vocali più vecchi includevano diverse componenti realizzate appositamente per elaborare e trascrivere i documenti audio, il sistema di Baidu ha imparato a riconoscere le parole partendo da zero, semplicemente ascoltando migliaia di ore di documenti audio.
La tecnologia si affida alla potente tecnica dell’apprendimento approfondito, che comporta l’addestramento di una imponente rete multistrato di neuroni virtuali affinché riconoscano degli schemi in una grande quantità di dati. L’app per smartphone di baidu permette ai suoi utenti di effettuare ricerche utilizzando comandi vocali e include Duer, un’assistente personale comandata con l’uso della voce (vedi “Baidu’s Duer Joins the Personal Assistant Party”). Le ricerche vocali sono molto più comuni in Cina perché l’inserimento manuale di testi è più lento, e perché alcune persone non sanno come utilizzare Pinyin, il sistema fonetico di trascrizione del mandarino con caratteri latini.
“Storicamente, le persone hanno sempre visto il cinese e l’inglese come due lingue estremamente differenti, per cui era necessario sviluppare funzioni molto differenti”, spiega Andrew Ng, un ex professore di Stanford e ricercatore di Google, oggi nuovo capo scientifico della società cinese. “Gli algoritmi di apprendimento sono ormai talmente comuni che basta semplicemente istruirli”.
L’apprendimento approfondito trova le sue origini in alcune idee che risalgono a più di 50 anni fa; solamente negli ultimi anni, però, grazie a nuove tecniche matematiche abbinate ad una maggiore potenza di calcolo e ad enormi quantità di dati di addestramento, è stato possibile applicare queste idee a funzioni che richiedevano una qualche forma di percezione visiva o auditiva. La tecnica ha già permesso di migliorare le prestazioni dei sistemi di riconoscimento vocale e visivo, e grandi società quali Google, Facebook e Baidu stanno utilizzandola sulle massicce quantità di dati che possiedono.
L’apprendimento approfondito sta trovando applicazioni anche in operazioni più particolari. Facebook, ad esempio, ricorre all’apprendimento approfondito per individuare volti nelle immagini caricate dai suoi utenti. Recentemente, ha fatto progressi nell’analisi di testi scritti (vedi “Come farci capire dalle macchine”). Google utilizza l’apprendimento approfondito in oltre 100 progetti differenti, dalla ricerca alla guida autonoma.
Nel 2013, Baidu ha inaugurato il Deep Learning Institute, il suo ufficiale sforzo verso lo sfruttamento di questa nuova tecnologia, con sedi all’interno del quartier generale di Pechino e nella Silicon Valley. Il Deep Speech 2 è stato sviluppato principalmente dal team californiano.
Nello sviluppare il Deep Speech 2, Baidu ha anche creato una nuova architettura hardware per l’apprendimento approfondito che opera a velocità sette volte superiori rispetto alla versione precedente. L’apprendimento approfondito si affida solitamente a processori grafici, vista la loro abilità nel gestire intense operazioni di calcolo in parallelo.
“La velocità ottenuta ci ha permesso di condurre esperimenti su una scala ben maggiore rispetto ai risultati precedenti”, ha detto Jesse Engel, uno scienziato ricercatore di Baidu nonché uno dei 30 ricercatori menzionati in un documento che descrive il Deep Speech 2. “Siamo riusciti a ricercare diverse architetture per reti neurali, e ridurre del 40 percento il tasso di errore nel riconoscimento delle parole”. Ng ha aggiunto che questa ricerca ha recentemente prodotto risultati impressionanti. “Per le frasi brevi, fuori tema, pare che il sistema sia in grado di superare i livelli di riconoscimento umani”, ha detto. “Nel mandarino esistono diversi dialetti regionali che vengono utilizzati da popolazioni ben più piccole, per cui la quantità di dati a disposizione è molto inferiore. Il sistema potrebbe aiutarci a riconoscere meglio questi dialetti.
(MO)