Una nuova tecnologia personalizza i modelli di riconoscimento vocale per le persone che hanno difficoltà a parlare.
di Jennifer Strong, Anthony Green e Emma Cillekens
Partecipanti:
Kenneth Harper, Vicepresidente e Direttore generale, Healthcare Virtual Assistants and Ambient Clinical Intelligence a Nuance
Bob MacDonald, Responsabile del programma tecnologico, Project Euphonia, Google
Julie Cattiau, Responsabile di progetto, Project Euphonia, Google
Andrea Peet, partecipante al Progetto Euphonia
David Peet, Avvocato, marito di Andrea Peet
Hod Lipson, Professore di Innovazione del Dipartimento di Ingegneria Meccanica; Co-direttore, Maker Space Facility, Columbia University.
Sono Jennifer Strong e, in questo podcast, esploriamo la tecnologia vocale dell’AI. Oggi, l’ assistenza sanitaria sembra un po’ diversa rispetto a non molto tempo fa, quando il medico registrava la malattia del paziente su un quaderno. L’esplosione della tecnologia ha ormai reso comuni record digitalizzati, telemedicina, intelligenza artificiale in grado di leggere i raggi X e altri progressi medici che sarebbero sembrati fantascienza fino a poco tempo fa.
E’ ormai evidente che l’assistenza sanitaria è il prossimo campo di battaglia della Silicon Valley, con tutti i più grandi nomi della tecnologia che si contendono le posizioni. La tecnologia vocale è in prima linea, come dimostra il caso di Andrea Peet, una donna che ha perso la parola, ma può comunicare grazie ai dispositivi intelligenti.
Se un medico vuole concentrarsi sui pazienti, può fare in modo che sia la tecnologia a tenere aggiornata la documentazione. La voce potrebbe anche cambiare il modo in cui i sistemi di intelligenza artificiale apprendono, sostituendo gli 1 e gli 0 nei dati di addestramento con un approccio che rispecchia più da vicino il modo in cui i bambini apprendono.
Hod Lipson: Noi umani non pensiamo con le parole, ma con i suoni. È un’idea alquanto controversa, ma ho la sensazione, anche se non ci sono dati a confermarlo, che i primi umani comunicassero con i suoni molto prima di comunicare con le parole.
Ken Harper: Nell’assistenza sanitaria in particolare, nell’ultimo decennio sono stati adottati i sistemi sanitari elettronici, tutto è stato digitalizzato, ma si sono dovuti sostenere costi non indifferenti. Io lavoro come direttore generale della Dragon Ambient Experience, o DAX come ci piace chiamarla. La nostra tecnologia si basa sull’ascolto delle conversazioni ambientali e permette all’AI di scrivere una documentazione clinica in autonomia.
Jennifer: DAX è stato progettato da Nuance, un’azienda di riconoscimento vocale di proprietà di Microsoft. Nuance è uno dei principali attori mondiali nel campo dell’elaborazione del linguaggio naturale. La sua tecnologia è la spina dorsale dell’assistente vocale di Apple, Siri. Microsoft ha pagato quasi 20 miliardi di dollari per Nuance all’inizio di quest’anno, principalmente per la sua tecnologia sanitaria. È stata l’acquisizione più costosa nella storia di Microsoft, dopo LinkedIn.
K. H.: Probabilmente abbiamo tutti sperimentato uno scenario in cui andiamo dal nostro medico di base o da uno specialista per qualche problema che stiamo avendo. Spesso invece di visitarci si mettono a digitare sul computer per compilare un resoconto clinico della visita medica. Si crea una situazione impersonale in cui ci si sente trascurati.
Jennifer: L’obiettivo è trasferire questo lavoro amministrativo a una macchina. Il suo sistema registra tutto ciò che viene pronunciato, lo trascrive e lo etichetta in base a chi parla.
K. H.: Non si tratta solo di riconoscimento vocale, ma di comprensione del linguaggio naturale in cui viene trascritto ciò che è rilevante dal punto di vista medico e anche quello che non lo è. La nota clinica si baserà su alcuni di quegli input chiave che sono nella registrazione.
Jennifer: DAX utilizza il deep learning, che è fortemente dipendente dai dati. Il sistema è addestrato su una serie di interazioni diverse tra pazienti e medico.
K. H.: Il macro obiettivo è come ottenere un modello di intelligenza artificiale che comprende per settore ciò che deve essere documentato. Ma, a livello micro, con il crescere degli incontri, DAX diventerà molto più accurato su come documentare in modo accurato e completo le singole esigenze.
Jennifer: E l’elaborazione avviene in tempo reale.
K. H.: Quindi, se si sta discutendo di un soffio al cuore, sulla base della storia del paziente, il sistema potrà fornire supporto decisionale al team di assistenza su cosa considerare dal punto di vista della terapia o sulle decisioni da prendere. Il potenziale a lungo termine è capire il contesto. La potenziale innovazione che può avere luogo, una volta che tale input è noto, non ha riscontri nel passato del settore sanitario.
Tutto nell’assistenza sanitaria è sempre stato retrospettivo, nel senso che si inserisce un dato in una cartella clinica elettronica e successivamente scatta un allarme. Se potessimo effettivamente portare in tempo reale l’AI nella conversazione per sapere che qualcosa deve essere segnalato al medico si apriranno una serie di prospettive nuove per i team di assistenza.
Julie Cattiau: Sono un product manager nella ricerca di Google. E negli ultimi tre anni ho lavorato al progetto Euphonia, il cui obiettivo è far funzionare meglio il riconoscimento vocale per le persone con disabilità del linguaggio. Sfortunatamente queste tecnologie vocali non sempre funzionano bene per le persone che hanno problemi di linguaggio. La nostra intenzione era quella di colmare questo divario. A tal fine, abbiamo cercato di rendere più accessibile la tecnologia di assistenza abilitata alla voce per aiutare le persone che hanno questo tipo di condizioni a essere più indipendenti nella loro vita quotidiana.
La nostra tecnologia personalizza i modelli di riconoscimento vocale per le persone che hanno problemi di linguaggio. Per far funzionare il sistema, contattiamo individui che hanno difficoltà a essere capiti dagli altri per registrare un certo numero di frasi e poi usiamo questi campioni di discorso per addestrare il nostro modello di apprendimento automatico a capire meglio il modo in cui si parla.
Jennifer: Il progetto ha preso il via nel 2018, quando Google ha iniziato a lavorare con un’organizzazione no-profit alla ricerca di una cura per la SLA, che è una malattia progressiva del sistema nervoso che colpisce le cellule nervose del cervello e del midollo spinale, portando spesso a disturbi del linguaggio.
J. C.: Uno dei progetti è registrare molti dati da persone che hanno la SLA per studiare la malattia. Come parte di questo programma, si sono effettivamente registrati campioni vocali di persone che hanno la SLA per vedere come la malattia influisce sul loro discorso nel tempo, quindi Google ha collaborato con ALS TDI per vedere se si poteva utilizzare l’apprendimento automatico per rilevare la SLA in anticipo.
Alcuni ricercatori di Google, quando hanno ascoltato i campioni di discorso, si sono posti la domanda: potremmo fare di più con quelle registrazioni? Invece di cercare solo di rilevare se qualcuno ha la SLA, potremmo anche aiutarlo a comunicare più facilmente, trascrivendo automaticamente ciò che sta dicendo. Abbiamo iniziato questo lavoro da zero e dal 2019, circa un migliaio di persone diverse con disabilità del linguaggio, hanno registrato oltre un milione di frasi per questa iniziativa di ricerca.
Andrea Peet: Nel 2014 mi è stata diagnosticata la SLA. Gestisco un’organizzazione no-profit chiamata Team Drea.
David Peet: Sono il marito di Andrea. Sono un avvocato, ma la mia vera passione è aiutare mia moglie a gestire la fondazione per porre fine alla SLA attraverso una ricerca innovativa.
Jennifer: Andrea Peet ha iniziato a notare che qualcosa non andava nel 2014 quando continuava a inciampare durante un triathlon.
A.P.: Ho iniziato ad andare dai neurologi e dopo circa otto mesi mi è stata diagnosticata la SLA che in genere lascia una speranza di vita da due a cinque anni. A distanza di sette anni, sono ancora viva e parlo e cammino, anche se con un deambulatore.
D.P.: Quando abbiamo ricevuto la diagnosi e ho iniziato a fare ricerche, da due a cinque anni era davvero la media. Tutto sarebbe dovuto finire nel 2019. Vedere ancora Andrea gareggiare nelle maratone e partecipare a podcast come questo, è una vera benedizione.
Jennifer: Una delle maggiori sfide di questa malattia è che colpisce le persone in modi molto diversi. Alcuni perdono il controllo motorio delle mani e non possono sollevare le braccia, ma sarebbero comunque in grado di tenere un discorso. Altri possono ancora muovere gli arti, ma hanno difficoltà a parlare o a deglutire, come nel caso di Andrea.
A.P.: La maggior parte delle volte le persone possono capirmi. Ma quando sono stanca o quando sono in un posto rumoroso, è molto più difficile per me.
D.P.: Più difficile pronunciare le parole per il rumore, intendi?
A.P.: Scusate, volevo dire proiettare.
D.P.: Certo, pronunciare e proiettare parole.
A.P.: Project Euphonia, fondamentalmente, funziona con didascalie dal vivo, che riportano quanto sto dicendo sul mio telefono in modo che le persone possano leggere. E’ di grande utilità quando faccio presentazioni.
D.P.: E’ decisamente importante quando si parla in pubblico avere una piattaforma che catturi in tempo reale le parole che si stanno dicendo e proiettarle per farle leggere a coloro che stanno ascoltando. Un altro grande aiuto per noi è che Euphonia sincronizza ciò che viene sottotitolato nella nostra home page di Google.
Avere una casa intelligente in grado di capire cosa vuole Andrea e quindi consentirle di avere accesso a diverse funzionalità in casa le offre davvero più libertà e autonomia di quanto non avrebbe altrimenti. Può accendere e spengere le luci. Può aprire la porta d’ingresso a qualcuno che viene a trovarla. Quindi, essere in grado di avere una tecnologia che permetta di far funzionare le cose usando la sole voce è davvero essenziale per portare avanti una vita normale e non sentirsi un paziente h 24.
Bob MacDonald: Sono il responsabile tecnologico del programma Euphonia. Sono stato coinvolto nel progetto non per le mie conoscenze in campo linguistico, ma in quanto ho sentito che il team stava lavorando su tecnologie dedicate a persone con SLA e il marito di mia sorella è morto di SLA. Quindi sapevo quanto sarebbe stato utile creare strumenti che aiutassero a facilitare la comunicazione.
Un obiettivo è stato migliorare i modelli di riconoscimento vocale, personalizzandoli. Se si utilizzano i campioni vocali di una sola persona, il sistema si adatta ai cambiamenti nel tempo. Se c’è qualche fattore temporaneo che sta modificando la loro voce, ne degraderà l’accuratezza e i modelli devono essere in grado di fronteggiare questo tipo di cambiamenti. Si tratta di una delle altre frontiere della nostra ricerca a cui stiamo lavorando ora.
Jennifer: I sistemi di riconoscimento vocale sono in gran parte addestrati su voci occidentali di lingua inglese. Quindi la sfida riguarda anche la comprensione di accenti e dialetti.
B. MacD.: Il vero problema sarà come assicurarci che il divario nelle prestazioni non rimanga ampio o non si allarghi man mano che ci allontaniamo dalle lingue principali utilizzate e dai prodotti che più comunemente hanno questi riconoscitori vocali incorporati. Quindi, quando ci si sposta in paesi o zone dei paesi in cui le lingue hanno meno parlanti, i dati diventano ancora più difficili da trovare.
Jennifer: Anche se siamo in grado di risolvere il problema della diversità delle lingue parlate, c’è ancora il problema delle enormi quantità di dati di addestramento necessari per costruire sistemi affidabili e universali. Ma cosa accadrebbe se ci fosse un sistema che si comporta come fanno le persone quando leggono un testo?
Hod Lipson: Sono un esperto di robotica. Insegno ingegneria e scienza dei dati alla Columbia University di New York e studio i robot, come costruirli, come programmarli, come renderli più intelligenti. Tradizionalmente, se si guarda a come viene addestrata l’intelligenza artificiale, si danno etichette molto concise alle cose e poi si addestra un’intelligenza artificiale a fare previsioni. Tutte le reti di deep learning oggi vengono addestrate con queste etichette molto compatte.
Se si guarda al modo in cui gli umani imparano, la situazione sembra molto diversa. Quando mostro a mio figlio foto di cani, o mostro loro il nostro cane o un cane di altre persone, non offro solo l’informazione. In realtà enuncio la parola “cane” in tanti contesti differenti. Questa considerazione mi ha fatto pensare che forse stiamo addestrando i computer nel modo sbagliato. Per questa ragione, non presento etichette numerate, ma un intero file audio. In altre parole, il computer deve poter dire, articolare, la parola “cane”. Ogni volta che vede un cane non deve fare un sì o un no, ma pronunciare una parola.
Jennifer: E ha funzionato. Identificava le immagini, così come quando veniva usato uno e zero.
H.L.: Ma poi abbiamo notato qualcosa di molto interessante, vale a dire che può imparare la stessa cosa con molte meno informazioni. In altre parole, stessa qualità di risultato con un decimo dei dati. Un risultato di per sé decisamente prezioso, ma c’è anche altro potenzialmente più interessante: quando è riuscito a distinguere tra un gatto e un cane, l’ha appreso in un modo molto più resiliente. In altre parole, non si lasciava ingannarsi facilmente, per esempio modificando un pixel qua e là e facendo sembrare il cane un po’ più simile a un gatto. Il passaggio mi sembra significativo. Forse finora abbiamo addestrato le reti neurali nel modo sbagliato.
Jennifer: Sta dicendo che la strada è aperta per sistemi di intelligenza artificiale personalizzati?
H.L.: Forse è più facile passare da un’immagine all’audio che con un bit. Con il file audio ci sono tanti modi per dire cane, il sistema è più elastico. Troppe speculazioni sul perché, per cose che probabilmente più facili da imparare.
Jennifer: Quale sarebbe la prossima fase di sviluppo? L’AI potrà produrre un suo linguaggio in risposta alle immagini mostrate?
H.L.: Noi umani scegliamo suoni particolari in parte a causa della nostra fisiologia e del tipo di frequenze che possiamo emettere e di tutti i tipi di vincoli fisici. Ma se l’AI può produrre suoni in altri modi, forse è in grado di creare un proprio linguaggio più facile da comunicare e pensare, ma forse anche più facile da imparare. Quindi, se gli mostriamo un gatto e un cane e poi vedrà una giraffa che non ha mai visto prima verrà fuori con un nome. Quindi, se impara con meno dati, è più resiliente e fa analogie in modo più efficiente, potremmo trovarci di fronte a qualcosa di davvero profondo.
(rp)