Il modello, il punto di arrivo della tecnologica nel settore, è stato reso open source per la comunità di ricerca.
di Karen Hao
Facebook sta diffondando un nuovo modello di linguaggio AI chiamato M2M-100 che può tradurre una coppia qualsiasi di frasi tra 100 lingue. Delle 4.450 combinazioni linguistiche possibili, ne traduce direttamente 1.100. Ciò è in contrasto con i precedenti modelli multilingue, che si basano fortemente sull’inglese come lingua intermedia. Una traduzione dal cinese al francese, per esempio, passa in genere dal cinese all’inglese e quindi dall’inglese al francese, il che aumenta la possibilità di introdurre errori.
Il modello è stato addestrato su 7,5 miliardi di coppie di frasi. Per compilare un set di dati così ampio, i ricercatori hanno fatto affidamento sulla selezione automatica. Hanno utilizzato i web crawler, vale a dire software per l’analisi dei contenuti, per raccogliere miliardi di frasi dal Web e hanno impiegato un altro modello di linguaggio chiamato FastText che identifica la lingua.
Successivamente si sono affidati a un programma chiamato LASER 2.0, sviluppato in precedenza dal laboratorio di ricerca AI di Facebook, che utilizza l’apprendimento non supervisionato, l’apprendimento automatico che non richiede dati etichettati manualmente, per abbinare il significato delle frasi tra le diverse lingue.
LASER 2.0 crea quelli che sono noti come “incorporamenti” da grandi insiemi di dati non strutturati di frasi. Si allena sugli esempi di frasi disponibili all’interno di ciascuna lingua e traccia le loro relazioni reciproche in base alla frequenza e alla vicinanza. Questi incorporamenti aiutano il modello di apprendimento automatico ad approssimare il significato di ogni frase, il che consente a LASER 2.0 di accoppiare automaticamente frasi che condividono lo stesso significato in lingue diverse.
I ricercatori si sono concentrati sulle combinazioni linguistiche che ritenevano fossero più comunemente richieste. Hanno raggruppato le lingue in base a somiglianze linguistiche, geografiche e culturali, partendo dal presupposto che le persone che vivono nella stessa regione comunichino più spesso. Un gruppo linguistico, per esempio, includeva le lingue più comuni parlate in India, tra cui bengalese, hindi, tamil e urdu. LASER 2.0 ha quindi indirizzato la sua ricerca di coppie di frasi su tutte le possibili coppie di lingue all’interno di ciascun gruppo.
Le lingue parlate in luoghi come l’Africa e il Sud-est asiatico soffrono ancora di problemi di qualità della traduzione perché sono disponibili troppi pochi dati linguistici per essere estratti dal web, afferma Angela Fan, la responsabile del progetto. Data la dipendenza dai dati web, i ricercatori devono anche capire le tecniche per identificare e sradicare qualsiasi forma di sessismo, razzismo e altri pregiudizi discriminatori incorporati. In questo momento, i ricercatori hanno utilizzato un filtro per ripulire da termini volgari, ma è per lo più limitato all’inglese.
Facebook non ha attualmente in programma di utilizzare il modello nei suoi prodotti. M2M-100 è pensato solo per scopi di ricerca, spiega Fan. In definitiva, l’obiettivo è che il modello migliori ed espanda le capacità di traduzione esistenti di Facebook. Le applicazioni future potrebbero includere la funzione che consente alle persone di tradurre i post nella loro lingua madre e forse la moderazione dei contenuti.
Immagine: Edurne Chopeitia / Unsplash
(rp)