L’IA di Meta può riconoscere oltre 4mila lingue e dialetti

L’IA di Meta può riconoscere oltre 4mila lingue e dialetti

Basandosi su testi religiosi, il modello MMS ha raggiunto un vero e proprio record

Meta ha creato un modello di linguaggio artificiale, Massively Multilingual Speech (MMS), capace di riconoscere oltre 4.000 lingue parlate e di produrre parlato (sintesi vocale) in oltre 1.100. Come la maggior parte dei suoi concorrenti, l’MMS è attualmente in modalità open source per aiutare a preservare la diversità linguistica e incoraggiare i ricercatori a costruire sulle sue fondamenta. “Oggi condividiamo pubblicamente i nostri modelli e il nostro codice in modo che altri membri della comunità di ricerca possano basarsi sul nostro lavoro”, ha scritto la società. “Attraverso questa iniziativa speriamo di dare un piccolo contributo per raggiungere l’incredibile diversità linguistica del mondo”. I modelli di riconoscimento vocale e di sintesi vocale in genere richiedono formazione su migliaia di ore di audio con etichette di trascrizione associate. Le etichette sono fondamentali per l’apprendimento automatico, poiché consentono agli algoritmi di classificare e “comprendere” correttamente i dati. 

Ma per le lingue che non sono ampiamente utilizzate nelle nazioni industrializzate, molte delle quali rischiano di scomparire nei prossimi decenni, “questo i dati semplicemente non esistono”, come afferma Meta. L’azienda ha utilizzato un approccio non convenzionale alla raccolta di dati audio: attingendo a registrazioni audio di testi religiosi tradotti. “Ci siamo rivolti a testi religiosi, come la Bibbia, che sono stati tradotti in molte lingue diverse e le cui traduzioni sono state ampiamente studiate per la ricerca sulla traduzione linguistica basata su testo. Queste traduzioni hanno registrazioni audio pubblicamente disponibili di persone che leggono questi testi in diverse lingue”. Incorporando le registrazioni non etichettate della Bibbia e testi simili, i ricercatori di Meta hanno aumentato le lingue disponibili del modello a oltre 4.000. 

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Leggi anche:  5 principi per orientarsi nella nebbia digitale dell'intelligenza artificiale all'interno della supply chain

“Sebbene il contenuto delle registrazioni audio sia religioso, la nostra analisi mostra che ciò non pregiudica il modello per produrre un linguaggio più religioso”, ha scritto Meta. “Riteniamo che ciò sia dovuto al fatto che utilizziamo un approccio di classificazione temporale connessionista (CTC), che è molto più vincolato rispetto ai modelli di linguaggio di grandi dimensioni (LLM) o ai modelli in sequenza per il riconoscimento vocale”. Inoltre, nonostante la maggior parte delle registrazioni religiose fossero lette da oratori uomini, anche questo non ha introdotto un pregiudizio maschile, esibendosi ugualmente bene con voci femminili e maschili.