A cura di Brad Smith, Vice Chair e Presidente di Microsoft
L’Europa ospita più di 200 lingue e un ricco patrimonio culturale che abbraccia migliaia di anni, conservato in milioni di beni culturali che raccontano la storia dei suoi popoli. Ma queste lingue sono più che portatrici di patrimonio e storia: supportano sia la cultura che il commercio, rendendo possibile alle persone connettersi, creare e fare business.
Tuttavia, con la digitalizzazione del mondo, gran parte della diversità linguistica e culturale dell’Europa rischia di essere lasciata indietro.
La maggior parte dei contenuti web online, che rappresentano la principale fonte di dati di addestramento per gli odierni Large Language Models (LLM), è in inglese. Gran parte del contenuto riflette, inoltre, una prospettiva statunitense. La Commissione Europea ha segnalato che l’obiettivo di digitalizzare il vasto patrimonio culturale europeo è ancora significativamente lontano dall’essere raggiunto. Come i leader europei hanno riconosciuto, senza un’azione urgente, questo squilibrio non è solo una questione culturale, ma commerciale. L’intelligenza artificiale che non comprende le lingue, le storie e i valori dell’Europa non può servire pienamente i suoi cittadini, le sue imprese o il suo futuro.
Ecco perché oggi a Parigi, Microsoft ha ampliato il proprio impegno per il futuro digitale dell’Europa con due nuove iniziative volte a rendere più aperto e accessibile ciò che è unicamente europeo: lingue e cultura. Le novità di oggi si basano e concretizzano ulteriormente l’impegno di Microsoft con gli European Digital Commitement, annunciati quest’anno, per espandere l’infrastruttura cloud ed IA, rafforzare la resilienza digitale e la protezione della privacy dei dati, migliorare la cybersicurezza e sostenere la sovranità digitale e l’economia dell’Europa.
In primo luogo, per sostenere lo sviluppo di un maggior numero di LLM multilingue in Europa e per l’Europa, Microsoft sta collocando i team di due dei propri centri di innovazione a Strasburgo, in Francia, a lungo crocevia di culture e ora sede di importanti istituzioni europee. Questi centri contribuiranno ad espandere la disponibilità di dati multilingue per lo sviluppo dell’intelligenza artificiale, sfruttando la piattaforma Microsoft Azure, le competenze tecniche e le partnership in tutta Europa per promuovere una rappresentazione linguistica più inclusiva nei modelli di intelligenza artificiale. Nell’ambito di questo impegno, Microsoft pubblicherà un bando per presentare proposte volte a contribuire ad ampliare l’offerta di contenuti digitali per 10 lingue europee.
In secondo luogo, per garantire che la ricchezza culturale dell’Europa sia rappresentata e accessibile nel mondo digitale, Microsoft sta espandendo l’iniziativa Culture AI, che aiuta a salvaguardare lingue, monumenti e artefatti attraverso repliche digitali e collaborazione sui dati. Dal 2019, Microsoft ha conservato digitalmente icone del patrimonio culturale come l’antica Olimpia in Grecia, Mount St. Michel in Francia, la Basilica di San Pietro a Roma e l’80° anniversario dello sbarco alleato sulla spiaggia in Normandia, solo per citarne alcune. Oggi, Microsoft ha annunciato che questo autunno inizierà a lavorare con il Ministero della Cultura francese e la società francese Iconem per creare una replica digitale di Notre Dame, il capolavoro gotico di Parigi recentemente restaurato e risalente a 862 anni fa.
Queste attività a supporto dell’Europa e della sua diversità non sono una novità per Microsoft. Le iniziative presentate oggi per sostenere le lingue e la cultura sono basate su 40 anni di esperienza al servizio di paesi e culture in tutta Europa e in tutto il mondo. Da sempre crediamo che per fare in modo che le persone possano sfruttare al meglio la tecnologia, è necessario che le soluzioni che offriamo siano disponibili nelle lingue parlate dal mondo. Ecco perché oggi Windows supporta oltre 90 lingue, tra cui tutte le lingue ufficiali EU e altre lingue regionali tra cui basco, catalano, galiziano, lussemburghese, valenciano e altre ancora. Anche Microsoft 365 offre ampio supporto tramite applicazioni Office in più di 30 lingue europee, incluse tutte le lingue ufficiali dell’Unione Europea.
L’urgenza di colmare il divario linguistico
L’Unione Europea ha 24 lingue ufficiali, con decine di altre lingue riconosciute a livello nazionale o regionale. Eppure molte di queste lingue, anche quelle che fanno parte delle 24 lingue ufficiali, come il danese, il finlandese, lo svedese e il greco, rappresentano meno dello 0,6% dei contenuti web. Altri, come il maltese, l’irlandese, l’estone, il lettone e lo sloveno, sono a malapena visibili online. Mentre solo il 5% della popolazione mondiale parla inglese come prima lingua, il testo in inglese costituisce la metà dei contenuti web, dominando i dati utilizzati per addestrare i modelli di intelligenza artificiale.
Questa sottorappresentazione digitale ha conseguenze reali, poiché gli LLM fanno molto affidamento sui contenuti web per la formazione. Quando una lingua non ha una presenza online sufficiente, rischia di essere esclusa dai futuri servizi di intelligenza artificiale. Sebbene i modelli più grandi e generici possano gestire più lingue, possono comunque perdere le sfumature linguistiche, il contesto culturale e la profondità regionale necessari per applicazioni veramente inclusive. Gli LLM addestrati su dati limitati sono meno accurati, hanno allucinazioni ed errori più grandi, hanno difficoltà con il vocabolario e riflettono più pregiudizi.
Ad esempio, Llama 3.1, un popolare modello open source, mostra un divario di prestazioni di oltre 15 punti percentuali tra le risposte in inglese e qulle in greco e un divario di oltre 25 punti quando si confronta l’inglese con il lettone. Se questo modello fosse uno studente, eccellerebbe in inglese, avrebbe risultati medi in greco e sarebbe carente in lettone. Questa disparità tra le lingue è evidente in tutti i principali test sulle prestazioni degli LLM.[2]
In molti casi, le lingue con un profondo patrimonio culturale, come il bretone, l’occitano e il romancio, che l’UNESCO classifica come in via di estinzione, sono per lo più non supportate dai principali sistemi di intelligenza artificiale di oggi.
Il potere economico delle lingue
Questo sviluppo asimmetrico dei modelli linguistici ha conseguenze economiche reali. Quando i sistemi di intelligenza artificiale non sono in grado di comprendere o rispondere nella lingua di una regione, limitano l’accesso ai servizi e alle opportunità, con impatti negativi sia per le imprese locali che per la crescita economica in generale.
L’ampia diffusione dell’IA, ovvero l’adozione e l’uso in tutti gli ambiti economici, sarà uno dei più importanti motori dell’innovazione e della crescita della produttività nel prossimo decennio. Come l’elettricità e altre tecnologie di uso generale in passato, l’intelligenza artificiale rappresenta la fase successiva dell’industrializzazione.
Per le comunità le cui lingue sono sottorappresentate online, i vantaggi dell’IA rischiano di rimanere fuori portata. Basti pensare a un piccolo imprenditore di Malta che parla solo maltese. Attualmente, gli strumenti avanzati di intelligenza artificiale per attività come l’analisi di mercato o la generazione di contenuti probabilmente non funzionano in maltese, limitando le possibilità di questo imprenditore di sfruttare l’intelligenza artificiale. Oppure, uno studente di lingua polacca in una città fuori Varsavia che non riesce a trovare risorse educative sull’intelligenza artificiale nella sua lingua, può avere un potenziale impatto sulle opportunità di apprendimento. E anche quando una piattaforma di intelligenza artificiale supporta teoricamente una lingua, l’esperienza può essere scadente.
I governi e le istituzioni europee hanno riconosciuto l’importanza di affrontare questa situazione. Per promuovere la competitività economica nell’era dell’IA, l’Europa dovrà abbattere le barriere linguistiche e stimolare la diffusione dell’IA in tutto il continente. Secondo la Commissione europea, solo il 13,5% delle imprese dell’UE utilizza l’intelligenza artificiale. Il piano d’azione dell’UE AI Continent Action Plan rileva che l’abbattimento delle barriere linguistiche nel mercato unico potrebbe aumentare gli scambi commerciali all’interno dell’UE fino a 360 miliardi di Euro.
Nuovi passi per colmare le lacune linguistiche
Per contribuire a colmare questo divario linguistico, Microsoft collaborerà con partner europei per aumentare la disponibilità di dati multilingue. In collaborazione con il Laboratorio ICube dell’Università di Strasburgo, un’istituzione dedicata all’ingegneria, all’informatica e all’imaging, sosterrà gli sforzi di formazione sull’intelligenza artificiale collocando personale del Microsoft Open Innovation Center (MOIC) e del Microsoft AI for Good Lab a Strasburgo, in Francia. Questo team sarà supportato da una rete interna globale di oltre 70 ingegneri, data scientist e professionisti delle policy Microsoft. Questa collaborazione tra il MOIC, Microsoft AI for Good Lab e l’Università di Strasburgo finanzierà anche due ricercatori post-dottorato e fornirà fino a 1 milione di dollari in crediti Azure.
Questo team inizierà attingendo all’archivio di dati multilingue di Microsoft, rendendolo accessibile e trasparente al pubblico europeo, compresi gli sviluppatori open source. Ciò include, ad esempio, i dati di testo multilingue da GitHub e i set di dati vocali. MOIC e GitHub collaboreranno con Hugging Face, una popolare piattaforma di collaborazione per lo sviluppo di modelli di intelligenza artificiale, per ospitare e rendere i dati ampiamente accessibili. Una collaborazione che capitalizza la relazione esistente tra Microsoft ed Hugging Face per rendere disponibile un’ampia gamma di modelli aperti nella raccolta di modelli Hugging Face per la distribuzione con 1 clic nel catalogo dei modelli di Azure, incluso il rilascio della scorsa settimana degli ultimi contributi all’intelligenza artificiale multilingue: il modello SmoILM3, un modello multilingue con parametri del modello 3B altamente efficiente con supporto per 6 lingue, inglese, francese, spagnolo, tedesco, italiano e portoghese.
MOIC collaborerà anche con Common Crawl, uno dei più grandi archivi gratuiti e aperti di dati scansionati sul web. Il MOIC finanzierà il lavoro di Common Crawl, facendo leva su personale madrelingua per annotare e inserire i dati delle lingue europee nel set di dati Common Crawl disponibile al pubblico.
Inoltre, il MOIC e l’AI for Good Lab pubblicheranno un bando per presentare proposte volte a contribuire ad ampliare l’offerta di contenuti digitali per 10 lingue europee, rendendo disponibili le loro raccolte di testi in modo responsabile ed etico alle proprie condizioni così da promuovere lo sviluppo e le esperienze multilingue dell’IA. Le domande di sovvenzione saranno disponibili sul sito web di AI for Good Lab a partire dal 1° settembre 2025. Nella selezione, il MOIC e l’AI for Good Lab si concentreranno sull’opportunità di sbloccare i dati in lingue con una rappresentazione relativamente bassa nei contenuti online, come l’estone, l’alsaziano, lo slovacco, il greco e il maltese. Le sovvenzioni forniranno ai destinatari crediti Azure e supporto ingegneristico e tecnico.
Se da un lato è essenziale disporre di un maggior numero di dati multilingue, dall’altro possono essere utili strumenti tecnologici e know-how. Ad esempio, molte lingue utilizzano script (sistemi di scrittura) che attualmente pongono sfide ai modelli originariamente progettati per l’alfabeto latino. I caratteri cirillici, l’alfabeto greco e la scrittura corsiva araba hanno proprietà diverse. I “tokenizzatori” standard spesso interrompono questi script in modi non ottimali. Questo può danneggiare la capacità di un modello di apprendere un contesto più ampio o un’ortografia accurata in quelle lingue. Nuovi progressi nelle tecniche che consentano a un modello di gestire qualsiasi script in modo uniforme possono essere d’aiuto. Anche migliori meccanismi per creare dati sintetici e per elaborare e gestire tali dati possono essere utili, soprattutto quando gestiscono in modo efficace i problemi relativi alla privacy e ai dati sensibili.
Il MOIC e l’AI for Good Lab lavoreranno per facilitare lo sviluppo e la condivisione di conoscenze, strumenti e capacità per affrontare queste problematiche e offrire risorse agli sviluppatori europei. L’AI for Good Lab pubblicherà un piano per descrivere nel dettaglio come creare set di dati linguistici di alta qualità e addestrare gli LLM locali per ottenere più potenza dai dati esistenti. Questi due gruppi sosterranno anche la ricerca, organizzeranno convegni, co-investiranno in progetti di dati comuni e garantiranno che le conoscenze, gli strumenti e le capacità siano disponibili dove sono più necessari. Questi team continueranno anche a supportare iniziative come quelle del Barcelona Supercomputing Center, del Basque Center for Language Technology e dell’Università di Santiago de Compostela per rilasciare modelli di intelligenza artificiale addestrati in spagnolo, catalano, basco e galiziano in Azure AI Foundry. Questa iniziativa consente agli sviluppatori di creare sistemi di intelligenza artificiale che operano nelle lingue ufficiali della Spagna, promuovendo l’innovazione e l’inclusività.
Infine, per far progredire la ricerca responsabile sull’intelligenza artificiale e contribuire a colmare il divario linguistico, Microsoft sta lanciando due nuove collaborazioni accademiche in Europa presso l’Università di Strasburgo e la IE University School of Science & Technology in Spagna. L’AI for Good Lab di Microsoft e il MOIC collaboreranno con l’Università di Strasburgo per fornire sovvenzioni Azure a sostegno della ricerca congiunta sull’intelligenza artificiale. Inoltre, presso la IE University School of Science & Technology, il Microsoft AI for Good Lab offrirà sovvenzioni Azure per supportare la ricerca congiunta rivolta ai linguaggi con poche risorse, incluso il supporto per i progetti finali correlati ad accelerare nuove soluzioni incentrate sul linguaggio e sull’intelligenza artificiale.
Nuove misure per contribuire a salvaguardare digitalmente il patrimonio culturale dell’Europa
Dal 2019, l’iniziativa Culture AI di Microsoft si è concentrata sull’uso dell’intelligenza artificiale in tutto il mondo per aiutare a preservare le lingue, i luoghi, le storie e gli artefatti che definiscono la storia umana. Alimentata dall’AI for Good Lab e attraverso partnership con organizzazioni non profit, università, governi e istituzioni culturali, l’iniziativa sostiene progetti di digitalizzazione e protezione del patrimonio culturale, dalle lingue in via di estinzione ai monumenti iconici, in Francia, Italia e Grecia. Che si tratti di creare repliche digitali di siti storici o di rendere più accessibili le collezioni museali, l’obiettivo è garantire che l’identità culturale e la diversità non solo siano preservate, ma rese più inclusive e accessibili nell’era digitale.
Oggi, abbiamo annunciato il nostro prossimo progetto: la costruzione di una replica digitale in collaborazione con il Ministero della Cultura francese e lo studio francese Iconem. Al centro del progetto la creazione di un gemello digitale di Notre Dame di Parigi, un punto di riferimento architettonico e culturale plasmato nel corso dei secoli. La costruzione di Notre Dame iniziò nel 1163 e continuò per quasi 200 anni, dando vita a un capolavoro gotico lungo 128 metri con torri gemelle che si innalzano a 69 metri sopra la Senna. Dopo un devastante incendio nel 2019, Notre Dame ha riaperto al pubblico alla fine del 2024. Il progetto utilizzerà la tecnologia e i metodi che abbiamo sviluppato con Iconem per creare un gemello digitale della Basilica di San Pietro lo scorso anno, basato su oltre 400.000 foto e algoritmi avanzati di intelligenza artificiale, in collaborazione con il Vaticano.
Proprio come il progetto del Vaticano per San Pietro, questo nuovo progetto creerà una replica digitale che conserverà in modo permanente in forma digitale ogni dettaglio di Notre Dame, assicurando che la sua struttura, la sua storia e il suo simbolismo siano protetti e accessibili per le generazioni a venire. Combinando l’imaging avanzato con l’intelligenza artificiale, Microsoft creerà e donerà allo Stato francese un gemello digitale che potrà essere utilizzato dai team dedicati alla conservazione ed essere esposto nel futuro Musée Notre Dame de Paris.
Oltre al progetto a Notre Dame, Microsoft ha annunciato anche una partnership con la Bibliothèque Nationale de France e in collaborazione con Iconem per digitalizzare quasi 1.500 scenografie in stile cinematografico di spettacoli dell’Opéra National de Paris tra il 1800 e il 1914. I set digitalizzati saranno resi disponibili attraverso esperienze interattive ed educative e mostre e come set di dati resi disponibili sulla piattaforma Gallica della Bibliothèque Nationale de France per l’intelligenza artificiale culturale e i progetti di ricerca.
Infine, Microsoft avvierà una collaborazione con il Musée des Arts Décoratifs per rendere accessibili al pubblico le descrizioni digitali dettagliate di circa 1,5 milioni di manufatti dal Medioevo ai giorni nostri. Questa iniziativa consentirà ai ricercatori di storia, storia dell’arte e conservazione di accedere a queste nuove informazioni per lo studio e per l’utilizzo nella propria ricerca basata sull’intelligenza artificiale.
Uno sguardo al futuro: adottare un approccio basato sui principi
Oggi, Microsoft compie questi nuovi passi con umiltà e rispetto, riconoscendo che la conservazione della diversità linguistica e culturale dell’Europa è un compito degli europei che deve essere guidato dagli europei. L’Unione europea ha già avviato uno sforzo tra Paesi per mettere in comune i dati linguistici dell’UE e digitalizzare tutti i tipi di patrimonio culturale. Il ruolo di Microsoft è quello di contribuire e sostenere questi e simili sforzi. Nessuna delle iniziative annunciate oggi comporterà la creazione di dati o tecnologie proprietarie per Microsoft.
In sintesi, per rispondere efficacemente a queste esigenze in Europa è fondamentale fornire a più persone competenze sull’IA. Come ha recentemente concluso la Commissione europea, la carenza di competenze digitali nel settore culturale sta ostacolando gli sforzi per digitalizzare le opere del patrimonio culturale in tutta Europa. Per contribuire a colmare questo divario di competenze, il MOIC e l’AI for Good Lab condivideranno conoscenze e apprendimenti su come svolgere questo lavoro critico.
La tecnologia dovrebbe riflettere la ricchezza dell’umanità, non ridurla. Con azioni mirate, possiamo far sì che l’intelligenza artificiale valorizzi, invece di minacciare la diversità linguistica e culturale.
Questa è una delle sfide di equità dell’era dell’intelligenza artificiale. E solo lavorando insieme, con determinazione e urgenza, è possibile colmare il divario e costruire un futuro digitale che onori ogni lingua, ogni cultura e ogni comunità in tutta Europa.