L’intelligenza artificiale di Microsoft può imitare (davvero) una voce umana

Dell Technologies e Hugging Face semplificano la GenAI con l'IT on-premise

Il software riprende tono e cadenza “imparando” da un file audio di soli tre secondi

Un team di ricercatori di Microsoft ha annunciato una nuova intelligenza artificiale in grado di imitare accuratamente una voce umana da un campione audio di soli tre secondi. Lo strumento, chiamato Vall-E, è addestrato su “codici derivati ​​da un modello di codec audio neurale standard” e su 60.000 ore di parlato, 100 volte di più rispetto ai sistemi esistenti, e su oltre 7.000 fonti, tra cui audiolibri di dominio pubblico LibriVox. Ars Technica riferisce che Vall-E si basa su una tecnologia chiamata EnCodec che Meta ha annunciato nell’ottobre 2022. Funziona analizzando la voce di una persona, suddividendo le informazioni in componenti e utilizzando la sua formazione per sintetizzare come suonerebbe se stesse parlando frasi diverse. Anche dopo aver ascoltato solo un campione di tre secondi, Vall-E può replicare il timbro e il tono emotivo di un oratore. “I risultati dell’esperimento mostrano che Vall-E supera in modo significativo il sistema TTS zero-shot, che ricrea le voci che non ha mai sentito, in termini di naturalezza e somiglianza del parlante”.

“Inoltre, troviamo che VALL-E potrebbe preservare l’emozione di chi parla e l’ambiente acustico della fonte”. Esempi di Vall-E su GitHub risultano davvero sorprendenti e suonano quasi identici all’originale nonostante siano basati su un campione audio breve. I ricercatori di Microsoft ritengono che il software possa trovare impiego come strumento di sintesi vocale, un modo per modificare il parlato e un sistema di creazione audio, combinandolo con altre IA generative come GPT-3. Come per tutte le IA, ci sono preoccupazioni per il potenziale uso improprio di Vall-E. Impersonare personaggi pubblici come i politici è un esempio, soprattutto quando lo si utilizza insieme a tecnologie di deep fake. Oppure potrebbe indurre le persone a credere di parlare con familiari, amici o funzionari pubblici, con l’obiettivo di consegnare dati sensibili. Senza dimenticare che alcuni sistemi di sicurezza aziendale utilizzano l’identificazione vocale e potrebbero dunque divenire vittime prescelte nell’uso scorretto di tali tecnologie.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Leggi anche:  Una Data Strategy efficace