Software

L’intelligenza artificiale di Microsoft può imitare (davvero) una voce umana

13 Gennaio 2023

Il software riprende tono e cadenza “imparando” da un file audio di soli tre secondi

Un team di ricercatori di Microsoft ha annunciato una nuova intelligenza artificiale in grado di imitare accuratamente una voce umana da un campione audio di soli tre secondi. Lo strumento, chiamato Vall-E, è addestrato su “codici derivati da un modello di codec audio neurale standard” e su 60.000 ore di parlato, 100 volte di più rispetto ai sistemi esistenti, e su oltre 7.000 fonti, tra cui audiolibri di dominio pubblico LibriVox. Ars Technica riferisce che Vall-E si basa su una tecnologia chiamata EnCodec che Meta ha annunciato nell’ottobre 2022. Funziona analizzando la voce di una persona, suddividendo le informazioni in componenti e utilizzando la sua formazione per sintetizzare come suonerebbe se stesse parlando frasi diverse. Anche dopo aver ascoltato solo un campione di tre secondi, Vall-E può replicare il timbro e il tono emotivo di un oratore. “I risultati dell’esperimento mostrano che Vall-E supera in modo significativo il sistema TTS zero-shot, che ricrea le voci che non ha mai sentito, in termini di naturalezza e somiglianza del parlante”.

“Inoltre, troviamo che VALL-E potrebbe preservare l’emozione di chi parla e l’ambiente acustico della fonte”. Esempi di Vall-E su GitHub risultano davvero sorprendenti e suonano quasi identici all’originale nonostante siano basati su un campione audio breve. I ricercatori di Microsoft ritengono che il software possa trovare impiego come strumento di sintesi vocale, un modo per modificare il parlato e un sistema di creazione audio, combinandolo con altre IA generative come GPT-3. Come per tutte le IA, ci sono preoccupazioni per il potenziale uso improprio di Vall-E. Impersonare personaggi pubblici come i politici è un esempio, soprattutto quando lo si utilizza insieme a tecnologie di deep fake. Oppure potrebbe indurre le persone a credere di parlare con familiari, amici o funzionari pubblici, con l’obiettivo di consegnare dati sensibili. Senza dimenticare che alcuni sistemi di sicurezza aziendale utilizzano l’identificazione vocale e potrebbero dunque divenire vittime prescelte nell’uso scorretto di tali tecnologie.

L’intelligenza artificiale di Microsoft può imitare (davvero) una voce umana

Il software riprende tono e cadenza “imparando” da un file audio di soli tre secondi

TI PIACE QUESTO ARTICOLO?

Cloud

Intelligent Workplace

Digital Transformation

Smart Industry

Cybersecurity & Business Continuity

Smart City

WeChangeIT Forum 2024

Insurance

Intelligent Healthcare

WEB COVER

Veritas e V-Valley insieme per la gestione sicura dei dati

TOP 100 DEL SOFTWARE IN ITALIA