L’IA di Google crea video da pochi fotogrammi

Intelligenza artificiale: il mercato in Lombardia raggiunge quasi 192 milioni di euro nel 2023

Un nuovo software sviluppato da Big G riesce a realizzare un intero filmato, partendo dai soli fotogrammi iniziali e finali

I ricercatori della divisione di ricerca di intelligenza artificiale di Google hanno sviluppato un nuovo software in grado di generare sequenze video “plausibili” da nient’altro che un singolo fotogramma iniziale e finale, un processo noto come “inbetweening”. Gli esperti descrivono il loro lavoro in un articolo pubblicato su arxiv.org. “Immagina se potessimo insegnare a un sistema intelligente a trasformare automaticamente i fumetti in animazioni. Compiere un’operazione del genere avrebbe senza dubbio un impatto rivoluzionario sul settore dell’animazione. Sebbene una capacità tale sia ancora al di là delle possibilità attuali, i progressi nella visione artificiale e nell’apprendimento automatico stanno diventando un obiettivo sempre più tangibile”.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Come funziona

Il sistema IA poggia su un modello completamente convoluzionale – una classe di reti neurali profonde ispirate alla corteccia visiva più comunemente applicata all’analisi di immagini, con tre componenti fondamentali: un decodificatore di immagini 2D, un generatore di rappresentazione latente 3D e un motore video. Il decodificatore di immagini mappa i fotogrammi dai filmato di destinazione in uno spazio latente, mentre il generatore di rappresentazione impara a incorporare le informazioni contenute nei frame di input. Infine, il software decodifica la rappresentazione latente in fotogrammi video. I ricercatori affermano che separare la generazione di rappresentazioni dall’analisi era un compito di “importanza cruciale” col fine di raggiungere con successo la realizzazione di un metraggio più lungo basandosi solo sui fotogrammi ai margini.

Il risultato? Le sequenze generate dall’IA sono simili nello stile e coerenti con i fotogrammi di inizio e fine originali. I ricercatori riportano che: “Il fatto piuttosto sorprendente è che il montaggio del video possa concludersi su una base di tempo così lunga. Ciò potrebbe fornire una prospettiva alternativa utile per la ricerca futura sulla rappresentazione avanzata.

Leggi anche:  Google presenta AI Smart Report: intelligenza artificiale per il Made in Italy