Stability AI debutta con i modelli Stable Video Diffusion

Nutanix, la forza dell’IA è nell’integrazione

Le piattaforme possono produrre video in alta qualità partendo da immagini o testo

Mentre OpenAI celebra il ritorno di Sam Altman, i suoi rivali stanno alzando la posta nella corsa all’IA. Subito dopo il rilascio di Claude 2.1 da parte di Anthropic e l’acquisizione di Rephrase.ai da parte di Adobe, Stability AI ha annunciato il rilascio di Stable Video Diffusion per segnare il suo ingresso nel tanto ricercato spazio di generazione video. Disponibile solo a scopo di ricerca, Stable Video Diffusion (SVD) include due modelli di intelligenza artificiale, SVD e SVD-XT, che producono brevi clip dalle immagini. L’azienda afferma che entrambi danno vita ad output di alta qualità, eguagliando o addirittura superando le prestazioni di altri generatori di video AI disponibili sul mercato. Stability AI ha reso open source i modelli da immagine a video come parte della sua anteprima di ricerca e prevede di sfruttare il feedback degli utenti per perfezionarli ulteriormente, aprendo infine la strada alla loro applicazione commerciale.

Secondo un post sul blog dell’azienda, SVD e SVD-XT sono modelli di diffusione latente che acquisiscono un’immagine fissa come fotogramma di condizionamento e generano video 576 X 1024 da essa. Entrambi i modelli producono contenuti a velocità comprese tra 3 e 30 fotogrammi al secondo, ma l’output è piuttosto breve: dura solo fino a quattro secondi. Il modello SVD è stato addestrato per produrre 14 fotogrammi da immagini fisse, mentre quest’ultimo arriva fino a 25. Per creare Stable Video Diffusion, l’azienda ha preso un ampio set di dati video sistematicamente curato, comprendente circa 600 milioni di campioni, e con esso ha addestrato un modello base. Questo modello è stato messo a punto su un set di dati più piccolo e di alta qualità (contenente fino a un milione di clip) per affrontare attività a valle come la conversione di testo e di immagini in video, prevedendo una sequenza di fotogrammi da un singolo frame condizionante. Stability AI ha affermato che i dati per l’addestramento e la messa a punto del modello provengono da set di informazioni di ricerca disponibili al pubblico, sebbene la fonte esatta rimanga poco chiara. Ancora più importante, in un whitepaper che descrive in dettaglio l’SVD, gli autori scrivono che questo modello può servire come base per mettere a punto una controparte in grado di effettuare una sintesi multi-vista. Ciò consentirebbe di generare più visualizzazioni coerenti di un oggetto, usando solo una singola immagine fissa.

TI PIACE QUESTO ARTICOLO?

Iscriviti alla nostra newsletter per essere sempre aggiornato.

Leggi anche:  Microsoft non supporta più le app Android su Windows