Da Nvidia l’IA che trasforma il testo in paesaggi

Da Nvidia l’IA che trasforma il testo in paesaggi

GauGAN2 consente di creare immagini di paesaggi realistici che non esistono

Nvidia ha dettagliato un sistema di intelligenza artificiale chiamato GauGAN2, successore di GauGAN, consente agli utenti di creare immagini di paesaggi realistici che non esistono. Combinando tecniche come la mappatura della segmentazione, l’inpainting e la generazione da testo a immagine in un unico strumento, GauGAN2 è progettato per creare arte fotorealistica con un mix di parole e disegni. “Rispetto ai modelli all’avanguardia specifici per applicazioni text-to-image o segmentazione map-to-image, la rete neurale dietro GauGAN2 produce una maggiore varietà e qualità di immagini” ha spiegato Isha Salian, membro di Nvidia, in un post sul blog. 

“Piuttosto che dover disegnare ogni elemento di una scena immaginata, gli utenti possono inserire una breve frase per generare rapidamente le caratteristiche chiave e il tema di un’immagine, come una catena montuosa innevata. Questo punto di partenza può quindi essere personalizzato con schizzi per rendere più alta una montagna specifica o aggiungere un paio di alberi in primo piano o nuvole nel cielo”.

Arte ricca di bit

GauGAN2, il cui omonimo è il pittore post-impressionista Paul Gauguin, migliora il sistema GauGAN del 2019, addestrato su oltre un milione di immagini pubbliche di Flickr. Come GauGAN, GauGAN2 ha una comprensione delle relazioni tra oggetti come neve, alberi, acqua, fiori, cespugli, colline e montagne, e la capacità di adattare la resa finale a seconda della stagione. Nota come rete generativa avversaria (GAN), il software consiste in un generatore e un discriminatore di elementi. Il generatore preleva campioni, ad esempio immagini abbinate a testo, e prevede quali dati (parole) corrispondono ad altri dati (elementi di un’immagine di un paesaggio).

Leggi anche:  Amazon e Snapchat puntano sull’e-commerce in AR

Il generatore viene addestrato cercando di “ingannare” il discriminatore, che valuta se le previsioni sembrano realistiche. Sebbene le transizioni del GAN ​​siano inizialmente di scarsa qualità, migliorano con il feedback del discriminatore. A differenza di GauGAN, GauGAN2, che è stato addestrato su 10 milioni di immagini, può tradurre le descrizioni del linguaggio naturale in immagini paesaggistiche. Digitare una frase come “tramonto su una spiaggia” genera la scena, mentre l’aggiunta di aggettivi come “tramonto su una spiaggia rocciosa” o scambiare “tramonto” con “pomeriggio” o “giornata di pioggia” modifica istantaneamente l’immagine.

GauGAN è uno dei più recenti strumenti di intelligenza artificiale di Nvidia, creatore di tecnologia deepfake come StyleGAN, che può generare immagini realistiche di  persone che non sono mai esistite. Nel 2018, la compagnia ha dettagliato un modello generativo in grado di sviluppare ambienti virtuali utilizzando video del mondo reale.