GauGAN 2 : une IA capable de mettre les mots en images !

Donnez-lui une requรชte en texte, et elle la convertit en image :

gaugan 2 ia capable mettre mots en images
Paysage gรฉnรฉrรฉ par l'IA GauGAN 2 pour la requรชte "village de plage paradisiaque ร  cรดtรฉ d'une immense forรชt avec de grands arbres et des nuages". | Nvidia GauGAN 2/Jonathan Paiano
โ‡ง [VIDร‰O]   Vous pourriez aussi aimer ce contenu partenaire

Nvidia a rรฉcemment annoncรฉ la sortie de la seconde version de son intelligence artificielle GauGAN. Celle-ci รฉtait dรฉjร  capable de transformer des croquis en images photorรฉalistes. Elle peut dรฉsormais les gรฉnรฉrer simplement ร  partir de mots !ย 

Mettre en image ce qui se trouve dans nos tรชtes… C’est un peu l’objectif de GauGAN. Cette derniรจre avait dรฉjร  proposรฉ au public une possibilitรฉ innovante, celle de gรฉnรฉrer des paysages photorรฉalistes ร  partie de croquis dessinรฉs par l’utilisateur. Cette fois-ci, avec GauGAN2, les scientifiques ont choisi de faire la part belle aux mots. Avec leur nouveau systรจme, il suffit de dรฉcrire la scรจne que l’on veut voir apparaรฎtre en quelques mots, comme ยซ coucher de soleil sur une plage ยป, pour voir apparaรฎtre une image correspondant.

Envie d’un coucher de soleil sur une montagne, sur des rochers, ou par temps de pluie ? Il suffit de le prรฉciser pour faire รฉvoluer le paysage. Et pour ses crรฉateurs, l’IA peut mรชme permettre de reprรฉsenter des paysages fantastiques avec un peu de doigtรฉ : ยซ Imaginez, par exemple, recrรฉer un paysage de la planรจte emblรฉmatique de Tatooine dans la franchise Star Wars, qui a deux soleils. Tout ce dont vous avez besoin est le texte ‘soleil dunes dรฉsertiques’ pour crรฉer un point de dรฉpart, aprรจs quoi les utilisateurs peuvent rapidement esquisser un deuxiรจme soleil ยป.

Aprรจs le passage par les mots, les utilisateurs sont en mesure d’ajuster l’image ร  loisir. En cliquant sur un bouton, une ยซ segmentation d’image ยป est crรฉรฉe. C’est ร  dire, une partition qui classifie les pixels en diffรฉrents รฉlรฉments. ร€ partir de lร , l’utilisateur peut, en repassant par des phases de croquis, de gommage, d’ajout d’รฉlรฉments, influer sur l’image finale. Par exemple, il peut tracer grossiรจrement les contours d’un rocher en utilisant l’รฉtiquette ยซ rock ยป, pour faire apparaรฎtre un rocher de la forme de son choix dans l’image de base. Le processus รฉtant itรฉratif, si des mots sont rajoutรฉs, ils peuvent aussi รชtre intรฉgrรฉs sous forme d’รฉlรฉments concrets, en surcouche de l’image existante.

Une intelligence artificielle basรฉe sur le paysage

Une base de 10 millions de paysages diffรฉrents a รฉtรฉ utilisรฉe pour ยซ entraรฎner ยป l’intelligence artificielle de Nvidia. Pour ce faire, ils ont crรฉรฉ un systรจme de ยซ rรฉseau neuronal artificiel ยป propre au fonctionnement des IA. Concrรจtement, il s’agit d’un systรจme inspirรฉ du fonctionnement des neurones biologiques, qui s’est ensuite rapprochรฉ des mรฉthodes statistiques. L’intelligence artificielle se ยซ nourrit ยป d’un grand nombre de donnรฉes pour en extraire des connexions logiques, et les traiter en vue d’un rรฉsultat. La nourriture de cette IA-lร  a donc รฉtรฉ trรจs paysagรจre.

Le modรจle, explique Nvidia, est basรฉ sur des rรฉseaux antagonistes gรฉnรฉratifs (ou generative adversarial network, d’oรน le nom GAN dans GauGAN). En rรฉsumรฉ, il s’agit d’une classe d’algorithme d’apprentissage non supervisรฉ, qui est conรงue pour gรฉnรฉrer des images rรฉalistes. Son fonctionnement : deux rรฉseaux sont placรฉs comme ยซ adversaires ยป et doivent en quelque sorte se dรฉfier. Le premier rรฉseau gรฉnรจre un รฉchantillon, dans le cas prรฉsent, une image. Son adversaire, l’autre rรฉseau, essaie de dรฉterminer si l’รฉchantillon proposรฉ appartient ร  la rรฉalitรฉ ou s’il a รฉtรฉ conรงu de toutes piรจces par l’IA. Ce fonctionnement force donc l’IA ร  dรฉployer des efforts pour se rapprocher au plus prรจs du rรฉel, et d’images plausibles.

Cet outil de crรฉation รฉtonnant pourrait รชtre utilisรฉ par des artistes, notamment pour crรฉer des bases de rรฉfรฉrences correspondant exactement ร  leurs besoins. Selon l’explication de Nvidia, l’objectif est aussi de permettre aux novices de crรฉer des paysages ร  partir de presque rien.

On l’a testรฉ pour vous…

Cรดtรฉ novices, la dรฉmonstration proposรฉe pour le moment par Nvidia sur son site internet n’est pas toujours satisfaisante. Le passage des mots ร  l’image peut donner lieu ร  quelques surprises, comme ce petit ruisseau au milieu d’une forรชt dense qui rรฉpondait ร  la demande ยซ forest next to a lake ยป, c’est-ร -dire ยซ forรชt ร  cรดtรฉ d’un lac ยป…

forest next to a lake gaugan
Paysage gรฉnรฉrรฉ par l’IA GauGAN2 pour une premiรจre requรชte ยซย forest next to a lakeย ยป.

Aprรจs quelques tentatives (en modifiant le style par le clic sur l’icรดne de dรฉs), il est pourtant effectivement possible d’obtenir des images qui rรฉpondent ร  la demande paysagรจre. ร€ noter que l’IA semble avoir une prรฉfรฉrence pour les paysages naturels.

forest next to a lake gaugan 2
Nouvelle tentative pour ยซย forest next to a lakeย ยป.

Les rรฉsultats obtenus pour les requรชtes de type ยซ ville avec des gratte-ciels ยป รฉtaient parfois assez รฉdifiants. Quant ร  intรฉgrer de nouveaux รฉlรฉments en repassant par les croquis, l’essai n’a pas รฉtรฉ trรจs concluant malgrรฉ un certain acharnement de la part de votre dรฉvouรฉe journaliste. GauGAN2 fait aussi parfois preuve d’une certaine crรฉativitรฉ dans l’assemblage de concepts qu’il met en image. C’est ainsi que nous avons pu obtenir cette belle image, en tรชte de l’article, digne des plus belles cartes postales, simplement en renseignant ยซย beach village next to a huge forest with big trees and cloudsย ยป, soit, ยซย village de plage paradisiaque ร  cรดtรฉ d’une immense forรชt avec de grands arbres et des nuagesย ยป dans la barre de texte, puis en cliquant quelques fois sur les dรฉs pour changer de style.

En y passant plus de temps, nul doute qu’il doit รชtre possible d’arriver ร  des rรฉsultats encore plus รฉdifiants. Comme il s’agit lร  d’une dรฉmonstration, on peut en tout cas espรฉrer que la version finale sera plus intuitive. Pour les curieux, la version d’essai est disponible sur AI demos

– Article revu et amรฉliorรฉ par Jonathan Paiano

Une dรฉmonstration en vidรฉo :ย 

Source : Nvidia

Laisser un commentaire
Cliquez pour accรฉder ร  d'autres articles sur ce sujet.