Nvidia a récemment annoncé la sortie de la seconde version de son intelligence artificielle GauGAN. Celle-ci était déjà capable de transformer des croquis en images photoréalistes. Elle peut désormais les générer simplement à partir de mots !
Mettre en image ce qui se trouve dans nos têtes… C’est un peu l’objectif de GauGAN. Cette dernière avait déjà proposé au public une possibilité innovante, celle de générer des paysages photoréalistes à partie de croquis dessinés par l’utilisateur. Cette fois-ci, avec GauGAN2, les scientifiques ont choisi de faire la part belle aux mots. Avec leur nouveau système, il suffit de décrire la scène que l’on veut voir apparaître en quelques mots, comme « coucher de soleil sur une plage », pour voir apparaître une image correspondant.
Envie d’un coucher de soleil sur une montagne, sur des rochers, ou par temps de pluie ? Il suffit de le préciser pour faire évoluer le paysage. Et pour ses créateurs, l’IA peut même permettre de représenter des paysages fantastiques avec un peu de doigté : « Imaginez, par exemple, recréer un paysage de la planète emblématique de Tatooine dans la franchise Star Wars, qui a deux soleils. Tout ce dont vous avez besoin est le texte ‘soleil dunes désertiques’ pour créer un point de départ, après quoi les utilisateurs peuvent rapidement esquisser un deuxième soleil ».
Après le passage par les mots, les utilisateurs sont en mesure d’ajuster l’image à loisir. En cliquant sur un bouton, une « segmentation d’image » est créée. C’est à dire, une partition qui classifie les pixels en différents éléments. À partir de là, l’utilisateur peut, en repassant par des phases de croquis, de gommage, d’ajout d’éléments, influer sur l’image finale. Par exemple, il peut tracer grossièrement les contours d’un rocher en utilisant l’étiquette « rock », pour faire apparaître un rocher de la forme de son choix dans l’image de base. Le processus étant itératif, si des mots sont rajoutés, ils peuvent aussi être intégrés sous forme d’éléments concrets, en surcouche de l’image existante.
Une intelligence artificielle basée sur le paysage
Une base de 10 millions de paysages différents a été utilisée pour « entraîner » l’intelligence artificielle de Nvidia. Pour ce faire, ils ont créé un système de « réseau neuronal artificiel » propre au fonctionnement des IA. Concrètement, il s’agit d’un système inspiré du fonctionnement des neurones biologiques, qui s’est ensuite rapproché des méthodes statistiques. L’intelligence artificielle se « nourrit » d’un grand nombre de données pour en extraire des connexions logiques, et les traiter en vue d’un résultat. La nourriture de cette IA-là a donc été très paysagère.
Le modèle, explique Nvidia, est basé sur des réseaux antagonistes génératifs (ou generative adversarial network, d’où le nom GAN dans GauGAN). En résumé, il s’agit d’une classe d’algorithme d’apprentissage non supervisé, qui est conçue pour générer des images réalistes. Son fonctionnement : deux réseaux sont placés comme « adversaires » et doivent en quelque sorte se défier. Le premier réseau génère un échantillon, dans le cas présent, une image. Son adversaire, l’autre réseau, essaie de déterminer si l’échantillon proposé appartient à la réalité ou s’il a été conçu de toutes pièces par l’IA. Ce fonctionnement force donc l’IA à déployer des efforts pour se rapprocher au plus près du réel, et d’images plausibles.
Cet outil de création étonnant pourrait être utilisé par des artistes, notamment pour créer des bases de références correspondant exactement à leurs besoins. Selon l’explication de Nvidia, l’objectif est aussi de permettre aux novices de créer des paysages à partir de presque rien.
On l’a testé pour vous…
Côté novices, la démonstration proposée pour le moment par Nvidia sur son site internet n’est pas toujours satisfaisante. Le passage des mots à l’image peut donner lieu à quelques surprises, comme ce petit ruisseau au milieu d’une forêt dense qui répondait à la demande « forest next to a lake », c’est-à-dire « forêt à côté d’un lac »…
Après quelques tentatives (en modifiant le style par le clic sur l’icône de dés), il est pourtant effectivement possible d’obtenir des images qui répondent à la demande paysagère. À noter que l’IA semble avoir une préférence pour les paysages naturels.
Les résultats obtenus pour les requêtes de type « ville avec des gratte-ciels » étaient parfois assez édifiants. Quant à intégrer de nouveaux éléments en repassant par les croquis, l’essai n’a pas été très concluant malgré un certain acharnement de la part de votre dévouée journaliste. GauGAN2 fait aussi parfois preuve d’une certaine créativité dans l’assemblage de concepts qu’il met en image. C’est ainsi que nous avons pu obtenir cette belle image, en tête de l’article, digne des plus belles cartes postales, simplement en renseignant « beach village next to a huge forest with big trees and clouds », soit, « village de plage paradisiaque à côté d’une immense forêt avec de grands arbres et des nuages » dans la barre de texte, puis en cliquant quelques fois sur les dés pour changer de style.
En y passant plus de temps, nul doute qu’il doit être possible d’arriver à des résultats encore plus édifiants. Comme il s’agit là d’une démonstration, on peut en tout cas espérer que la version finale sera plus intuitive. Pour les curieux, la version d’essai est disponible sur AI demos…
– Article revu et amélioré par Jonathan Paiano
Une démonstration en vidéo :