GauGAN 2 : une IA capable de mettre les mots en images !

Nvidia a récemment annoncé la sortie de la seconde version de son intelligence artificielle GauGAN. Celle-ci était déjà capable de transformer des croquis en images photoréalistes. Elle peut désormais les générer simplement à partir de mots !

Mettre en image ce qui se trouve dans nos têtes… C’est un peu l’objectif de GauGAN. Cette dernière avait déjà proposé au public une possibilité innovante, celle de générer des paysages photoréalistes à partie de croquis dessinés par l’utilisateur. Cette fois-ci, avec GauGAN2, les scientifiques ont choisi de faire la part belle aux mots. Avec leur nouveau système, il suffit de décrire la scène que l’on veut voir apparaître en quelques mots, comme « coucher de soleil sur une plage », pour voir apparaître une image correspondant.

Envie d’un coucher de soleil sur une montagne, sur des rochers, ou par temps de pluie ? Il suffit de le préciser pour faire évoluer le paysage. Et pour ses créateurs, l’IA peut même permettre de représenter des paysages fantastiques avec un peu de doigté : « Imaginez, par exemple, recréer un paysage de la planète emblématique de Tatooine dans la franchise Star Wars, qui a deux soleils. Tout ce dont vous avez besoin est le texte ‘soleil dunes désertiques’ pour créer un point de départ, après quoi les utilisateurs peuvent rapidement esquisser un deuxième soleil ».

Après le passage par les mots, les utilisateurs sont en mesure d’ajuster l’image à loisir. En cliquant sur un bouton, une « segmentation d’image » est créée. C’est à dire, une partition qui classifie les pixels en différents éléments. À partir de là, l’utilisateur peut, en repassant par des phases de croquis, de gommage, d’ajout d’éléments, influer sur l’image finale. Par exemple, il peut tracer grossièrement les contours d’un rocher en utilisant l’étiquette « rock », pour faire apparaître un rocher de la forme de son choix dans l’image de base. Le processus étant itératif, si des mots sont rajoutés, ils peuvent aussi être intégrés sous forme d’éléments concrets, en surcouche de l’image existante.

Une intelligence artificielle basée sur le paysage

Une base de 10 millions de paysages différents a été utilisée pour « entraîner » l’intelligence artificielle de Nvidia. Pour ce faire, ils ont créé un système de « réseau neuronal artificiel » propre au fonctionnement des IA. Concrètement, il s’agit d’un système inspiré du fonctionnement des neurones biologiques, qui s’est ensuite rapproché des méthodes statistiques. L’intelligence artificielle se « nourrit » d’un grand nombre de données pour en extraire des connexions logiques, et les traiter en vue d’un résultat. La nourriture de cette IA-là a donc été très paysagère.

Le modèle, explique Nvidia, est basé sur des réseaux antagonistes génératifs (ou generative adversarial network, d’où le nom GAN dans GauGAN). En résumé, il s’agit d’une classe d’algorithme d’apprentissage non supervisé, qui est conçue pour générer des images réalistes. Son fonctionnement : deux réseaux sont placés comme « adversaires » et doivent en quelque sorte se défier. Le premier réseau génère un échantillon, dans le cas présent, une image. Son adversaire, l’autre réseau, essaie de déterminer si l’échantillon proposé appartient à la réalité ou s’il a été conçu de toutes pièces par l’IA. Ce fonctionnement force donc l’IA à déployer des efforts pour se rapprocher au plus près du réel, et d’images plausibles.

Cet outil de création étonnant pourrait être utilisé par des artistes, notamment pour créer des bases de références correspondant exactement à leurs besoins. Selon l’explication de Nvidia, l’objectif est aussi de permettre aux novices de créer des paysages à partir de presque rien.

On l’a testé pour vous…

Côté novices, la démonstration proposée pour le moment par Nvidia sur son site internet n’est pas toujours satisfaisante. Le passage des mots à l’image peut donner lieu à quelques surprises, comme ce petit ruisseau au milieu d’une forêt dense qui répondait à la demande « forest next to a lake », c’est-à-dire « forêt à côté d’un lac »…

forest next to a lake gaugan — Paysage généré par l’IA GauGAN2 pour une première requête « forest next to a lake ».

Après quelques tentatives (en modifiant le style par le clic sur l’icône de dés), il est pourtant effectivement possible d’obtenir des images qui répondent à la demande paysagère. À noter que l’IA semble avoir une préférence pour les paysages naturels.

forest next to a lake gaugan 2 — Nouvelle tentative pour « forest next to a lake ».

Les résultats obtenus pour les requêtes de type « ville avec des gratte-ciels » étaient parfois assez édifiants. Quant à intégrer de nouveaux éléments en repassant par les croquis, l’essai n’a pas été très concluant malgré un certain acharnement de la part de votre dévouée journaliste. GauGAN2 fait aussi parfois preuve d’une certaine créativité dans l’assemblage de concepts qu’il met en image. C’est ainsi que nous avons pu obtenir cette belle image, en tête de l’article, digne des plus belles cartes postales, simplement en renseignant « beach village next to a huge forest with big trees and clouds », soit, « village de plage paradisiaque à côté d’une immense forêt avec de grands arbres et des nuages » dans la barre de texte, puis en cliquant quelques fois sur les dés pour changer de style.

Voir aussi

Informatique Technologie

·4 min de lecture

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

En y passant plus de temps, nul doute qu’il doit être possible d’arriver à des résultats encore plus édifiants. Comme il s’agit là d’une démonstration, on peut en tout cas espérer que la version finale sera plus intuitive. Pour les curieux, la version d’essai est disponible sur AI demos…

– Article revu et amélioré par Jonathan Paiano

Une démonstration en vidéo :

Source : Nvidia

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

La Russie annonce le début de la construction de sa nouvelle station spatiale pour 2027

GauGAN 2 : une IA capable de mettre les mots en images !

Une intelligence artificielle basée sur le paysage

On l’a testé pour vous…

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Source : Nvidia

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude