DALL·E 2 : l'IA qui génère des images (et pas seulement des paysages) à partir de texte

L’entreprise Open AI a mis au monde un « artiste » d’un genre nouveau. DALL·E 2, de son petit nom, est une intelligence artificielle (IA) capable de convertir presque n’importe quelle situation demandée en image, à partir d’une simple description textuelle.

« DALL·E 2 est un nouveau système d’IA capable de créer des images réalistes et de l’art à partir d’une description en langage naturel », peut-on lire sur le site internet du projet en guise de résumé. Il s’agit en effet d’un système capable de mettre, littéralement, « les mots en images ». Il suffit donc d’y décrire l’image que l’on souhaite obtenir pour que l’IA compose à sa sauce quelque chose qui y correspond.

Récemment, GauGAN2, une autre IA assez similaire, avait également attiré l’attention. La rédaction de Trust My Science avait alors testé cet outil, qui permet de générer des paysages à partir de mots. Si DALL·E 2 se démarque de ce cousin, c’est notamment parce qu’il ne se limite pas aux paysages. Ni même, d’ailleurs, à des images proches de ce que l’on peut trouver dans la réalité.

Other times I just want to ride in the desert with my panda motorcycle crew. If you see a bunch of pandas wearing red bandanas, that's us! Say hello 🙂
Generated with DALL-E 2. #dalle #openai pic.twitter.com/UdW0U8WSzt

— Aris Konstantinidis (@ariskonstant) April 6, 2022

C’est ainsi qu’Aris Konstantinidis, ingénieur pour Open AI, a pu générer ces images étonnantes de pandas roulant à toute allure dans le désert, les yeux recouverts d’adorables lunettes de pilote vintage. Parmi les images mises en avant pour promouvoir l’IA, on trouve aussi un koala jouant au basket, ou encore un astronaute à cheval.

DALL·E 2 peut, selon ses créateurs, combiner à la fois des concepts, des attributs et des styles, pour créer des images au plus près du texte proposé. Mira Murati, une autre employée de l’entreprise, a ainsi pu obtenir l’image suivante pour la requête : « photographie macro 35 mm d’une grande famille de souris portant des chapeaux, confortablement installée au coin du feu » :

DALL-E 2 generates images from text like “macro 35mm film photography of a large family of mice wearing hats cozy by the fireplace” #dalle pic.twitter.com/knLQstkbVz

— Mira Murati (@miramurati) April 6, 2022

Voir aussi

intelligence augmentee fusion ia humain ameliorer securite processus industriels couv

Technologie

·4 min de lecture

Intelligence augmentée : la fusion de l’IA et de l’humain pour améliorer la sécurité des processus industriels

Il est aussi possible pour l’IA d’éditer des images existantes. Il suffit pour cela de sélectionner la zone à modifier et d’indiquer ce qui doit être enlevé ou ajouté. Elle peut modifier à la volée la composition, les ombres, les textures… Cette fonction est un ajout par rapport à la première version de DALL·E, sortie en janvier 2021. Ce grand frère qui a commencé à faire parler de lui en janvier 2022 « génère des images plus réalistes et précises avec une résolution 4x supérieure », selon ses concepteurs.

Ingérer des images et des textes

Pour déployer toute cette créativité, « DALL·E 2 a appris la relation entre les images et le texte utilisé pour les décrire », explique Open AI. Comme souvent, ce qu’on met ici sous le terme assez vaste « d’intelligence artificielle » pourrait en fait être appelé plus précisément « machine learning ». Pour « apprendre », DALL·E utilise ce qu’on appelle un réseau neuronal.

Un réseau neuronal est ainsi nommé car il repose sur un système inspiré du fonctionnement des neurones biologiques, qui s’est ensuite rapproché des méthodes statistiques. Concrètement, l’intelligence artificielle se « nourrit » d’un grand nombre de données pour en extraire des connexions logiques, et les traiter en vue d’un résultat. La nourriture de cette IA a donc été composée d’une énorme quantité d’images, associées à des étiquettes textuelles. Les chercheurs de l’entreprise détaillent ce processus dans leurs travaux de recherche.

Cette IA utilise aussi un processus appelé « diffusion ». L’idée est de partir d’un motif de points aléatoires et de modifier progressivement ce motif vers une image lorsque des aspects spécifiques sont reconnus. Évidemment, comme le précise l’entreprise, toute cette belle créativité peut être facilement mise à mal si des images mal étiquetées sont injectées dans le système. Comme un enfant qui apprendrait le mauvais mot pour un objet.

L’entreprise souligne aussi des failles possibles à l’utilisation de DALL·E 2 : « Sans garde-fous suffisants, des modèles comme DALL·E 2 pourraient être utilisés pour générer un large éventail de contenus trompeurs et autrement préjudiciables, et pourraient affecter la façon dont les gens perçoivent l’authenticité du contenu de manière plus générale. DALL·E 2 hérite en outre de divers biais de ses données d’entraînement, et ses sorties renforcent parfois les stéréotypes sociétaux ». Pour le moment, l’accès à l’outil est donc limité, et il faut s’inscrire sur une liste d’attente pour espérer le tester.

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

La Russie annonce le début de la construction de sa nouvelle station spatiale pour 2027

DALL·E 2 : l’IA qui génère des images (et pas seulement des paysages) à partir de texte

Intelligence augmentée : la fusion de l’IA et de l’humain pour améliorer la sécurité des processus industriels

Ingérer des images et des textes

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude