L’entreprise Open AI a mis au monde un « artiste » d’un genre nouveau. DALL·E 2, de son petit nom, est une intelligence artificielle (IA) capable de convertir presque n’importe quelle situation demandée en image, à partir d’une simple description textuelle.
« DALL·E 2 est un nouveau système d’IA capable de créer des images réalistes et de l’art à partir d’une description en langage naturel », peut-on lire sur le site internet du projet en guise de résumé. Il s’agit en effet d’un système capable de mettre, littéralement, « les mots en images ». Il suffit donc d’y décrire l’image que l’on souhaite obtenir pour que l’IA compose à sa sauce quelque chose qui y correspond.
Récemment, GauGAN2, une autre IA assez similaire, avait également attiré l’attention. La rédaction de Trust My Science avait alors testé cet outil, qui permet de générer des paysages à partir de mots. Si DALL·E 2 se démarque de ce cousin, c’est notamment parce qu’il ne se limite pas aux paysages. Ni même, d’ailleurs, à des images proches de ce que l’on peut trouver dans la réalité.
Other times I just want to ride in the desert with my panda motorcycle crew. If you see a bunch of pandas wearing red bandanas, that's us! Say hello 🙂
Generated with DALL-E 2. #dalle #openai pic.twitter.com/UdW0U8WSzt— Aris Konstantinidis (@ariskonstant) April 6, 2022
C’est ainsi qu’Aris Konstantinidis, ingénieur pour Open AI, a pu générer ces images étonnantes de pandas roulant à toute allure dans le désert, les yeux recouverts d’adorables lunettes de pilote vintage. Parmi les images mises en avant pour promouvoir l’IA, on trouve aussi un koala jouant au basket, ou encore un astronaute à cheval.
DALL·E 2 peut, selon ses créateurs, combiner à la fois des concepts, des attributs et des styles, pour créer des images au plus près du texte proposé. Mira Murati, une autre employée de l’entreprise, a ainsi pu obtenir l’image suivante pour la requête : « photographie macro 35 mm d’une grande famille de souris portant des chapeaux, confortablement installée au coin du feu » :
DALL-E 2 generates images from text like “macro 35mm film photography of a large family of mice wearing hats cozy by the fireplace” #dalle pic.twitter.com/knLQstkbVz
— Mira Murati (@miramurati) April 6, 2022
Il est aussi possible pour l’IA d’éditer des images existantes. Il suffit pour cela de sélectionner la zone à modifier et d’indiquer ce qui doit être enlevé ou ajouté. Elle peut modifier à la volée la composition, les ombres, les textures… Cette fonction est un ajout par rapport à la première version de DALL·E, sortie en janvier 2021. Ce grand frère qui a commencé à faire parler de lui en janvier 2022 « génère des images plus réalistes et précises avec une résolution 4x supérieure », selon ses concepteurs.
Ingérer des images et des textes
Pour déployer toute cette créativité, « DALL·E 2 a appris la relation entre les images et le texte utilisé pour les décrire », explique Open AI. Comme souvent, ce qu’on met ici sous le terme assez vaste « d’intelligence artificielle » pourrait en fait être appelé plus précisément « machine learning ». Pour « apprendre », DALL·E utilise ce qu’on appelle un réseau neuronal.
Un réseau neuronal est ainsi nommé car il repose sur un système inspiré du fonctionnement des neurones biologiques, qui s’est ensuite rapproché des méthodes statistiques. Concrètement, l’intelligence artificielle se « nourrit » d’un grand nombre de données pour en extraire des connexions logiques, et les traiter en vue d’un résultat. La nourriture de cette IA a donc été composée d’une énorme quantité d’images, associées à des étiquettes textuelles. Les chercheurs de l’entreprise détaillent ce processus dans leurs travaux de recherche.
Cette IA utilise aussi un processus appelé « diffusion ». L’idée est de partir d’un motif de points aléatoires et de modifier progressivement ce motif vers une image lorsque des aspects spécifiques sont reconnus. Évidemment, comme le précise l’entreprise, toute cette belle créativité peut être facilement mise à mal si des images mal étiquetées sont injectées dans le système. Comme un enfant qui apprendrait le mauvais mot pour un objet.
L’entreprise souligne aussi des failles possibles à l’utilisation de DALL·E 2 : « Sans garde-fous suffisants, des modèles comme DALL·E 2 pourraient être utilisés pour générer un large éventail de contenus trompeurs et autrement préjudiciables, et pourraient affecter la façon dont les gens perçoivent l’authenticité du contenu de manière plus générale. DALL·E 2 hérite en outre de divers biais de ses données d’entraînement, et ses sorties renforcent parfois les stéréotypes sociétaux ». Pour le moment, l’accès à l’outil est donc limité, et il faut s’inscrire sur une liste d’attente pour espérer le tester.