OpenAI dévoile un nouveau générateur d’images basé sur GPT-4o destiné à la création de visuels contrôlables et pratiques. L’outil dispose d’une fonctionnalité de « binding », permettant d’identifier correctement les objets et de les placer au bon endroit. Plutôt que de se concentrer uniquement sur le côté artistique, il peut ainsi créer des visuels utiles comme des infographies ou des maquettes publicitaires. Cet outil souligne le désir de l’entreprise de renforcer davantage sa position dans le milieu du design professionnel.
Les images sont utilisées depuis des milliers d’années non seulement dans un contexte esthétique, mais également dans un objectif de communication. Alors que les outils de création tels qu’Adobe Photoshop ou Illustrator sont utilisés depuis des décennies pour la création de visuels numériques, l’IA intègre de plus en plus le marché. Les outils d’IA excellent désormais dans la création d’images réalistes, comme le témoignent de nombreux deepfakes circulant librement sur internet.
Cependant, malgré leurs impressionnantes performances, ces outils peinent encore à générer des images informatives. Ils ne disposent pas de la fonctionnalité de binding permettant habituellement aux designers d’assembler manuellement les informations à intégrer au visuel. Contrairement à ces professionnels, l’IA peine à placer des panneaux indicatifs au bon emplacement sur l’image qu’elle génère, par exemple un panneau « tacos » au-dessus d’un stand de restauration.
Ce n’est qu’il y a quelques années que les modèles d’IA ont commencé à réussir des tâches comme « placer le cube rouge sur le cube bleu ». Cependant, ils peinent encore à générer des textes dans les visuels ou à les placer au bon endroit et créent généralement des lettres illisibles ou contenant des erreurs. Ils ne permettent donc pas encore de générer des visuels pratiques ou professionnels, comme les infographies.
Introduit en mai de l’année dernière par OpenAI, GPT-4o surmonterait ces limites et pourrait potentiellement égaler les outils de création numérique spécialisés. Le nouveau modèle de génération d’images n’a cependant été officiellement lancé qu’hier et la génération d’images via ChatGPT s’effectuait jusqu’à présent à l’aide du modèle DALL-E. OpenAI prévoit de le remplacer progressivement par le nouveau dans les semaines à venir. Le nouveau modèle sera également intégré à l’outil de génération de vidéos Sora.
« Nous avons entraîné nos modèles à la distribution conjointe d’images et de textes en ligne, apprenant non seulement le lien entre les images et le langage, mais aussi leurs interactions », explique l’entreprise dans un communiqué. « Grâce à un post-entraînement intensif, le modèle obtenu présente une fluidité visuelle surprenante, capable de générer des images utiles, cohérentes et contextuelles », affirme-t-elle.
10 à 20 objets différents sur un même visuel
Le modèle de création d’images associé à GPT-4o est conçu pour générer un rendu précis des requêtes textuelles et un suivi fin des instructions, y compris la modification d’images téléchargées par l’utilisateur ou leur utilisation en tant que source d’inspiration. Autrement dit, il peut analyser et apprendre à partir des images téléchargées en intégrant les détails dans leur contexte. Pour ce faire, le modèle accorde une attention particulière à chaque point du prompt.
« Ces fonctionnalités facilitent la création de l’image que vous imaginez, vous aidant à communiquer plus efficacement grâce aux visuels et à faire de la génération d’images un outil pratique, précis et performant », affirme OpenAI.
Alors que les modèles standards peinent à générer 5 à 8 objets sur un même visuel, GPT-4o peut générer jusqu’à 20 objets différents. Plus les objets et leurs caractéristiques sont reliés entre eux, plus le contrôle de la conception visuelle est meilleur. Les exemples de démonstration d’OpenAI montrent par exemple un visuel contenant 16 éléments graphiques distincts, tels qu’une tête de chat, un éclair, le mot « OpenAI », un chiffre, etc.
Un autre visuel montre une fiche de recette de thé matcha, tandis qu’un autre révèle un extrait de bande dessinée avec des bulles de texte. Ces visuels nécessitent la compréhension d’un ordre précis que la plupart des modèles standards ont du mal à respecter. Selon Kenji Hata, chercheur chez OpenAI qui a également travaillé sur l’outil : « l’idée générale est de s’éloigner de l’art visuel ». Il précise toutefois que l’outil peut toujours faire cela, mais disposera aussi de fonctionnalités plus utiles.
Les créateurs professionnels comme cibles
Le lancement de ce nouvel outil suggère qu’OpenAI souhaite intégrer davantage les créateurs de visuels professionnels parmi ses utilisateurs, notamment les graphistes, les agences de publicité, les illustrateurs, etc.
Cependant, pour conquérir le marché, l’entreprise devra cibler des experts qui utilisent depuis longtemps des outils de création avancés, comme Adobe Photoshop. Or, « Adobe a vraiment une emprise sur ce marché, et ils évoluent si vite que je ne sais pas à quel point il est convaincant pour les gens de changer », estime David Raskino, cofondateur et directeur technique d’Irreverent Labs.
Il serait également possible de cibler les designers amateurs qui utilisent davantage des outils techniquement moins exigeants comme Canva. Pour cela, il faudra que la vitesse et la qualité des images générées par GPT-4o justifient ce changement. En effet, bien que ces créateurs n’utilisent pas toujours d’outils complexes, ils exigent néanmoins de la qualité, surtout pour les usages professionnels.