La création de jeux vidéo n’a jamais été aussi simple… Désormais, nul besoin de maîtriser la programmation pour en concevoir les bases, grâce à une nouvelle IA de Google. En effet, ce 26 février, Google DeepMind a annoncé son projet baptisé Genie, impliquant un système capable de générer des jeux vidéo à partir d’une simple instruction textuelle ou d’une seule image.
Ces dernières années, la rédaction de textes, la création d’images, la production de sons, de musique et de vidéos sont progressivement arrivées à portée d’un large public, à condition de disposer d’un accès à l’IA adéquate. Cette nouvelle technologie est en train de démocratiser des compétences qui étaient auparavant propres à des professionnels spécialisés.
Récemment, les limites de l’IA ont une fois de plus été repoussées. En effet, un nouveau modèle est désormais capable de produire des jeux vidéo sur demande. Derrière cette prouesse, DeepMind — la société spécialisée dans l’IA d’Alphabet (incluant Google) — et sa collaboration avec l’Université de la Colombie-Britannique (Canada). L’outil, présenté en février, est baptisé « Genie », une abréviation de « Generative Interactive Environments ».
Créer des jeux vidéo en un clic grâce une combinaison de technologies innovantes
Comportant 11 milliards de paramètres, le modèle d’IA combine plusieurs technologies pour générer des jeux vidéo, par le biais d’une unique instruction textuelle ou une image. Elle utilise notamment un « tokenizer », un système qui transforme les images des vidéos en « tokens » — des unités d’information traitables par l’IA. Cette conversion permet de réduire les données visuelles complexes en éléments plus simples, que le modèle peut ainsi manipuler aisément pour apprendre les séquences d’actions dans les jeux vidéo.
L’IA repose également sur un modèle d’action latente, lui permettant d’analyser des images et de comprendre ainsi quelles actions peuvent se produire selon le contexte. Grâce à ce modèle, elle peut produire des séquences d’actions cohérentes pour les jeux qu’elle génère. Cet ensemble de technologies offre à Genie la capacité de créer, à partir d’un prompt ou d’une image, tout un environnement de jeu. Il produit les images de fond ainsi que tous les éléments du décor, les objets de jeu et les personnages.
Un entraînement sur 200 000 heures de vidéos
Au début, Genie a été entraîné sur 200 000 heures de vidéos de jeux vidéo 2D classiques. Ces contenus provenaient de sources publiquement accessibles. Afin d’optimiser leur pertinence, les vidéos ont été filtrées pour ne conserver que 30 000 heures. L’entraînement de Genie s’est déroulé sans supervision humaine directe. Par ailleurs, l’IA n’a pas reçu d’informations sur les commandes lancées par les joueurs (notamment les boutons pressés), mais elle est tout de même parvenue à comprendre les principes fondamentaux des jeux. Le système a été capable de cerner la manière dont les personnages se déplacent, sautent et interagissent avec leur environnement.
En matière de qualité et de résolution, Genie est encore très loin des standards modernes de graphisme de l’industrie du jeu vidéo. La résolution des jeux générés par l’IA est de seulement 160 x 90 pixels, pour une fréquence de 10 images par seconde. Il est cependant à noter que Genie n’est pas encore un produit fini. À ce stade, il ne s’agit que d’un simple projet de recherche.
Dans tous les cas, à mesure que la technologie évolue et que de nouvelles études y sont consacrées, il est certain que les capacités de ce modèle et celles de futurs systèmes similaires augmenteront rapidement. Il en sera certainement de même pour la qualité et la résolution des jeux générés.