Sora, le premier modèle d’IA d’OpenAI pour la création de vidéos à partir d’invites textuelles, montre des résultats incroyablement réalistes. Les séquences générées durent jusqu’à une minute et sont riches de détails, surtout si elles représentent des scènes réalistes. Toutefois, bien que l’outil ne soit pas encore parfaitement au point, l’entreprise se montre prudente et prévoit déjà de nombreuses étapes d’essais de sécurité pour éviter au maximum les utilisations potentiellement abusives.
À partir de courtes invites textuelles, Sora peut générer des scènes complexes incluant plusieurs personnages, des types de mouvements spécifiques, des détails précis du paysage environnant et les émotions à véhiculer. Le modèle démontre non seulement une capacité poussée à interpréter la demande de l’utilisateur, mais comprend également comment les personnages et objets interagiraient dans le monde réel.
« Nous pensons que la création de modèles capables de comprendre la vidéo et de comprendre toutes ces interactions très complexes de notre monde est une étape importante pour les futurs systèmes d’IA », a expliqué au MIT Technology Review Tim Brooks, chercheur chez OpenAI.
Pour développer Sora, les ingénieurs d’OpenAI ont adapté la technologie derrière DALL-E-3, leur dernier modèle de génération d’images. Ce dernier utilise ce que l’on appelle un modèle de diffusion, permettant de transformer un ensemble aléatoire de pixels en une image détaillée. Sora adapte donc également cette approche pour l’appliquer à des vidéos plutôt qu’à des images fixes.
De plus, Sora dispose d’un « transformeur », un type de réseau neuronal permettant de traiter de longues séquences de données. La méthode utilisée par Sora consiste à « découper » et assembler de courtes séquences de données vidéo. « C’est comme si vous aviez une pile de toutes les images vidéo et que vous les découpiez de petits cubes », explique Brooks. Le transformeur traite ensuite les cubes comme il le ferait pour un ensemble de mots dans un bloc de texte. Cela a permis de former le modèle avec de nombreux types de vidéos, de différentes résolutions, durées, formats et orientations.
Des scènes incroyablement réalistes
L’une des vidéos générées par Sora et partagées par OpenAI montre une femme japonaise traversant de nuit une rue de Tokyo, créée avec l’invite textuelle suivante : « une femme élégante marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires et porte un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres. Elle marche avec assurance et nonchalance. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons s’y promènent ».
L’ensemble de la scène générée par Sora est incroyablement réaliste. Dans le plan large, les mouvements du personnage principal et de ceux en arrière-plan sont bien coordonnés. Les détails dans la scène, des immeubles aux contrastes de lumières, sont bien représentés. La seconde partie de la vidéo est un plan rapproché dans lequel on peut apercevoir jusqu’aux irrégularités du teint et du grain de peau de la femme, tandis qu’en arrière-plan, le paysage est flou, exactement comme ce qui pourrait résulter d’une caméra placée à cette distance.
Vidéo générée par Sora montrant une femme japonaise « marchant dans une rue de Tokyo » :
À noter que les premiers modèles de génération de vidéos à partir de texte ont vu le jour en 2022. Cependant, les vidéos générées étaient généralement irrégulières et de mauvaise qualité. Bien que le modèle Gen-2 de la start-up Runway a considérablement amélioré la qualité de ses vidéos, les séquences ne durent que quelques secondes. En revanche, les séquences générées avec Sora peuvent durer jusqu’à une minute. De son côté, le modèle Lumiere de Google semble moins performant à générer des détails, lorsqu’il s’agit de représenter des scènes de la vie réelle par exemple.
Cependant, le modèle d’OpenAI n’est pas encore parfait. Selon l’entreprise, il peut encore avoir du mal à simuler avec précision une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, si la vidéo est censée représenter une personne croquant un biscuit, ce dernier pourrait par la suite ne pas présenter de trace de morsure. Le modèle peut également confondre des détails spatiaux comme le gauche et la droite ou avoir du mal à représenter des événements qui se suivent dans le temps.
Ces défauts sont perceptibles dans la vidéo de la femme japonaise en observant attentivement : les mouvements de ses pieds sont saccadés, comme si elle trébuchait un peu en marchant, et elle ne porte pas la même veste au début et à la fin de la vidéo. Néanmoins, l’ensemble n’en reste pas moins réaliste et difficile à distinguer d’une vidéo réelle.
Une autre vidéo générée par Sora, révélant un magnifique paysage avec le suivi d’un couple marchant dans une rue, toujours à « Tokyo », selon le prompt :
Des risques d’utilisation abusive
Bien que le modèle ne soit pas encore prêt à une utilisation massive, OpenAI s’inquiète déjà des potentielles utilisations abusives. Alors que nous assistons actuellement à une propagation alarmante d’images deepfakes générées par IA, de telles vidéos réalistes produites aussi facilement amèneront cela à un tout autre niveau. Des utilisateurs mal intentionnés pourraient par exemple utiliser Sora pour générer des vidéos réalistes de fausses zones de conflit ou de manifestation.
Afin de tenter de pallier ce problème, OpenAI sollicite actuellement l’appui de testeurs de sécurité tiers pour planifier le futur déploiement de Sora. L’outil inclut déjà un filtre bloquant les invites demandant des images violentes, sexuelles ou haineuses ou incluant des personnalités connues. Un autre filtre bloquera les invites enfreignant la politique de sécurité de l’entreprise.
En outre, l’équipe prévoit de s’appuyer sur le protocole de test de sécurité utilisé l’année dernière pour DALL-E-3. Sora intégrera également des balises C2PA, permettant aux détecteurs de fausses images de retracer leur origine. Il s’agit notamment de modèles de stockage et de protection par chiffrement des informations récapitulant l’origine d’une image, telles que la date de création, de traitement et de mise en ligne.