OpenAI dévoile Sora, une IA qui génère des vidéos incroyablement réalistes

Sora, le premier modèle d’IA d’OpenAI pour la création de vidéos à partir d’invites textuelles, montre des résultats incroyablement réalistes. Les séquences générées durent jusqu’à une minute et sont riches de détails, surtout si elles représentent des scènes réalistes. Toutefois, bien que l’outil ne soit pas encore parfaitement au point, l’entreprise se montre prudente et prévoit déjà de nombreuses étapes d’essais de sécurité pour éviter au maximum les utilisations potentiellement abusives.

À partir de courtes invites textuelles, Sora peut générer des scènes complexes incluant plusieurs personnages, des types de mouvements spécifiques, des détails précis du paysage environnant et les émotions à véhiculer. Le modèle démontre non seulement une capacité poussée à interpréter la demande de l’utilisateur, mais comprend également comment les personnages et objets interagiraient dans le monde réel.

« Nous pensons que la création de modèles capables de comprendre la vidéo et de comprendre toutes ces interactions très complexes de notre monde est une étape importante pour les futurs systèmes d’IA », a expliqué au MIT Technology Review Tim Brooks, chercheur chez OpenAI.

Pour développer Sora, les ingénieurs d’OpenAI ont adapté la technologie derrière DALL-E-3, leur dernier modèle de génération d’images. Ce dernier utilise ce que l’on appelle un modèle de diffusion, permettant de transformer un ensemble aléatoire de pixels en une image détaillée. Sora adapte donc également cette approche pour l’appliquer à des vidéos plutôt qu’à des images fixes.

De plus, Sora dispose d’un « transformeur », un type de réseau neuronal permettant de traiter de longues séquences de données. La méthode utilisée par Sora consiste à « découper » et assembler de courtes séquences de données vidéo. « C’est comme si vous aviez une pile de toutes les images vidéo et que vous les découpiez de petits cubes », explique Brooks. Le transformeur traite ensuite les cubes comme il le ferait pour un ensemble de mots dans un bloc de texte. Cela a permis de former le modèle avec de nombreux types de vidéos, de différentes résolutions, durées, formats et orientations.

Des scènes incroyablement réalistes

L’une des vidéos générées par Sora et partagées par OpenAI montre une femme japonaise traversant de nuit une rue de Tokyo, créée avec l’invite textuelle suivante : « une femme élégante marche dans une rue de Tokyo remplie de néons chaleureux et de panneaux urbains animés. Elle porte une veste en cuir noire, une longue robe rouge et des bottes noires et porte un sac à main noir. Elle porte des lunettes de soleil et du rouge à lèvres. Elle marche avec assurance et nonchalance. La rue est humide et réfléchissante, créant un effet miroir des lumières colorées. De nombreux piétons s’y promènent ».

L’ensemble de la scène générée par Sora est incroyablement réaliste. Dans le plan large, les mouvements du personnage principal et de ceux en arrière-plan sont bien coordonnés. Les détails dans la scène, des immeubles aux contrastes de lumières, sont bien représentés. La seconde partie de la vidéo est un plan rapproché dans lequel on peut apercevoir jusqu’aux irrégularités du teint et du grain de peau de la femme, tandis qu’en arrière-plan, le paysage est flou, exactement comme ce qui pourrait résulter d’une caméra placée à cette distance.

Vidéo générée par Sora montrant une femme japonaise « marchant dans une rue de Tokyo » :

À noter que les premiers modèles de génération de vidéos à partir de texte ont vu le jour en 2022. Cependant, les vidéos générées étaient généralement irrégulières et de mauvaise qualité. Bien que le modèle Gen-2 de la start-up Runway a considérablement amélioré la qualité de ses vidéos, les séquences ne durent que quelques secondes. En revanche, les séquences générées avec Sora peuvent durer jusqu’à une minute. De son côté, le modèle Lumiere de Google semble moins performant à générer des détails, lorsqu’il s’agit de représenter des scènes de la vie réelle par exemple.

Cependant, le modèle d’OpenAI n’est pas encore parfait. Selon l’entreprise, il peut encore avoir du mal à simuler avec précision une scène complexe et ne pas comprendre des cas spécifiques de cause à effet. Par exemple, si la vidéo est censée représenter une personne croquant un biscuit, ce dernier pourrait par la suite ne pas présenter de trace de morsure. Le modèle peut également confondre des détails spatiaux comme le gauche et la droite ou avoir du mal à représenter des événements qui se suivent dans le temps.

Voir aussi

intelligence augmentee fusion ia humain ameliorer securite processus industriels couv

Technologie

·4 min de lecture

Intelligence augmentée : la fusion de l’IA et de l’humain pour améliorer la sécurité des processus industriels

Ces défauts sont perceptibles dans la vidéo de la femme japonaise en observant attentivement : les mouvements de ses pieds sont saccadés, comme si elle trébuchait un peu en marchant, et elle ne porte pas la même veste au début et à la fin de la vidéo. Néanmoins, l’ensemble n’en reste pas moins réaliste et difficile à distinguer d’une vidéo réelle.

Une autre vidéo générée par Sora, révélant un magnifique paysage avec le suivi d’un couple marchant dans une rue, toujours à « Tokyo », selon le prompt :

Des risques d’utilisation abusive

Bien que le modèle ne soit pas encore prêt à une utilisation massive, OpenAI s’inquiète déjà des potentielles utilisations abusives. Alors que nous assistons actuellement à une propagation alarmante d’images deepfakes générées par IA, de telles vidéos réalistes produites aussi facilement amèneront cela à un tout autre niveau. Des utilisateurs mal intentionnés pourraient par exemple utiliser Sora pour générer des vidéos réalistes de fausses zones de conflit ou de manifestation.

Afin de tenter de pallier ce problème, OpenAI sollicite actuellement l’appui de testeurs de sécurité tiers pour planifier le futur déploiement de Sora. L’outil inclut déjà un filtre bloquant les invites demandant des images violentes, sexuelles ou haineuses ou incluant des personnalités connues. Un autre filtre bloquera les invites enfreignant la politique de sécurité de l’entreprise.

En outre, l’équipe prévoit de s’appuyer sur le protocole de test de sécurité utilisé l’année dernière pour DALL-E-3. Sora intégrera également des balises C2PA, permettant aux détecteurs de fausses images de retracer leur origine. Il s’agit notamment de modèles de stockage et de protection par chiffrement des informations récapitulant l’origine d’une image, telles que la date de création, de traitement et de mise en ligne.

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

La Russie annonce le début de la construction de sa nouvelle station spatiale pour 2027

OpenAI dévoile Sora, une IA qui génère des vidéos incroyablement réalistes

Des scènes incroyablement réalistes

Intelligence augmentée : la fusion de l’IA et de l’humain pour améliorer la sécurité des processus industriels

Des risques d’utilisation abusive

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude