Des chercheurs allemands ont dรฉveloppรฉ une intelligence artificielle capable de crรฉer, automatiquement, des environnements virtuels 3D ร partir de quelques images (2D). En simplifiant ainsi la crรฉation d’espaces 3D rรฉalistes, les applications potentielles sont variรฉes, allant de la rรฉalitรฉ virtuelle ร la recherche, en passant par le cinรฉma.ย
Pour crรฉer une scรจne 3D, les chercheurs n’ont besoin d’alimenter leur intelligence artificielle qu’avec quelques images. Leur rรฉseau neuronal, qui est capable de visualiser et de comprendre avec prรฉcision l’aspect et les jeux de lumiรจre de n’importe quelle vue 2D, fournit ainsi toutes les informations nรฉcessaires pour les phases de crรฉation et de rendu 3D, rรฉalisรฉes avec le logiciel COLMAP.
Les plus calรฉs d’entre vous se diront ici : ยซย mais des algorithmes similaires ont dรฉjร รฉtรฉ inventรฉs !ย ยป. Oui, similaires certes, mais pas plus… En effet, ce rรฉseau neuronal est trรจs diffรฉrent des systรจmes prรฉcรฉdents : il est capable d’extraire de vรฉritables propriรฉtรฉs physiques ร partir d’images fixes ! ยซ Nous pouvons changer la pose de la camรฉra et obtenir ainsi une nouvelle vue de l’objet ยป, explique Darius Rรผckert, qui a dirigรฉ l’รฉtude, de l’universitรฉ d’Erlangen-Nuremberg (Allemagne).
Un monde 3D explorable ร partir de deux images…
Pour rรฉsumer l’รฉtendue des capacitรฉs de ce systรจme, les chercheurs avancent qu’il pourrait crรฉer un monde 3D explorable ร partir de deux images seulement (bien qu’il ne serait pas trรจs dรฉtaillรฉ dans ce cas lร ). ยซ Plus vous avez d’images, meilleure est la qualitรฉ ยป, explique Rรผckert. ยซ Le modรจle ne peut pas crรฉer des choses qu’il n’a pas vues ยป.
Certains des exemples les plus dรฉtaillรฉs d’environnements gรฉnรฉrรฉs utilisent entre 300 et 350 images capturรฉes sous diffรฉrents angles. Mais Rรผckert espรจre amรฉliorer le systรจme en lui faisant simuler la faรงon dont la lumiรจre se reflรจte sur les objets de la scรจne pour atteindre la camรฉra, ce qui signifierait que moins d’images fixes seraient nรฉcessaires pour un rendu 3D prรฉcis.
ยซ Chaque point est projetรฉ dans l’espace et son ‘descripteur’ neuronal est fusionnรฉ en une image neuronale multirรฉsolution. Cette image est traitรฉe par un rรฉseau neuronal convolutionnel profond pour gรฉnรฉrer une image HDR de la scรจne ยป, expliquent les chercheurs dans leur document. ร partir de cela, un rรฉseau neuronal convolutif convertit l’image HDR (High Dynamic Range) en LDR (Low Dynamic Range). Ce sont ces images optimisรฉes autogรฉnรฉrรฉes qui sont ensuite utilisรฉes pour interprรฉter l’environnement, afin de crรฉer un espace 3D en combinant et en croisant les donnรฉes.
Les chercheurs peuvent entraรฎner le rรฉseau neuronal de bout en bout en utilisant des images, un nuage de points ou les paramรจtres de la camรฉra en entrรฉe. ยซ Comme toutes les รฉtapes sont diffรฉrentiables, les paramรจtres qui doivent รชtre optimisรฉs peuvent รชtre choisis librement, par exemple la pose de la camรฉra, le modรจle de la camรฉra ou la couleur de la texture ยป, ajoutent-ils.
Quelques notions : L’imagerie ร grande gamme dynamique (HDRI) regroupe des systรจmes permettant de capturer et/ou afficher une image (fixe ou animรฉe) d’une scรจne comportant des niveaux trรจs variรฉs de luminositรฉ. L’obtention d’une photographie HDR peut aussi se faire avec un appareil traditionnel en prenant plusieurs photos LDR (low dynamic range) puis en les fusionnant avec un logiciel.
ยซ Une qualitรฉ de rendu inรฉgalรฉe ยป
ยซ Jusqu’ร prรฉsent, la crรฉation d’images photorรฉalistes ร partir de reconstructions 3D n’รฉtait pas entiรจrement automatisรฉe et prรฉsentait toujours des dรฉfauts perceptibles ยป, explique Tim Field, fondateur de la sociรฉtรฉ new-yorkaise Abound Labs, qui travaille sur des logiciels de capture 3D.



Bien que Field souligne que le systรจme nรฉcessite encore la saisie de donnรฉes 3D prรฉcises et qu’il ne fonctionne pas encore pour les objets en mouvement, ยซ la qualitรฉ du rendu est inรฉgalรฉe ยป, affirme-t-il. ยซ C’est la preuve que le photorรฉalisme automatisรฉ est possible ยป. Field pense que cette technologie pourra รชtre utilisรฉe pour gรฉnรฉrer des effets visuels cinรฉmatographiques et ร proposer des visites de lieux en rรฉalitรฉ virtuelle. ยซ Elle va accรฉlรฉrer le domaine de recherche dรฉjร trรจs dynamique du rendu basรฉ sur l’apprentissage automatique pour l’imagerie gรฉnรฉrรฉe par ordinateur ยป, conclut-il.
Vidรฉo expliquant le projet et prรฉsentant les rendus 3D, publiรฉe par les chercheurs :


