À une époque, il paraissait incroyable de découvrir que le Polaroïd peut développer quasiment instantanément une photo qui vient d’être prise. Aujourd’hui, un système capable de créer des scènes 3D à partir de seulement quelques photos en quelques secondes vient d’être présenté par NVIDIA.
L’entreprise a en effet développé une méthode qui permet à une intelligence artificielle de convertir en quelques secondes des images 2D en une seule scène 3D. Avec une grande fidélité, à en croire la vidéo de démonstration. On peut en effet y découvrir une photographie hommage à Andy Warhol, référence à celle où on le voyait prendre une photo Polaroïd, mise en trois dimensions. La caméra tourne ensuite autour de la scène, montrant que l’on peut regarder les détails sous toutes les coutures.
« Connu sous le nom de ‘rendu inverse’, ce processus utilise l’intelligence artificielle (IA) pour faire une approximation du comportement de la lumière dans le monde réel, permettant de reconstruire une scène 3D à partir d’une poignée d’images 2D prises sous différents angles », explique NVIDIA dans un article de blog consacré à cette innovation.
NVIDIA a appliqué cette approche à une technologie qui fait l’objet de beaucoup d’attention depuis sa création : le « neural radiance fields », ou, en plus court, NeRFs. Il s’agit là d’une méthode qui permet de générer de nouvelles vues de scènes complexes. Le NeRF prend un ensemble d’images d’entrée d’une scène globale et la complète en liant différentes sous-scènes. En bref, on peut dire que l’IA « remplit les blancs ».
« Collecter des données pour alimenter un NeRF, c’est un peu comme être un photographe sur le tapis rouge essayant de capturer la tenue d’une célébrité sous tous les angles », explique NVDIA de façon imagée. « Le réseau de neurones nécessite quelques dizaines d’images prises à partir de plusieurs positions autour de la scène, ainsi que la position de l’appareil photo pour chacune d’entre elles ».
Une vitesse multipliée par 1000
De nombreux résultats impressionnants ont pu être obtenus à partir de cette technologie. Certaines recherches portent même sur la reconstruction fidèle de villes entières. Dans le cas présent, l’échelle est certes plus petite. Ce qui fait la nouveauté de ce que propose NVIDIA, c’est plutôt la vitesse. Selon l’entreprise, tout le processus, de l’apprentissage des images par l’IA jusqu’au rendu final, ne prend que quelques secondes : tout cela serait donc jusqu’à 1000 fois plus rapide que ce que sont capables de fournir d’ordinaire les IA en la matière.
Cette nouvelle méthode, bâtie sur l’existant, a été baptisée « Instant NeRF ». Celle-ci, selon l’entreprise, qui a récemment publié des résultats de recherches à ce sujet, « réduit le temps de rendu de plusieurs ordres de grandeur. Elle s’appuie sur une technique appelée ‘multi-resolution hash grid encoding’, qui est optimisée pour fonctionner efficacement sur les GPU NVIDIA. En utilisant une nouvelle méthode de codage des entrées, les chercheurs peuvent obtenir des résultats de haute qualité en utilisant un minuscule réseau de neurones qui fonctionne rapidement ».
Des utilisations de cette innovation sont notamment envisagées dans les domaines des voitures autonomes et de la robotique. Cet algorithme pourrait en effet permettre à ces machines de mieux visualiser et « comprendre » leur environnement, à une vitesse potentiellement suffisante pour que l’adaptation soit possible. « L’Instant NeRF pourrait également être utilisé dans l’architecture et le divertissement pour générer rapidement des représentations numériques d’environnements réels que les créateurs peuvent modifier et développer », ajoute NVIDIA.