L’outil s’appelle « microphone optique » et permet littéralement de visualiser un élément habituellement intangible à nos yeux d’humains : le son. Des scientifiques de l’Université Carnegie-Mellon (États-Unis) viennent d’exposer cette avancée, qui se présente sous la forme d’un système de caméras.
Le niveau de détail atteint grâce à ce microphone optique, affirme l’université, pourrait permettre d’isoler le son d’un seul instrument au cœur d’un groupe de musique ou d’un orchestre entier, et de le reconstituer. « Nous avons inventé une nouvelle façon de voir le son », pose tout simplement Mark Sheinin, chercheur postdoctoral au Laboratoire d’illumination et d’imagerie de l’Institut de robotique, où a été développé l’outil. « C’est un nouveau type de système de caméra, un nouveau dispositif d’imagerie, capable de voir quelque chose d’invisible à l’œil nu ».
Le travail de recherche a été présenté à la Conférence IEEE/CVF 2022 sur la vision par ordinateur et la reconnaissance de formes (CVPR), à la Nouvelle-Orléans. Les scientifiques envisagent déjà plusieurs utilisations pour leur outil. Il pourrait, par exemple, permettre à des ingénieurs du son de détecter la musique produite par les instruments de musique de manière individuelle, sans interférence, afin d’affiner au plus près le mixage global.
Dans un contexte tout autre, ce microphone optique pourrait permettre de déceler des machines défaillantes dans une usine bruyante, en isolant les sons caractéristiques émis. « Si votre voiture commence à faire un bruit bizarre, vous savez qu’il est temps de la faire réviser », déclare Mark Sheinin, l’un des chercheurs à l’origine du projet. « Imaginez maintenant une usine pleine de machines. Notre système vous permet de surveiller la santé de chacune en détectant leurs vibrations avec une seule caméra fixe ».
Filmer les vibrations
Des systèmes similaires ont déjà été développés par le passé. L’Université cite notamment le travail des chercheurs du MIT, qui ont développé l’un des premiers microphones visuels en 2014. L’idée est la suivante : la caméra filme les vibrations de la surface de l’élément qui émet un son : par exemple, le bois d’une guitare. Les mouvements très rapides de la vibration peuvent être visualisés et analysés pour retranscrire le son émis.
Cependant, il fallait pour cela jusqu’ici utiliser des caméras capables de capturer des images à très grande vitesse. Les scientifiques affirment ici avoir réussi à obtenir des résultats plus précis avec du matériel moins performant. « Nous avons rendu le microphone optique beaucoup plus pratique et utilisable », affirme ainsi Srinivasa Narasimhan, l’un des chercheurs. « Nous avons amélioré la qualité tout en réduisant les coûts ».
Pour y parvenir, ils ont utilisé un laser. En le pointant sur la surface à « entendre », il produit une sorte de chatoiement, qui crée un motif évolutif en fonction des vibrations. L’image enregistrée pour percevoir le son produit est donc celle de ce chatoiement. Pour cela, deux caméras de 60 fps (images par seconde), donc relativement standard, sont utilisées. L’astuce pour atteindre une précision suffisante repose sur leur complémentarité.
Une des caméras utilise un obturateur global, ou « global shutter », et enregistre la scène en une seule prise. L’autre utilise un obturateur déroulant, ou « rolling shutter », qui enregistre l’image « ligne par ligne », ce qui crée une latence. Un algorithme combine les deux images et recrée le son de façon fiable. L’université affirme que les expériences menées ont été concluantes. Les scientifiques sont ainsi parvenus à capturer le son isolé de guitares jouant simultanément. La même expérience a été répétée avec des haut-parleurs jouant des sons différents.