Une nouvelle interface cerveau-ordinateur alimentée par l’IA traduit quasi instantanément les pensées en paroles audibles. Contrairement aux précédents dispositifs, l’algorithme permet de décoder en quelques millisecondes les phrases au fur et à mesure qu’elles sont pensées, réduisant ainsi considérablement le temps de latence empêchant d’obtenir un rythme conversationnel normal. Cette technologie, qui bénéficie déjà à une patiente paralysée ayant participé aux essais, approche le moment où cette technologie pourra véritablement changer le quotidien des personnes privées de la parole.
Les interfaces cerveau-ordinateur (BCI) font l’objet d’explorations depuis plus de deux décennies, dans le but d’améliorer l’autonomie et la qualité de vie des personnes paralysées. Ces dernières années, des avancées notables ont été réalisées. Les BCI permettent désormais à certains patients paralysés d’effectuer de manière autonome diverses tâches quotidiennes, telles que l’utilisation d’appareils électroniques (ordinateurs, smartphones, etc.), ou encore la manipulation d’objets ménagers.
Cependant, si des progrès marquants ont été accomplis dans le domaine de la traduction de la parole, les dispositifs actuellement disponibles ne permettent pas encore de restituer un rythme conversationnel fluide. Christian Herff, neuroscientifique computationnel à l’Université de Maastricht (Pays-Bas), illustre cette limite en comparant ces échanges à une conversation par messagerie. « J’écris une phrase, vous en écrivez une autre, et vous avez besoin de temps pour en écrire une autre… Ça ne s’écoule pas comme une conversation normale », explique-t-il.
Autrement dit, un délai persiste entre le moment où la pensée est formulée et celui où elle est traduite en mots. Des recherches récentes laissent entrevoir que l’intégration de l’intelligence artificielle pourrait rendre ces interactions plus naturelles en restituant les intentions des patients avec davantage de fluidité. C’est précisément dans cette optique qu’une équipe de l’Université de Californie à Berkeley (UC Berkeley) a développé une nouvelle interface BCI capable de traduire les signaux cérébraux en paroles audibles presque en temps réel.
« Notre approche de streaming apporte aux neuroprothèses la même capacité de décodage vocal rapide que des appareils comme Alexa et Siri », affirme, dans un communiqué Gopala Anumanchipalli, professeur adjoint Robert E. et Beverly A. Brooks en génie électrique et informatique à l’UC Berkeley, et co-auteur principal de l’étude – publiée dans la revue Nature Neuroscience. « Grâce à un algorithme similaire, nous avons découvert que nous pouvions décoder des données neuronales et, pour la première fois, permettre un streaming vocal quasi synchrone. Le résultat est une synthèse vocale plus naturelle et fluide ». Le terme de « streaming » désigne ici la lecture continue et sans interruption de données, ce qui permet leur diffusion immédiate.
Un modèle conçu pour simuler la vraie voix de la patiente
Le dispositif BCI mis au point par l’équipe d’Anumanchipalli opère en échantillonnant les données neuronales issues du cortex moteur, région du cerveau chargée de la coordination des mouvements articulatoires. Il recourt ensuite à un algorithme d’intelligence artificielle pour décoder ces signaux et les convertir en énoncés audibles. Autrement dit, les signaux sont interprétés après que la patiente a formulé intérieurement ce qu’elle souhaite dire, choisi les mots, et décidé comment articuler les sons. « Nous interceptons essentiellement les signaux là où la pensée est traduite en articulation, au cœur du contrôle moteur », explique Cheol Jun Cho, co-auteur principal de l’étude et doctorant en génie électrique et informatique à l’UC Berkeley.
Ce dispositif a été implanté chez une patiente paralysée, prénommée Ann, qui a perdu l’usage de la parole à la suite d’un AVC affectant son tronc cérébral en 2005. Il s’agit d’un implant rectangulaire, placé directement à la surface du cortex, et équipé de 253 électrodes capables d’enregistrer simultanément l’activité de milliers de neurones.
Pour collecter les données nécessaires à l’apprentissage de l’algorithme, les chercheurs ont demandé à Ann de lire des phrases affichées à l’écran — telles que « bonjour, comment vas-tu ? » — puis d’en visualiser mentalement la prononciation. Cette méthode leur a permis de cartographier les correspondances entre les signaux neuronaux et la phrase cible, sans qu’elle ait besoin de produire de sons.
Par ailleurs, du fait de l’absence totale de vocalisation résiduelle chez Ann, les chercheurs ne disposaient d’aucun enregistrement audio récent permettant de corréler les signaux cérébraux à une voix. Ils ont donc contourné cette difficulté en concevant un modèle de synthèse vocale pré-entraîné sur la voix de la patiente avant son accident, de manière à restituer des sons proches de sa voix d’origine.
Un rythme se rapprochant d’une conversation normale
Lors des essais, Ann a pu prononcer 100 phrases, comprenant un total de 1 024 mots et 50 expressions distinctes. Le dispositif captait les signaux cérébraux toutes les 80 millisecondes, en débutant 500 millisecondes avant l’initiation de la pensée articulatoire. Il a ainsi permis de produire entre 47 et 90 mots par minute, un débit approchant celui d’une conversation spontanée, généralement estimé entre 150 et 200 mots par minute.
Ces résultats traduisent une avancée nette par rapport à la version précédente du BCI, testée également par Ann, qui nécessitait en moyenne huit secondes pour transformer une pensée en phrase audible. Le système demeure cependant perfectible : au-delà de 50 millisecondes de latence, la fluidité d’un échange commence à se dégrader, selon plusieurs études.
Les chercheurs estiment toutefois que ce délai pourrait être réduit par l’optimisation des capteurs et à l’amélioration de la précision dans le traitement des signaux neuronaux. « Nous sommes optimistes quant à la possibilité de réaliser des progrès à tous les niveaux. Du côté de l’ingénierie, par exemple, nous allons continuer à développer l’algorithme pour voir comment générer la parole plus efficacement et plus rapidement », déclare Cheol Jun Cho.
Par ailleurs, l’équipe prévoit d’intégrer des éléments d’expressivité dans la voix produite, afin de refléter des caractéristiques naturelles telles que le ton, la hauteur ou l’intensité, propres à chaque vocalisation. « Ces travaux sont en cours pour déterminer dans quelle mesure nous pouvons décoder efficacement ces caractéristiques paralinguistiques issues de l’activité cérébrale », indique Kaylo Littlejohn, également doctorant en génie électrique et informatique à l’UC Berkeley et co-auteur de l’étude.
Vidéo de présentation de l’étude :