Des chercheurs de Meta ont développé une nouvelle intelligence artificielle capable d’analyser les ondes cérébrales d’une personne pour en déduire les mots que celle-ci entend. Ce type de programme pourrait un jour être utilisé pour aider les personnes muettes à communiquer.
Comme le soulignent les chercheurs dans leur article de prépublication, le décodage du langage à partir de l’activité cérébrale est un objectif attendu depuis longtemps, tant dans le domaine de la santé que dans celui des neurosciences. Il existe aujourd’hui des dispositifs intracrâniens, qui entraînés sur des réponses cérébrales à des tâches linguistiques de base, parviennent à décoder efficacement des caractéristiques interprétables (par exemple, des lettres, des mots, des spectrogrammes). Ces dispositifs sont toutefois plutôt invasifs, et ne sont généralement pas adaptés à la parole naturelle.
Jean-Rémi King et ses collègues de Meta ont donc développé une IA capable de traduire des enregistrements de magnéto- et électro-encéphalographie (qui sont des techniques non-invasives) en mots. La technologie n’en est qu’à ses balbutiements, mais les premiers résultats sont encourageants : pour chaque enregistrement, l’IA a prédit une liste de 10 mots, et 73% du temps cette liste comprenait le mot correct ; dans 44% des cas, le premier mot prédit était le bon. La prochaine étape pourrait être d’essayer d’interpréter les pensées d’une personne.
Traduire l’activité cérébrale en mots
Pour entraîner leur IA, King et ses collaborateurs ont utilisé des ensembles de données publiques d’ondes cérébrales provenant de 169 volontaires, collectées alors qu’ils écoutaient des enregistrements de personnes s’exprimant de façon naturelle. Ces données d’ondes, enregistrées par magnéto- ou électro-encéphalographie (M/EEG), ont été segmentées en blocs de trois secondes ; ces derniers ont été soumis à l’IA, accompagnés des fichiers sonores correspondants — l’objectif étant que le logiciel les compare pour identifier des modèles.
Parmi les données disponibles, 10% ont été réservées à la phase de test. En d’autres termes, ces ondes cérébrales n’avaient jamais été examinées par l’IA auparavant. Et le programme a brillamment passé le test : il a été capable de déduire des ondes cérébrales quels mots individuels, à partir d’une liste de 793 mots, chaque personne écoutait à ce moment-là.
« Les résultats montrent que notre modèle peut identifier, à partir de 3s de signaux MEG, le segment de parole correspondant avec une précision allant jusqu’à 72,5% dans le top-10 sur 1594 segments distincts (et 44% dans le top-1) », précisent les chercheurs. Pour les enregistrements de type EEG, l’IA a affiché une moindre précision : elle a été capable de prédire une liste de dix mots contenant le mot correct dans 19,1% des cas, sur 2604 segments distincts.
Meta n’a à ce jour aucun objectif commercial précis, mais pour l’équipe, ces résultats tracent une voie prometteuse pour décoder le traitement du langage naturel en temps réel à partir d’enregistrements non invasifs de l’activité cérébrale.
Des capacités de prédiction encore loin de celles du cerveau humain
Certains experts demeurent sceptiques face à ces performances, estimant que cette technologie est pour le moment très loin d’être suffisamment précise pour une application réelle. Or, les enregistrements de magnéto-encéphalographie et d’électroencéphalographie ne seront selon eux jamais assez détaillés pour pouvoir augmenter un jour la précision de la prédiction. Le cerveau est en effet le siège de nombreux processus, qui pourraient à chaque instant interférer avec les ondes cérébrales associées à l’écoute.
King demeure néanmoins confiant, même s’il reconnaît que, telle quelle, cette IA présente peu d’intérêt — déterminer quels mots une personne entend à un instant t est en effet d’une utilité limitée. En revanche, cette technologie pourrait conduire au développement d’un système capable d’interpréter les pensées d’une personne et donc potentiellement permettre aux personnes incapables de parler de communiquer à nouveau — un objectif particulièrement ambitieux tant la tâche est complexe.
Meta a récemment annoncé un partenariat de recherche à long terme — avec le centre de neuroimagerie cérébrale NeuroSpin, du CEA et l’INRIA — pour étudier le cerveau humain et en particulier, la façon dont il traite le langage. L’objectif est de collecter les données nécessaires au développement d’une IA capable de traiter la parole et le texte aussi efficacement que les humains.
Plusieurs études ont déjà démontré que le cerveau est systématiquement organisé selon une hiérarchie étonnamment similaire aux modèles de langage de l’IA. Toutefois, certaines régions spécifiques du cerveau anticipent les mots, mais aussi les idées, relativement longtemps à l’avance, alors que la plupart des modèles de langage actuels sont formés pour ne prédire que le mot qui suit. « Le déblocage de cette capacité de prévision à long terme pourrait aider à améliorer les modèles de langage de l’IA moderne », souligne la société sur son blog.