Il va sans dire que la parole est un outil très puissant. Malheureusement, nous n’avons pas tous la capacité de l’utiliser, que ce soit pour des raisons biologiques ou à cause de certaines circonstances. Cependant, aujourd’hui, la technologie peut nous aider : des scientifiques ont mis au point un nouvel algorithme transformant les messages neuronaux en véritables sons audibles.
Il s’agit d’un exploit sans précédent : en effet, convertir le mélange complexe d’informations envoyées du cerveau aux différentes parties du corps nécessaires pour transformer une bouffée d’air en sons significatifs n’est pas une tâche facile. Pour que cela fonctionne, les lèvres, la langue, la gorge, la mâchoire, le larynx et le diaphragme doivent tous fonctionner ensemble, en synchronie quasi parfaite.
La tâche n’a pas été facile pour les chercheurs de l’Université de Californie à San Francisco (UCSF) qui se sont lancés dans l’exploration de ce schéma déroutant de signaux provenant du cerveau, dans le but de créer un véritable « discours artificiel » à partir de vrais signaux neurologiques.
Mais selon les chercheurs, il existe plusieurs manières d’y arriver. Plus tôt cette année, une équipe dirigée par l’Université de Columbia a utilisé avec succès une approche complètement différente pour transformer une activité cérébrale en langage audible.
Leur méthode permet de reconstruire des mots d’une syllabe en se basant directement sur la perception par le cerveau des sons parlés provenant du cortex auditif humain. Selon les chercheurs, les discours dits synthétiques produits de cette manière pourraient être compris les trois quarts du temps. Cependant, toujours selon les chercheurs, transformer les mots tels que notre cerveau les interprète directement en paroles risque de créer des distorsions rendant les mots difficiles à comprendre.
« Notre objectif de longue date, est de créer une technique permettant de restaurer la communication pour des patients incapables de parler, que ce soit en raison de problèmes neurologiques comme les AVC ou de maladies comme certains cancers », explique l’un des auteurs de l’étude, Edward Chang, de l’Université de Californie à San Francisco (USA).
Une meilleure technique, basée sur des recherches antérieures menées par l’équipe de l’UCSF, pourrait être de décoder les signaux qu’un cerveau envoie à l’équipement vocal du corps, puis de deviner comment il transformera ces éléments en types d’articulations responsables de la production de sons. En principe, la traduction des mouvements musculaires permettrait d’obtenir un résultat plus clair, et donc plus facile à interpréter, qu’une traduction en une seule étape des seuls signaux du cerveau.
Dans le but de tester cette idée, les chercheurs ont fait appel à 5 volontaires qui subissaient déjà une opération du cerveau (pour traiter leur épilepsie chronique). Dans le cadre de leur procédure, les patients ont eu un réseau d’électrodes implantées directement contre la surface de leur cerveau, ce qui a permis aux chercheurs d’enregistrer les messages neurologiques et de filtrer ces derniers pour ne prendre en considération que ceux dont ils avaient besoin pour leur test.
Lors de l’expérience, des capteurs ont également été collés sur la langue, aux dents et aux lèvres des patients, afin de suivre leurs mouvements. Une fois que tous ces éléments étaient bien connectés entre eux, les sujets ont lu des centaines de mots et de phrases d’une base de données de reconnaissance vocale, ainsi qu’un certain nombre de passages de contes célèbres comme La Belle au bois dormant par exemple.
Afin d’exclure des signaux éventuels résultant de l’écoute de leur propre voix, un volontaire simulait en silence sa lecture, s’arrêtant juste avant de transformer son discours en sons audibles. De ce fait, les schémas de signaux cérébraux générés exclusivement pour contrôler le mouvement des lèvres, de la langue et de la mâchoire ont ensuite été extraits des résultats finaux par un algorithme spécialement conçu pour cette tâche.
Vous aimerez également : La stimulation électrique permet de faire fonctionner un cerveau âgé comme un cerveau plus jeune
C’est ensuite cette véritable carte des mouvements qui a formé la liste des sons à générer par un synthétiseur de parole et les résultats sont absolument remarquables : les chercheurs admettent qu’ils ne sont certes pas parfaits, mais qu’il est difficile de ne pas être impressionné.
Certains fichiers audio ont été rendus publics par l’équipe de recherche, et sont tout simplement étonnants : oui, la voix synthétique « mâche » certains mots, mais d’autres sont clairement compréhensibles, presque autant que dans la version naturelle des phrases étudiées. « Les signaux cérébraux liés aux mouvements de la parole sont en partie communs à tous les individus. Il sera un jour possible qu’un décodeur paramétré sur un individu doué de la parole serve à un patient incapable de parler, qui pourra le contrôler grâce à sa propre activité cérébrale », a expliqué Edward Chang.
Puis, plus de 1700 participants ont fait de leur mieux pour deviner quels mots de la longue liste de possibilités correspondaient aux phrases synthétisées qu’ils avaient entendues : les résultats étaient plutôt variés.
Parmi les participants, un auditeur a réussi à tout comprendre, mais en général, lorsque les participants recevaient une liste de 25 mots possibles, ces derniers transcrivaient un peu moins de la moitié de manière parfaite. Bien entendu, lors de cette expérience certaines phrases étaient plus faciles à comprendre que d’autres, et dans tous les cas, il y avait toujours des sons plus confus et des mots qui ressortaient clairement.
Si les chercheurs souhaitent un jour pouvoir commercialiser ce type de technologie, il faudra encore beaucoup de recherches et d’expériences avant qu’elle ne soit totalement fiable. Il y a encore de nombreux obstacles à franchir, qu’il s’agisse de défis pratiques ou éthiques (dans la pose d’implants neuronaux par exemple). Dans tous les cas, les avancées technologiques permettant l’utilisation de cette technologie ne sont pas négligeables.