Le projet CETI (Cetacean Translation Initiative) est une initiative qui vise à décoder le « langage » des cachalots. Grâce à l’intelligence artificielle, l’équipe à l’origine du projet espère un jour décoder les cliquetis (ou clics) que les cachalots utilisent pour l’écholocalisation et pour communiquer entre eux. À terme, ils développeront peut-être un langage permettant de converser avec ces géants des mers.
Les clics sont organisés en séquences types, appelées codas. Pour décoder ces séries de sons, les chercheurs prévoient d’exploiter le traitement automatique du langage naturel (Natural Language Processing ou NLP) — un sous-domaine de l’intelligence artificielle axé sur le traitement du langage humain écrit et parlé. L’équipe a déjà appliqué des enregistrements de codas de cachalots à un algorithme NLP, avec des résultats prometteurs.
Pourquoi les cachalots en particulier ? En dehors du fait qu’ils possèdent le plus gros cerveau de toutes les espèces, ces animaux affichent des traits similaires à ceux des humains. Ils sont dotés d’une pensée consciente, de la capacité de planification, de parole et de sentiments ; ce sont des animaux grégaires, qui vivent en groupes de 20 à 40 individus, liés par des liens familiaux forts. Leurs communications acoustiques sophistiquées constituent un excellent point de départ pour des outils avancés d’apprentissage automatique pouvant être appliqués à d’autres animaux.
Arborez un message climatique percutant 🌍
Objectifs : récolter et contextualiser les données
Le principal obstacle à surmonter dans le cadre de ce projet est de collecter suffisamment de données ; l’apprentissage automatique nécessite en effet un très large ensemble de données pour l’entraînement et l’élaboration d’un modèle. L’objectif de l’équipe est ainsi de réussir à collecter quatre milliards de « mots » de cachalots ! Dans un premier temps, pour établir une première preuve de concept, elle s’est appuyée sur les recherches menées par le Dominica Sperm Whale Project, qui a recueilli un peu moins de 100 000 codas en plus d’informations précieuses sur la vie sociale et le comportement des cétacés.
Près de 100 000 codas cela peut paraître beaucoup, mais c’est en réalité très peu au regard de la tâche. À titre de comparaison, GPT-3 — le modèle de langage prédictif à apprentissage profond développé par OpenAI et publié en 2020 — a été entraîné à l’aide d’environ 175 milliards de paramètres (soit dix fois plus que n’importe quel modèle de langage développé précédemment) !
Autre point de difficulté : remettre tous les codas dans leur contexte. Dans le langage humain, les mots peuvent avoir différentes significations selon le contexte, voire n’avoir aucune signification ; il en est de même pour les autres langages, y compris les cliquetis des cachalots. Or, il faudra sans doute des années de recherche dédiées à l’étude de ces cétacés dans leur habitat naturel pour associer chaque son à un contexte particulier.
Le projet CETI réunit des cryptographes, des roboticiens, des linguistes, des experts en IA, des technologues et des biologistes marins issus d’universités du monde entier pour mener à bien cette tâche herculéenne. À noter qu’en 2020, l’équipe avait organisé un atelier dédié au décodage de la communication chez les espèces non humaines au Simons Institute for the Theory of Computing, lors duquel des experts étudiant la communication non humaine à travers une variété d’espèces ont partagé leurs recherches ; ce fut l’occasion de glaner pas mal d’informations sur le sujet.
Vers un plus grand respect du monde vivant
Mais les animaux ont-ils réellement un langage ? La question est toujours débattue parmi la communauté scientifique. Beaucoup pensent que le langage est une exclusivité humaine. Selon le biologiste autrichien Konrad Lorenz, l’un des pionniers de la science du comportement animal, « les animaux ne possèdent pas de langage au sens propre du terme » ; autrement dit, ils communiquent, mais ne parlent pas. Karsten Brensing, un biologiste marin allemand spécialiste de la communication animale, estime au contraire que les échanges de nombreux animaux peuvent être qualifiés de langages.
Pour cela, plusieurs conditions doivent être réunies selon lui : une sémantique (pour la signification), une grammaire (pour construire les phrases) et un apprentissage du vocabulaire (pour que cela soit considéré comme un langage, tous les sons produits par un animal ne doivent pas être innés). Et certains animaux (certaines espèces d’oiseaux, ou encore les dauphins) ont déjà prouvé cette capacité d’apprentissage, tout en respectant les deux autres conditions. Les clics des cachalots apparaissent comme des candidats idéaux pour tenter de décoder leur signification — notamment parce qu’ils sont plus faciles à traduire sous forme de 0 et de 1 que les sons continus produits par les autres espèces de baleines.
Si l’équipe remplit ses objectifs, l’étape suivante serait de développer chatbot interactif qui tenterait d’engager un dialogue avec les cachalots vivant en liberté — un exploit qui pourrait modifier complètement la façon dont les humains perçoivent la nature et interagissent avec elle. Les chercheurs admettent que leur recherche pourrait également ne rien révéler d’intéressant, en d’autres termes, les baleines pourraient s’avérer incroyablement ennuyeuses. « Mais nous ne pensons pas que ce soit le cas. Dans mon expérience de biologiste, chaque fois que j’ai vraiment regardé quelque chose de près, il n’y a jamais eu de moment où j’ai été déçu par les animaux », a déclaré David Gruber, responsable du projet.
L’équipe précise que les données du CETI seront rendues publiques pour une collaboration croisée. Elle espère ainsi que les découvertes réalisées sur les cachalots fourniront une base pour mieux comprendre la communication d’autres animaux à la fois dans l’océan et sur terre : éléphants, oiseaux, gorilles, et plus encore. « Si nous découvrons qu’il existe une civilisation entière sous notre nez, cela pourrait entraîner un changement dans la façon dont nous traitons notre environnement. Et peut-être que cela se traduira par un plus grand respect pour le monde vivant », explique Michael Bronstein, responsable de l’apprentissage automatique pour le projet CETI.