En utilisant une technique d’analyse basée sur l’apprentissage automatique, des chercheurs ont identifié les traces chimiques de vie les plus anciennes jamais détectées sur Terre. Datant de 3,3 milliards d’années, elles ont été détectées dans des minéraux carbonés extraits du chert de Josefsdal, en Afrique du Sud. La technique a aussi permis d’identifier la plus ancienne preuve de photosynthèse dans des roches datant de 2,52 milliards d’années.
Les premières formes de vie sur Terre ont laissé très peu de traces, les intempéries et les activités géologiques dégradant facilement les structures biologiques. Les rares vestiges subsistent sous la forme de cellules ou de tapis microbiens minéralisés et fossilisées comme les stromatolithes. Ils ont été enfouis, broyés et chauffés dans la croûte terrestre avant que les mouvements tectoniques ne les ramènent à la surface.
Les analyses des vestiges minéralisés suggèrent que les premières formes de vie remontent à 3,5 milliards d’années. Cependant, ces vestiges sont rares et dispersés et ne permettent pas d’établir de datation précise. D’autres techniques d’analyse reposent sur la détection dans les roches anciennes de biomolécules provenant de membranes cellulaires ou de processus métaboliques. Cela a permis de détecter des traces datant d’entre 1,7 milliard et 3,5 milliards d’années dans des sédiments anciens et des roches riches en carbone.
Cependant, la plupart des roches anciennes ne conservent que peu, voire pas du tout, de biomolécules. La majorité des roches carbonées ont été exposées à la chaleur et d’autres altérations de sorte que les rares traces de biomolécules sont trop dégradées pour être considérées comme preuves biologiques fiables.
Une équipe de la Carnegie Institution for Science a développé une technique basée sur l’IA qui permet d’isoler avec un taux élevé de fiabilité les molécules anciennes d’origine biologique de celles abiotiques. Leur résultat sont détaillés dans l’étude publiée récemment dans la revue PNAS.
« Ce qui est passionnant, c’est que cette approche ne repose pas sur la découverte de fossiles identifiables ou de biomolécules intactes. L’IA ne nous a pas seulement permis d’analyser les données plus rapidement, elle nous a aussi permis de donner un sens à des données chimiques complexes et dégradées », explique Anirudh Prabhu, astrobiologiste de l’institut et coauteur principal de l’étude.
« Elle ouvre la voie à l’exploration d’environnements anciens et extraterrestres sous un angle nouveau, guidée par des schémas que nous n’aurions peut-être même pas pensé à rechercher par nous-mêmes », ajoute-t-il.
Décrypter l’empreinte chimique du vivant grâce à l’apprentissage automatique
L’étude repose sur l’hypothèse selon laquelle les molécules biologiques sont rigoureusement sélectionnées pour assurer des fonctions précises. En effet, contrairement à certaines roches, comme les météorites, dont la distribution des molécules est aléatoire, les organismes biologiques produiraient en abondance certaines molécules spécifiques possédant chacune sa fonction.
L’équipe de la nouvelle étude a donc avancé l’hypothèse selon laquelle la distribution des fragments biomoléculaires présents dans les roches anciennes conserve des informations sur la biosphère, même en l’absence des biomolécules originelles. Pour étayer la théorie, les chercheurs ont analysé 406 échantillons de sédiments anciens, de fossiles, de plantes et d’animaux modernes, ainsi que des météorites. Des échantillons de matériaux organiques synthétiques simulant la chimie de la Terre primitive ont également été utilisés comme référence.

Pour effectuer leurs analyses, les chercheurs ont utilisé une spectrométrie avancée afin d’isoler les molécules piégées dans chaque échantillon. Ils ont ensuite utilisé un modèle d’apprentissage automatique basé sur une architecture appelée « forêt aléatoire ». Celle-ci consiste en l’établissement de centaines d’arbres de décision pour classifier les données et extraire des schémas écologiques et taxonomiques latents.
« Imaginez que vous présentiez des milliers de pièces de puzzle à un ordinateur et que vous lui demandiez si la scène originale représentait une fleur ou une météorite », explique Robert Hazen, minéralogiste et astrobiologiste au Carnegie Institution for Science et coauteur de l’étude. « Plutôt que de nous concentrer sur des molécules individuelles, nous avons recherché des schémas chimiques, et ces schémas pourraient se retrouver ailleurs dans l’univers », ajoute-t-il.
En testant le modèle d’IA sur les composés météoritiques et les biocomposés de synthèse, il a distingué les molécules biologiques de celles non biologiques avec une précision de 98 %. En l’utilisant sur les échantillons de roches anciennes, il a mis en lumière des traces de molécules biologiques datant de 3,3 milliards d’années, dans des échantillons de roche carbonée extraits du chert (un type de roche ancienne contenant des traces de matière organique siliceuse) de Josefsdal.
Le modèle a également permis de détecter avec une fiabilité de 93 % des traces de photosynthèse. Les signatures photosynthétiques les plus anciennes remonteraient à 2,52 milliards d’années dans une roche provenant de la formation de Gamohaan en Afrique du Sud et à 2,3 milliards d’années dans une autre provenant du Canada. Cela repousse de plus de 800 millions d’années les preuves de photosynthèse détectées jusqu’ici.
Un « échos » chimique de la vie ancienne
La technique de détection de l’équipe a également permis d’identifier une différence nette entre la détection des molécules biologiques dans les échantillons anciens et récents. Les échantillons les plus récents, datant des 500 derniers millions d’années, conservent de fortes traces biologiques. Pour les roches âgées de 500 millions à 2,5 milliards d’années, environ deux tiers présentent encore des signatures de vie. En revanche, pour les roches de plus de 2,5 milliards d’années, seulement 47 % conservent des traces détectables de vie.
Pour chaque échantillon, le modèle indiquait alors un score de probabilité pour établir l’origine des molécules. Un score supérieur à 60 % pour la catégorie « biotique » était considéré comme fortement significatif. Les échantillons de Josefsdal et de Gamohaan avaient de hauts scores de probabilité.
« Nos résultats montrent que la vie ancienne laisse derrière elle plus que des fossiles ; elle laisse des « échos » chimiques. Grâce à l’apprentissage automatique, nous pouvons désormais interpréter ces échos de manière fiable pour la première fois », indique Hazen.
Toutefois, pour véritablement éprouver son efficacité, la technique doit être utilisée sur des échantillons plus vastes, précisent les chercheurs. Certains de ceux analysés présentaient encore des scores de probabilité moyens qui ne permettent pas de tirer de conclusions définitives. L’équipe prévoit à la prochaine étape d’affiner le modèle en explorant différents types d’apprentissage automatique et en le testant sur des roches provenant de déserts terrestres semblables à ceux de Mars.

