Google DeepMind dévoile Aeneas, le premier modèle d’IA permettant de décrypter et de contextualiser les inscriptions anciennes en latin. Il s’appuie sur l’apprentissage profond pour prédire et reconstituer les textes gravés dans les artefacts usés par le temps, accélérant un processus qui prendrait habituellement des milliers d’heures aux historiens. Cela permettrait de réduire considérablement la charge de travail des chercheurs et de proposer des pistes de parallèles historiques à partir d’un large éventail de données.
Les inscriptions en latin occupent une place majeure dans l’histoire de l’Empire romain, leur pouvoir de communication étant véhiculé à la fois par la manière dont les textes sont écrits et leurs formes, ainsi que leurs lieux d’origine. Décrypter ces inscriptions permettrait donc de retracer le passé avec une précision supérieure à celle d’autres artefacts historiques.
On estime qu’environ 1 500 inscriptions latines sont découvertes chaque année, allant de décrets d’empereurs aux épitaphes d’esclaves, offrant un aperçu de la richesse culturelle et de la complexité de la société d’antan. Cependant, leur décryptage se heurte à de nombreux défis. Des lettres, des mots et même des sections entières de texte peuvent se perdre au fil du temps en raison de la dégradation des supports, sans compter que l’étendue des parties manquantes est généralement inconnue.
D’autre part, le passage des textes de main en main, l’absence de dates explicites et l’utilisation fréquente d’abréviations compliquent leur interprétation. La reconstitution textuelle et chronologique de ces textes dépend ainsi d’historiens hautement spécialisés, dont la tâche consiste à les replacer dans un contexte linguistique et historique plus large en identifiant des parallèles avec d’autres textes.
Un travail laborieux pour des spécialistes dispersés
Mais étant donné l’étendue des réseaux de communication des sociétés antiques, ces parallèles couvrent généralement de vastes zones géographiques et chronologiques. La contextualisation des inscriptions nécessite alors des milliers d’heures de travail et exige une connaissance approfondie des différentes époques, ainsi que l’accès à de vastes collections de bibliothèques et de musées pour effectuer des recherches manuelles laborieuses.
En conséquence, les experts ont généralement tendance à acquérir des spécialisations spécifiques à certaines régions ou époques, ce qui limite la capacité de décryptage textuel à grande échelle et l’identification des liens potentiels entre les différents artefacts. Aeneas a été développé dans le but de surmonter ces limites en accélérant le processus de mise en parallèle. L’objectif serait de fournir aux historiens des pistes de parallèles historiques pour le décryptage d’une inscription, leur évitant ainsi de devoir fouiller manuellement les documents.
« Les inscriptions anciennes offrent des aperçus rares et directs sur les civilisations passées, mais elles subsistent souvent sous forme de fragments incomplets, dépourvus de contexte crucial », explique dans un communiqué, Thea Sommerschield, boursière Leverhulme du Département des études classiques et d’archéologie de l’Université de Nottingham, en Angleterre, et co-développeur de l’outil. « Nous avons développé Aeneas, un modèle d’IA qui transforme l’approche des historiens sur ces textes », indique-t-elle.
Aeneas est développé par Google DeepMind en collaboration avec l’Université de Nottingham, ainsi qu’en partenariat avec l’Université de Warwick, l’Université d’Oxford et l’Université d’économie et de commerce d’Athènes (AUEB). L’étude – récemment publiée dans la revue Nature – s’inscrit dans le cadre d’un effort plus vaste visant à explorer la manière dont l’IA générative pourrait aider les historiens à mieux identifier et interpréter les inscriptions anciennes à grande échelle.

Un modèle inspiré par Ithaca, dédié au latin
Aeneas décrypte les inscriptions gravées sur des artefacts usés non seulement pour en interpréter le sens, mais également pour en déterminer l’origine et le lieu où elles ont été produites. Elle s’appuie sur une architecture similaire à celle d’Ithaca, le précédent outil d’IA archéologique de Google DeepMind, qui utilise l’apprentissage profond pour reconstituer et contextualiser des textes en grec ancien.
Aeneas disposerait toutefois d’une capacité d’analyse plus pointue. « Aeneas va plus loin, en aidant les historiens à interpréter et à contextualiser un texte, à donner du sens à des fragments isolés, à tirer des conclusions plus riches et à reconstituer une meilleure compréhension de l’histoire ancienne », expliquent les chercheurs dans un billet de blog de Google DeepMind.
Pour reconstituer les textes, elle utilise des transcriptions partielles de l’inscription ainsi qu’une image numérisée de celle-ci. Elle utilise ensuite ces données pour tenter de déterminer les dates et les origines possibles de la gravure, ainsi que d’éventuelles parties manquantes du texte. Pour les mises en parallèle, l’outil s’appuie sur un vaste ensemble de données incluant plus de 176 000 inscriptions en latin issues de décennies de travail d’historiens de partout dans le monde.
« Tout comme il trouve des liens entre les pièces d’un puzzle, Énée identifie rapidement des noms, des phrases et des formules communs à des milliers d’inscriptions latines, nous permettant de reconstituer des informations perdues et d’acquérir une compréhension plus complète de l’histoire ancienne », explique Sommerschield dans le communiqué de l’Université de Nottingham.
Cette base de données ainsi que les images numérisées constituent en outre les données d’entraînement du réseau neuronal profond d’Aeneas. Si ce chiffre paraît a priori important, il ne constitue en fait qu’une petite fraction des milliards de données utilisées pour former les IA à usage général comme Gemini ou GPT. La raison est qu’il n’existe tout simplement pas suffisamment de données numérisées de qualité pour former ce type d’IA spécialisé.



Des performances évaluées dans des conditions réelles
Afin d’évaluer les performances de l’outil, les chercheurs ont effectué un test collaboratif au cours duquel 23 historiens utilisent le modèle dans un scénario de recherche réel pour décrypter des inscriptions datant du VIIe avant notre ère au VIIIe siècle de notre ère. Les experts ont rapporté que les prédictions de contexte fournies par Aeneas étaient utiles dans 90 % des cas et ont amélioré leur confiance dans les tâches clés de 44 %. Lorsque les historiens travaillaient avec Aeneas, les résultats aux tâches de restauration et d’attribution géographique étaient meilleurs qu’avec les historiens ou l’IA seuls. L’outil a également pu fournir une datation précise sur une période de 13 ans.
Dans une autre expérience, les chercheurs ont utilisé Aeneas pour décrypter le Monumentum Ancyranum, une célèbre inscription gravée sur les murs d’un temple d’Ankara, en Turquie. D’après les chercheurs, le modèle a fourni des prédictions et des parallèles comparables aux analyses historiques existantes de l’œuvre. Son souci du détail serait en outre comparable à celui d’un historien expérimenté.