Alors que la traduction automatique brise les barrières linguistiques et donne accès instantanément à tout type d’information, les textes générés par ces technologies ne sont pas toujours fiables — parfois inexactes ou de qualité médiocre. Pourtant, d’après une nouvelle étude, la majorité des textes disponibles sur Internet aujourd’hui sont le produit de la traduction automatique. Cette quantité est « choquante » affirment des chercheurs d’Amazon Web Services, surtout lorsqu’elle est combinée à celle générée par l’IA.
Des chercheurs d’Amazon Web Services (AWS) ont récemment mené une étude de contenu et ont constaté que plus de la moitié des phrases disponibles sur Internet ont été traduites en plusieurs langues. Ces derniers qualifient ces traductions de « souvent médiocres » et estiment que cela est dû à une surutilisation de la traduction automatique.
Ce constat soulève des questions sur la fiabilité des informations disponibles sur le web, surtout dans les langues moins répandues. Cette mauvaise qualité de la traduction pourrait également affecter les modèles de langage, dont l’entraînement est alimenté en majeure partie par les données extraites d’Internet. Les résultats de l’étude ont été publiés sur le serveur de prépublication arXiv.
57,1 % des phrases du web sont traduites dans plusieurs langues
L’étude était principalement focalisée sur ce que l’on appelle le « parallélisme multivoie ». Ce terme fait référence à des ensembles de phrases qui sont des traductions directes les unes des autres dans au moins trois langues différentes. Dans ce parallélisme donc, chaque phrase a été traduite dans au moins deux autres langues.
Pour mener l’étude, les chercheurs ont utilisé un corpus massif de 6,38 milliards de phrases extraites du web. L’analyse de ces données textuelles a révélé que plus de la moitié des phrases sont issues d’une traduction. Plus exactement, 57,1 % des phrases du corpus étaient parallèlement disponibles dans au moins trois langues.
Selon les chercheurs, la majorité de ces contenus ont été convertis au moyen de la traduction automatique, surtout à des fins marketing. Nombre de ces textes seraient de mauvaise qualité. Il s’agit généralement d’articles superficiels ou promotionnels, qui ne nécessitent pas une grande expertise pour être produits.
Pourquoi cette faible qualité ?
Pour comprendre les raisons de la mauvaise qualité de traduction des textes, il faut savoir que certaines langues sont dites « à faibles ressources », c’est-à-dire que peu d’informations dans ces langues sont disponibles sur Internet. Il s’agit souvent de langues issues de pays d’Afrique et de l’hémisphère Sud en général. Or, les modèles de traduction automatique ont besoin d’un grand volume de textes traduits précisément pour apprendre à traduire correctement. Si les données disponibles sont insuffisantes, les traductions produites par ces modèles sont également de qualité inférieure.
Dans l’étude, il est pourtant indiqué que les langues à faibles ressources ont les parallélismes les plus élevés (8,6 en moyenne) par rapport aux langues couramment parlées comme le français ou l’anglais (4 en moyenne). Les traductions basées sur ces langues sont donc naturellement de basse qualité. À ce problème s’ajoute, selon les chercheurs, le fait que la plupart des phrases susceptibles d’être traduites sont souvent courtes, simples, et de faible qualité. Leur simplicité et leur manque de contexte peuvent entraîner des traductions de qualité inférieure.
Une implication dans la formation des LLM
L’une des principales préoccupations soulevées par ce constat est l’impact sur la formation des grands modèles de langage (LLM). Si ces modèles d’IA sont entraînés avec des données de mauvaise qualité, cela peut compromettre leur efficacité et leur précision. Cela devient un cercle vicieux : des traductions de mauvaise qualité entraînent des modèles de langage moins performants, qui à leur tour produisent des traductions de qualité encore plus basse. Les chercheurs soulignent que cette situation pose des défis pour le développement à venir des grands modèles de langage actuels (y compris GPT d’OpenAI), en particulier dans les langues à faibles ressources.