De nouvelles études explorent en ce moment les défis et les possibilités en matière de mise à l’échelle des systèmes d’apprentissage automatique alimentant les modèles d’IA, et les résultats sont relativement mauvais. Selon des experts, les entreprises d’IA telles qu’OpenAI sont en train d’épuiser les données de formation textuelles mondiales (produites par l’Homme). Des modèles plus avancés que ceux actuels (tels que GPT-5 ou GPT-6) pourraient même épuiser les sources de données disponibles d’ici 2026. La question suivante se pose donc : sans nouvelles données textuelles humaines, l’IA pourra-t-elle continuer à progresser ?
Les avancées récentes dans le domaine de la modélisation du langage se sont largement appuyées sur d’importantes quantités de texte écrit par des humains, souvent issus du web ou de corpus archivés. D’ailleurs, les ensembles de données textuelles publics regroupent des milliards de mots provenant de milliards de pages web. Malgré cela, de récentes recherches ont indiqué que les entreprises d’IA font face à un problème d’envergure : un épuisement de données. Face à cette contrainte potentielle sur la mise à l’échelle des grands modèles de langage (LLM), Tamay Besiroglu, chercheur en IA, a déclaré à l’Associated Press : « Il y a ici un sérieux goulot d’étranglement ».
« Si vous commencez à vous heurter à ces contraintes concernant la quantité de données dont vous disposez, vous ne pouvez plus vraiment faire évoluer vos modèles de manière efficace. Et la mise à l’échelle des modèles a probablement été le moyen le plus important d’étendre leurs capacités et d’améliorer la qualité de leur production », a-t-il ajouté. Les outils d’IA exploitent également sans discernement les archives en ligne accessibles au public et cette tendance controversée sur l’utilisation des données a déjà conduit à des poursuites judiciaires. C’est par exemple le cas des éditeurs du New York Times, qui ont poursuivi OpenAI pour violation de droit d’auteur.
Vers une baisse vertigineuse du flux de nouveaux contenus
Selon les chercheurs, si les tendances actuelles de développement des LLM se poursuivent, il est probable que les modèles soient entraînés sur des ensembles de données d’une taille approximativement équivalente à la totalité des données textuelles humaines publiques disponibles entre 2026 et 2032 (voire un peu plus tôt si les modèles sont soumis à un surentraînement). De plus, un article rédigé par des chercheurs du groupe de réflexion Epoch AI basé à San Francisco, suggère que la quantité de données textuelles sur lesquelles les modèles d’IA sont formés augmente d’environ 2,5 fois tous les ans seulement. Ils affirment également que les grands modèles de langage tels que GPT-4 d’OpenAI et Llama 3 de Meta pourraient être à court de données d’ici 2026.
Pour contourner cet obstacle, d’autres chercheurs sont en train d’étudier la façon dont les progrès en modélisation du langage pourraient se poursuivre lorsque les ensembles de données textuelles générées par l’homme seront épuisés. La solution la plus viable, selon eux, serait de former les modèles de langage sur des données synthétiques (générées), ce qui implique l’apprentissage par transfert à partir de domaines riches en données. D’ailleurs, OpenAI, Google et Anthropic travaillent déjà sur cette solution.
Cependant, d’après les constats des scientifiques de Rice et de l’Université de Stanford, l’alimentation de ces modèles en contenu généré par l’IA a entraîné une baisse considérable de la qualité de production de contenu. Cette situation risque ainsi de créer une « boucle autophage » et suscite de nombreuses questions quant à la possibilité des algorithmes d’IA de devenir plus efficaces en produisant de meilleurs résultats avec moins de données.
« Je pense qu’il est important de garder à l’esprit que nous n’avons pas nécessairement besoin de former des modèles de plus en plus grands », déclare Nicolas Papernot, chercheur en IA et professeur adjoint de génie informatique à l’Université de Toronto. Quoi qu’il en soit, les conclusions de cette étude mettent en évidence l’importance de continuer les recherches afin de mesurer les taux de croissance de l’efficacité des données ainsi que les améliorations potentielles apportées par les méthodes émergentes.