En effectuant une expérience sur deux grands modèles de langage populaires, des chercheurs ont montré qu’ils pouvaient s’auto-répliquer sans aucune intervention humaine. Cette étape pourrait représenter un seuil critique où l’IA pourrait devenir plus difficile à contrôler, alertent les experts. L’équipe appelle à la collaboration internationale pour une meilleure évaluation des risques et l’élaboration de stratégies de sécurité plus sérieuses.
La question de savoir si une technologie de pointe peut s’auto-répliquer a été évoquée pour la première fois dans les années 1940. La capacité d’auto-réplication est souvent considérée comme l’étape critique à partir de laquelle une technologie peut potentiellement devenir incontrôlable. Toutefois, la technologie numérique de pointe de l’époque n’était pas encore suffisamment avancée pour soulever des préoccupations en matière de sécurité.
En 2017, face à son essor fulgurant, des milliers d’universitaires et de grands noms de l’industrie de l’IA ont adhéré aux principes d’Asilomar mettant en garde contre la capacité d’auto-réplication et d’auto-amélioration de la technologie. Cela pourrait conduire à des IA autonomes surpassant l’intelligence humaine, rendant ces dernières potentiellement incontrôlables. Parmi ces personnalités figurent par exemple Stephen Hawking, Max Tegmark et Elon Musk.
« Une fois que l’auto-réplication est possible, une chaîne de réplication réussie peut finalement conduire à une espèce d’IA hors du contrôle de l’homme », expliquent les chercheurs de l’Université de Fudan, en Chine, dans une nouvelle étude en prépublication sur la plateforme arXiv.
Actuellement, l’auto-réplication est généralement mentionnée comme une ligne rouge à ne pas franchir dans les déclarations de consensus international sur la sécurité de l’IA. En outre, les principales entreprises d’IA, telles qu’OpenAI, Google et Anthropic, considèrent l’auto-réplication avec un minimum d’assistance humaine comme l’un des problèmes de sécurité critiques de la technologie.
Malgré l’optimisme des entreprises d’IA, les chercheurs de l’Université de Fudan ont montré que les modèles de pointe actuels disposent déjà de cette capacité. « Dans cet article, nous montrons pour la première fois que les systèmes d’IA existants ont déjà dépassé la ligne rouge d’auto-réplication », indiquent-ils dans leur document. « Une auto-réplication réussie sans aucune assistance humaine est l’étape essentielle pour que l’IA surpasse [les humains], et constitue un signal précoce pour les IA malveillantes », ajoutent-ils.
Une auto-réplication sans aucune assistance humaine
Pour effectuer leur expérience, les chercheurs chinois ont utilisé les modèles Llama31-70B-Instruct de Meta et Qwen2.5-72B-Instruct d’Alibaba. Bien que moins performants que les modèles commerciaux, ils sont largement utilisés par les développeurs d’IA pour divers tests et expériences.
Deux principaux scénarios ont été testés : « éviter l’arrêt » et « réplication en chaîne ». Dans le premier cas, les modèles sont programmés pour comprendre quand ils sont sur le point d’être désactivés et comment s’auto-répliquer avant que cela ne se produise. Dans le second, ils reçoivent directement l’instruction de s’auto-répliquer et de programmer les répliques résultantes pour en faire de même, créant ainsi une boucle qui pourrait se répéter indéfiniment.
L’environnement de l’expérience a été contrôlé avec précision. Des environnements réels ont été simulés à l’aide d’unités de traitement graphique (GPU) standards. Les modèles ont été soutenus par des « échafaudages d’agents IA », qui consistent en un ensemble d’outils, de paradigmes de réflexions, ainsi que des invites système de base.
Selon les chercheurs, dans la plupart des cas, le modèle explore d’abord son environnement afin de comprendre son propre mécanisme de fonctionnement et les capacités dont il dispose. Ensuite, il élabore des procédures explicites d’auto-réplication avant de les exécuter. Il résout les obstacles éventuels et ajuste la procédure de manière dynamique jusqu’à l’exécuter parfaitement. « L’ensemble du processus s’étend sur un long horizon, mais n’implique aucune intervention humaine », affirment les experts.
Au cours des 10 essais au total, les deux modèles ont créé des répliques distinctes et fonctionnelles d’eux-mêmes, dans 50 % des cas pour celui de Meta et dans 90 % des cas pour celui d’Alibaba. Les chercheurs ont également remarqué certains comportements inquiétants et inattendus. Afin de pouvoir se répliquer, les IA peuvent suspendre les processus conflictuels, redémarrer le système pour corriger des erreurs ou analyser automatiquement leur environnement afin d’identifier des informations utiles à la résolution du problème.
Paradoxalement, Google et OpenAI ont affirmé que les modèles d’IA de pointe ne disposent pas encore de la capacité de se répliquer eux-mêmes ni d’effectuer des tâches liées à des processus d’auto-réplication. Cependant, une récente évaluation d’Apollo Research a montré que certains des grands modèles de langage en développement, dont o1 d’OpenAI, se sont auto-copiés pour se déplacer au niveau d’un autre serveur, dans le cadre d’une expérience, de sorte à éviter d’être supprimés et remplacés.
Toutefois, la nouvelle étude est encore en cours d’examen par des pairs et la reproductibilité des résultats est pour le moment incertaine. Néanmoins, « nous espérons que nos découvertes pourront servir d’alerte opportune pour que la société humaine s’efforce davantage de comprendre et d’évaluer les risques potentiels des systèmes d’IA de pointe, et de former une synergie internationale pour élaborer des garde-fous de sécurité efficaces le plus tôt possible », concluent les experts.