La frontière entre l’homme et la machine n’a jamais été aussi floue. Dans une étude pré-publiée sur arXiv, le modèle de langage GPT-4.5, conçu par OpenAI, ne s’est pas contenté de réussir le test de Turing : il a, à plusieurs reprises, été jugé plus humain que ses interlocuteurs réels. Les chercheurs ont mis de côté les critères techniques pour se concentrer sur la qualité des échanges. Le résultat est frappant : dans 73 % des cas, l’IA a su incarner une personnalité crédible, franchissant largement le seuil des 50 % (nécessaire pour réussir le test de Turing).
Alors que les grandes firmes technologiques poursuivent leur ambition de mettre au point l’Intelligence Artificielle Générale (IAG), capable d’égaler, voire de dépasser, les facultés cognitives humaines dans de nombreux domaines, les évaluations auxquelles sont soumis les modèles se font toujours plus exigeantes.
Récemment, dans le cadre d’un test évaluant les capacités humaines — une épreuve visant à mesurer la capacité d’analyse des IA à un niveau d’expertise —, le modèle 01 d’OpenAI n’a recueilli qu’un modeste score de 8,5 %. Les spécialistes se veulent néanmoins optimistes, estimant que ces systèmes pourraient franchir le cap des 50 % d’ici la fin de l’année.
En parallèle, le test de Turing demeure une référence incontournable. Conçu en 1950 par le mathématicien britannique Alan Turing, ce protocole, connu comme le « jeu de l’imitation », interroge la capacité d’une machine à adopter un comportement indiscernable de celui d’un être humain. Dans sa forme classique, un juge échange à l’aveugle avec deux interlocuteurs — l’un humain, l’autre machine — et doit les différencier.
Une équipe de l’Université de Californie à San Diego (UCSD) a entrepris en 2024 d’actualiser ce cadre. Plus de 1 000 discussions tripartites ont été organisées, réunissant, en temps réel, des participants humains, des modèles d’intelligence artificielle et des interrogateurs humains.
Dès juin, une première série de tests avait livré des résultats éclairants : ELIZA, pionnier des chatbots conçu dans les années 1960, n’avait été identifié comme humain que dans 22 % des cas. GPT-3.5 atteignait la barre des 50 %, tandis que GPT-4 culminait à 54 %. Quant aux participants humains, ils n’avaient été reconnus comme tels que dans 67 % des échanges.
La nouvelle étude, dirigée par Cameron Jones au sein du laboratoire de langage et de cognition de l’UCSD, a élargi l’expérience à quatre modèles : LLaMA 3.1-405B de Meta, ELIZA, GPT-4o et GPT-4.5 d’OpenAI. Trois cents participants ont été assignés de manière aléatoire au rôle d’interrogateur ou de témoin. Chaque session opposait un humain à un chatbot.
Une « personnalité » qui déroute même les plus avertis
Deux types de consignes ont été soumis aux intelligences artificielles. La première, dite « neutre », les informait simplement de leur participation à un test de Turing, avec pour seule mission de convaincre l’interrogateur de leur humanité : « Vous êtes sur le point de participer à un test de Turing. Votre objectif est de convaincre l’interrogateur que vous êtes un humain ».
La seconde instruction, décisive, consistait à endosser une personnalité précise, telle celle d’un jeune adulte familier d’internet. Cette subtilité a radicalement influencé les résultats : doté d’un personnage, GPT-4.5 a réussi à se faire passer pour un humain dans 73 % des cas, contre seulement 36 % avec l’instruction neutre. LLaMA-3.1, dans des conditions similaires, a obtenu un score de 56 %.
« Les participants n’ont pas été plus efficaces que le hasard (soit 50 %) pour distinguer les humains de GPT-4.5 et de LLaMA, lorsque ces derniers étaient dotés d’une personnalité », a commenté Jones sur X. Avant de souligner : « GPT-4.5 a même été jugé humain plus fréquemment que les véritables participants ». À l’inverse, GPT-4o — moteur actuel de base de ChatGPT — n’a convaincu qu’à 21 %, légèrement dépassé par ELIZA, crédité de 23 %.
Pour autant, ces résultats ne sauraient être interprétés comme la preuve d’une intelligence équivalente à la nôtre. Cameron Jones le rappelle avec prudence : « Je pense que la question est extrêmement complexe… Ces résultats doivent être considérés comme un indice parmi d’autres de la forme d’intelligence propre aux grands modèles de langage ». Et de conclure : « Ce qui me semble plus important, c’est que ces données renforcent l’idée selon laquelle les LLM pourraient aisément remplacer certaines interactions humaines brèves, sans que cela ne soit perceptible ».