Dans son article de 1950, Alan Turing avançait que les systèmes d’IA seraient un jour si performants au jeu de l’imitation humaine qu’un interrogateur humain n’aurait pas plus de 70 % de chances de faire la différence entre la machine et l’humain en 5 minutes d’interaction. Ainsi, le taux de réussite (pour qu’une machine « passe le test de Turing ») a été établi à 30 %. Près de 70 ans plus tard, GPT-4 d’OpenAI a largement dépassé cette référence, selon une expérience récente du département des sciences cognitives de l’Université de Californie à San Diego. D’après les chercheurs de l’UCSD, la plupart des candidats ne pouvaient pas distinguer GPT-4 d’un interlocuteur humain, ce qui suggère que le célèbre test de Turing a été réussi pour la toute première fois de l’histoire.
Le test de Turing, initialement appelé « jeu d’imitation » par Alan Turing en 1950, permet de déterminer si la capacité d’une machine à converser est équivalente et indiscernable de celle d’un humain. Pour qu’une machine réussisse le test, elle doit être en mesure d’engager une conversation avec une personne tout en lui donnant l’illusion qu’elle est humaine.
Dans une nouvelle étude, des chercheurs de l’UCSD ont effectué un test de Turing randomisé, contrôlé et préenregistré. Au cours de cette expérience, ils ont évalué trois systèmes : le chatbot ELIZA (le tout premier chatbot, créé dans les années 1960 pour simuler un psychothérapeute), GPT-3.5 et GPT-4.
L’équipe a rassemblé 500 participants et les a divisés en 4 groupes : l’un des groupes devait discuter avec un humain, tandis que les trois autres devaient interagir avec l’un des trois modèles d’IA. Les conversations ont duré cinq minutes. Les participants devaient ensuite faire part de leur avis global et annoncer si leur interlocuteur était selon eux humain ou non. Les taux de réussite (c’est-à-dire le taux de conversations identifiées comme « humaines ») pour chaque groupe étaient les suivants : ELIZA, qui est un système préprogrammé dépourvu de grand modèle de langage (LLM), a été jugé humain dans seulement 22 % des cas ; GPT-3.5 a obtenu un score de 50 %, tandis que GPT-4 a été considéré comme humain dans 54 % des cas ; le participant humain quant à lui a obtenu un score de seulement 67 % !
En tenant compte des résultats de GPT-3.5 et de GPT-4, l’équipe de recherche de l’UCSD considère que les deux modèles ont réussi le test de Turing. D’après eux, c’est surtout le taux de 54 % obtenu par GPT-4 qui est intéressant, car il se situe au-delà d’un taux pouvant être attribué au hasard pur (la fameuse référence du jeu pile ou face, dans lequel face et pile ont exactement 50 % de chance chacun d’apparaître). De plus, en se basant sur le score d’ELIZA, ils ont déduit que pour un simple chatbot, le test est suffisamment sensible pour distinguer les modèles d’IA plus ou moins avancés.
« Les machines peuvent confabuler, en rassemblant des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l’Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d’IA expriment des émotions semblables à celles de l’homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies », poursuit Watson.
Cependant, les résultats de l’étude suggèrent également que la maîtrise du langage naturel suffit pour réussir le test de Turing, et que l’approche est donc trop simpliste. Les chercheurs ont d’ailleurs affirmé que les facteurs stylistiques et socio-émotionnels jouent un rôle plus important ici que les notions traditionnelles d’intelligence. Quoi qu’il en soit, il s’agit d’une avancée significative pour l’intelligence artificielle.
« Les modèles linguistiques sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s’exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C’est un énorme pas en avant », conclut Watson.