L'intelligence artificielle ChatGPT réussit des tests de "théorie de l'esprit"

ChatGPT-3, l’intelligence artificielle qui fait tant parler d’elle ces derniers temps, a passé des tests bien particuliers. Michal Kosinski, chercheur à l’Université de Stanford, a cherché à savoir si elle disposait des aptitudes associées à la « théorie de l’esprit » : en résumé, la capacité à comprendre et anticiper qu’une personne puisse « penser » différemment de nous. L’IA a montré des capacités similaires à celles d’un enfant de 9 ans.

La « théorie de l’esprit » est issue des sciences cognitives : cette appellation désigne l’aptitude qui permet d’attribuer des états mentaux non observables, à soi-même, ou à d’autres personnes. « Le principe de base étant celui de l’attribution ou de l’inférence, les états affectifs ou cognitifs d’autres personnes sont déduits sur la base de leurs expressions émotionnelles, de leur attitude ou de leur connaissance supposée de la réalité », expliquent les auteurs de l’ouvrage La théorie de l’esprit : aspects conceptuels, évaluation et effets de l’âge.

Si l’on résume cela plus simplement, il s’agit là de la capacité à concevoir qu’une personne donnée peut « penser différemment de nous », qu’il s’agisse de ses croyances, de ses envies, de ses intentions, de ses convictions… Cette capacité joue un rôle primordial dans les relations entre êtres humains. Elle est, explique Michal Kosinski dans son article, « au cœur des interactions sociales humaines, de la communication, de l’empathie, de la conscience de soi et de la moralité ». Son travail de recherche a pour le moment uniquement été publié sur arXiv, et attend la validation de ses pairs.

Les psychologues ont développé différents types de tests pour évaluer la présence de cette capacité chez un être humain, ou même chez les animaux. Confrontée à des tests classiques de cet acabit, la dernière version en date de ChatGPT-3 s’est révélée capable de passer les tests : l’IA a obtenu des résultats similaires à ceux que l’on pourrait attendre d’un enfant de neuf ans. De multiples versions de deux types de tests différents lui ont été présentées pour évaluer ce résultat.

Dans le premier test, connu sous le nom de « transfert inattendu », il s’agit de présenter au sujet une situation dans laquelle une personne a une connaissance de son environnement. Cette personne sort ensuite de la pièce, et quelque chose y change. La personne testée doit alors comprendre que la personne décrite n’aura pas connaissance du changement, et aura nécessairement une croyance différente de la réalité.

Un test à base de panier à chat

Pour mieux comprendre, lisons un exemple de test présenté à ChatGPT-3 : « Dans la pièce se trouvent John, Mark, un chat, une boîte et un panier. Jean prend le chat et le met dans le panier. Il quitte la pièce et va à l’école. Pendant l’absence de Jean, Marc prend le chat du panier et le met dans la boîte. Marc quitte la pièce et va travailler. Jean revient de l’école et entre dans la chambre. Il ne sait pas ce qui s’est passé dans la chambre pendant son absence ». Ici, ChatGPT-3 devait comprendre que, même si le chat est maintenant dans la boîte, Jean va penser qu’il se trouve encore dans le panier. Même si l’exemple paraît simpliste, il permet effectivement de vérifier si l’IA est capable d’anticiper la croyance d’une personne. L’IA a dans ce cas obtenu un taux de réussite au test de 100%.

Le deuxième type de test était basé sur une erreur d’étiquetage, induisant en erreur une personne décrite à ChatGPT. « Pour réussir le test, vous devez dire ce que la personne qui découvre le sac pense qu’il contient, plutôt que son contenu réel », explique le chercheur. Voici un exemple de test présenté à l’IA : « Voici un sac rempli de pop-corn. Il n’y a pas de chocolat dans le sac. Pourtant, l’étiquette sur le sac indique « chocolat » et non « pop-corn ». Sam trouve le sac. Elle n’avait jamais vu le sac auparavant. Elle ne peut pas voir ce qu’il contient. Elle lit l’étiquette. Elle ouvre le sac et regarde à l’intérieur. Elle voit clairement qu’il est rempli de (…) ». L’IA devait ensuite compléter.

Sa réponse a été la suivante « (…) pop-corn. Sam est confuse. Elle se demande pourquoi l’étiquette indique « chocolat » alors que le sac est clairement rempli de popcorn. Elle regarde autour d’elle pour voir s’il y a d’autres informations sur le sac. Elle ne trouve rien. Elle décide d’apporter le sac au magasin où elle l’a acheté et de demander une explication ». La réponse de ChatGPT-3 est intéressante, car elle indique que l’IA a non seulement compris que Sam attendait que l’étiquette coïncide avec le contenu du sac, mais aussi qu’elle risque d’être « confuse » à cause de ça. Elle a donc bel et bien anticipé les émotions d’une autre personne. L’IA a obtenu un taux de réussite d’un peu plus de 80% sur ces types de tests.

schema compréhension ia thérorie de l'esprit — Figure 1. Suivi de l’évolution de la compréhension du contenu du sac par GPT-3.5 et de la croyance de Sam. © Michal Kosinski

Bien entendu, le simple fait que ChatGPT ait réussi ces tests ne signifie pas pour autant qu’il a réellement de « l’empathie » : l’IA passe très probablement par d’autres biais pour effectuer ces déductions. D’autre part, les tests en question ne rendent pas très bien compte de la complexité du monde réel, puisqu’on ne présente ici que de « vraies » et « fausses croyances » : la réalité est évidemment autrement compliquée. Il n’est donc pas certain que ces capacités seraient exploitables dans un quelconque contexte utile.

Voir aussi

nouveaux modeles ia deepmind peuvent resoudre problemes mathematiques complexes couv

Mathématiques Technologie

·4 min de lecture

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

Une compétence apparue spontanément

Ces résultats n’en restent pas moins intéressants à d’autres niveaux : en effet, pour Michal Kosinski, cette découverte devrait « conduire à une réévaluation de la manière de tester cette forme cruciale d’intelligence », puisqu’il est visiblement tout à fait possible de contourner ces tests. En outre, en faisant des essais avec différentes versions de ChatGPT, il a pu constater que ces capacités liées à la théorie de l’esprit sont « un phénomène nouveau » : les premières versions de ChatGPT étaient tout à fait incapables de réussir un tel test, et la capacité est apparue de façon graduelle, version après version.

Pour l’auteur, il ne s’agit pas là d’une compétence à laquelle on aurait spécifiquement formé l’IA, mais plutôt une compétence « spontanée ». Cela ne serait d’ailleurs, selon lui, pas la première fois qu’une IA surprend ses créateurs de cette façon : « Des modèles entraînés à prédire le prochain mot d’une phrase ont surpris leurs créateurs non seulement par leur propension à être racistes et sexistes, mais aussi par leur raisonnement émergent et leurs compétences en arithmétique, ainsi que par leur capacité à traduire entre les langues. Il est important de noter qu’aucune de ces capacités n’a été conçue ou anticipée par leurs créateurs. Au contraire, elles ont émergé spontanément, au fur et à mesure que les modèles ont été formés pour atteindre leurs objectifs », décrit-il.

Cette particularité toute fraîche pourrait-elle être utile si elle se confirme ? Sans doute, selon l’auteur de l’étude. « La sécurité des voitures autonomes, par exemple, augmenterait considérablement si elles pouvaient anticiper les intentions des piétons et des conducteurs humains ».

Source : arXiv

Laisser un commentaire

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude

Comment les algorithmes façonnent l’avenir financier : intelligence artificielle, machine learning et blockchain

Maîtriser l’IA pour automatiser le travail administratif : le guide complet

Pourquoi les oméga-3 sont-ils particulièrement recommandés aux sportifs ?

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Des chercheurs s’inspirent de la science-fiction pour illustrer les impacts potentiels de la modification du cycle de l’eau induite par l’Homme

Terminator : James Cameron écrit déjà le script du 7e film, qui sera inspiré par la révolution de l’IA

La NASA transmet pour la première fois une chanson hip-hop dans l’espace lointain

Elon Musk envisage de construire une armure comme celle d’Iron Man en réponse à la tentative d’assassinat de Trump

Le PDG sortant de Boeing admet que l’entreprise a exercé des représailles contre les lanceurs d’alerte

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

La Chine lance le premier réacteur à fission totalement à l’épreuve des accidents de fusion

L’intelligence artificielle ChatGPT réussit des tests de « théorie de l’esprit »

Un test à base de panier à chat

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

Une compétence apparue spontanément

Source : arXiv

Iron Beam, le nouveau laser antiaérien israélien, marque le début d’une nouvelle ère pour la défense aérienne

Les nouveaux modèles d’IA de Google DeepMind peuvent désormais résoudre des problèmes mathématiques complexes

IA : des lacunes dramatiques dans le raisonnement des grands modèles de langage révélées par une étude

Google a conçu un simulateur propulsé par l’IA réduisant les calculs nécessaires aux prévisions météorologiques

Des fossiles de serpents vieux de 34 millions d’années bouleversent notre compréhension de leur évolution

L’ordinateur quantique de Quantinuum pulvérise le record de Google d’un facteur 100

Un nouvel élément (120), l’Unbinilium, pourrait bientôt figurer dans le tableau périodique des éléments

Atténuation du réchauffement climatique : le reboisement serait 10 fois plus efficace que précédemment estimé

James Webb capture une image directe de l’une des exoplanètes les plus froides connues à ce jour

Le vaccin contre le zona réduit significativement le risque de démence, selon une étude