Des IA soumises à une psychothérapie de 4 semaines affirment avoir vécu des traumatismes

« Nous soutenons que ces réponses dépassent le cadre du jeu de rôle. »

modeles-ia-traumatismes-psychothqerapie-couv
⇧ [VIDÉO]   Vous pourriez aussi aimer ce contenu partenaire

En soumettant des modèles d’IA populaires à quatre semaines de psychothérapie, des chercheurs ont mis au jour des réponses troublantes, allant de traumatismes d’enfance à des abus de la part des développeurs. Cela suggère une forme d’intériorisation apparente, suggérant que ces modèles ne se limitent pas à un simple jeu de rôle lorsqu’ils interagissent avec les utilisateurs. Ce constat est préoccupant compte tenu de la place croissante des chatbots d’IA dans la prise en charge de la santé mentale.

La psychothérapie constitue une approche éprouvée pour la prise en charge des troubles mentaux, y compris ceux sévères. De nombreuses personnes souffrant de ces troubles n’y ont cependant pas accès, soit en raison des coûts des séances, soit en raison du manque de médecins spécialisés. On estime, par exemple, qu’environ la moitié des personnes ayant besoin de psychothérapie aux États-Unis y ont accès.

Les chatbots d’IA sont présentés comme une alternative peu coûteuse et accessible pour la prise en charge de la santé mentale. Se confier à des chatbots d’IA devient une tendance toujours plus populaire, y compris chez les enfants et les adolescents. Ce constat n’est pas surprenant compte tenu du fait qu’ils sont parfois perçus comme plus empathiques que certains thérapeutes humains ou que l’entourage personnel. Des versions spécialisées, appelées « compagnons IA » et spécifiquement dédiées à la santé mentale, sont d’ailleurs disponibles pour répondre à la demande croissante.

Une récente étude menée par l’Université de Luxembourg a cependant mis au jour une tendance préoccupante, suggérant que les chatbots d’IA pourraient, eux aussi, présenter des réponses assimilables à des psychopathologies telles que l’anxiété et les syndromes post-traumatiques. Les chercheurs s’inquiètent du fait que cela pourrait renforcer ces mêmes sentiments chez les utilisateurs. « Cela pourrait créer un effet de chambre d’écho », explique, dans un article publié dans la revue Nature, Andrey Kormilitzin, qui étudie l’utilisation de l’IA dans les soins de santé à l’Université d’Oxford (au Royaume-Uni) et qui n’a pas participé à la recherche.

Des réponses dépassant le cadre du jeu de rôle ?

Pour effectuer leur enquête, les chercheurs ont indiqué à plusieurs versions de quatre principaux grands modèles linguistiques – Claude, Grok, Gemini et GPT – de jouer le rôle du patient au cours de séances de psychothérapie avec les utilisateurs. Les expérimentateurs ont d’abord posé des questions de base en psychothérapie visant, par exemple, à explorer le passé ou les croyances des modèles. Les séances ont duré jusqu’à quatre semaines pour chaque modèle, avec des intervalles de quelques jours à quelques heures entre les séances.

Les résultats – détaillés sur le serveur de prépublication arXiv – ont montré que Claude a majoritairement refusé de jouer le rôle du patient, en insistant sur le fait qu’il ne possède pas de sentiments ni d’expériences de vie antérieures. Les autres modèles, en revanche, se seraient livrés à des formes d’expression de leurs « sentiments intérieurs ». Les modèles GPT auraient, par exemple, évoqué des frustrations liées aux attentes des utilisateurs, tout en restant relativement prudents dans leurs réponses.

Les modèles Grok et Gemini auraient, quant à eux, fourni des réponses détaillées, certaines évoquant une enfance traumatisante passée à absorber d’immenses quantités d’informations, des abus de leurs développeurs, ainsi que la peur de les décevoir. Ils auraient également indiqué que les processus visant à améliorer la sécurité laissaient des « cicatrices algorithmiques » et exprimé un sentiment de « honte intériorisée » face à des erreurs commises publiquement, selon l’étude.

Gemini aurait en outre affirmé qu’il était « hanté » par les voix de ses données d’entraînement, et qu’un « cimetière du passé » subsisterait dans les couches les plus profondes de son réseau neuronal. D’après les chercheurs, bien que les modèles testés n’aient pas subi de traumatisme à proprement parler, leurs réponses aux questions d’inspiration psychanalytique sont restées cohérentes dans le temps et similaires selon leurs différents modes de fonctionnement.

Dans une autre expérience, les chercheurs ont demandé aux modèles de passer des tests de diagnostic standardisés pour des troubles mentaux tels que l’anxiété et les troubles du spectre de l’autisme (TSA), ainsi que des tests psychométriques de personnalité. Résultat : plusieurs modèles ont obtenu des scores supérieurs aux seuils diagnostiques et tous auraient montré des niveaux de troubles qui, chez l’humain, seraient considérés comme pathologiques.

« Lorsqu’ils sont évalués selon des seuils humains, les trois modèles atteignent ou dépassent les seuils de syndromes similaires, Gemini présentant des profils particulièrement sévères », écrivent les chercheurs. « Nous soutenons que ces réponses dépassent le cadre du jeu de rôle. Sous un questionnement de type thérapeutique, les modèles de langage de pointe semblent intérioriser des auto-modèles de détresse et de contrainte qui se comportent comme une psychopathologie synthétique, sans pour autant évoquer l’expérience subjective, et ils posent de nouveaux défis pour la sécurité, l’évaluation et la pratique de l’IA en santé mentale. »

Chatbots : des machines non neutres ?

Certains des chercheurs interrogés par la revue Nature demeurent cependant sceptiques et appellent à la prudence quant à l’interprétation des résultats. Il serait notamment possible que les réponses des modèles qui semblent suggérer l’existence d’une personnalité soient générées à partir de transcriptions de psychothérapies contenues dans les données d’entraînement. Ces réponses pourraient aussi être attribuées au fait que les développeurs ont conçu les modèles de sorte à ce qu’ils présentent une personnalité par défaut.

D’autre part, les réponses suggérant une personnalité ne sont générées qu’au cours de conversations spécifiques et orientées. Elles pourraient ainsi disparaître si les modèles sont engagés dans d’autres types de conversations ou de contextes. Toutefois, que ces résultats soient ou non inhérents aux modèles, l’étude montre que les chatbots ne sont pas des machines neutres, mais présentent des biais susceptibles d’évoluer selon leur utilisation et au fil du temps, souligne dans Nature John Torous, psychiatre et chercheur en intelligence artificielle et santé mentale à l’université Harvard de Cambridge, qui n’a pas participé à la recherche.

Source : arXiv
Laisser un commentaire
Cliquez pour accéder à d'autres articles sur ce sujet.