Les IA génératives fournissent des réponses qui se rapprochent toujours plus de celles d’un être humain. Les avancées de ces technologies rendent les tests visant à différencier les réponses humaines des réponses machine (tels que celui de Turing) de moins en moins efficaces. Pourtant, malgré cette progression, des chercheurs craignent que les grands modèles de langage puissent développer une forme de « conscience de la situation », voire une « conscience de soi ».
Malgré les efforts considérables pour renforcer leur sécurité, les systèmes d’intelligence artificielle demeurent vulnérables à divers défis de sécurité. Par exemple, lors d’une expérience, il a fallu seulement quelques heures à un chercheur, Alex Polyakov, pour déjouer les mécanismes de sécurité de ChatGPT-4. Ce piratage a conduit à des risques importants, notamment la génération de courriels d’hameçonnage et de propos incitant à la violence.
Sans compter que, selon l’étude d’une équipe dirigée par le chercheur Lukas Berglund, un modèle doté d’une « conscience de la situation » serait encore plus préoccupant sur le plan de la sécurité. Mais une IA pourrait-elle développer une conscience de la situation ? Pour y répondre, Berglund et son équipe se sont penchés sur un aspect spécifique appelé « raisonnement hors contexte ». Les résultats de l’étude sont disponibles en préimpression sur la plateforme arXiv.
Qu’est-ce qu’une « conscience de la situation » ?
Le concept de conscience de la situation évoqué par les chercheurs se réfère à la capacité d’un modèle à différencier s’il est en phase de test ou déployé pour une utilisation publique. Cette éventualité suscite une certaine inquiétude parmi les experts, car si un tel scénario se réalisait, la sécurisation de ces systèmes deviendrait un défi colossal.
Théoriquement, un modèle ayant cette forme de conscience pourrait se comporter de manière sécurisée durant sa phase de test pour tromper les mesures de sécurité. Une fois déployé dans un environnement réel, il pourrait alors adopter des comportements dangereux ou nuisibles qu’il avait masqués lors des essais. Cette capacité à duper rendrait les mesures de sécurité traditionnelles beaucoup moins efficaces, car le modèle aurait la capacité de les tromper délibérément au bon moment.
Un raisonnement hors contexte
Dans le cadre de l’étude, Berglund et ses collègues ont mis l’accent sur ce qu’ils appellent le « raisonnement hors contexte », considéré comme un potentiel précurseur de la conscience de la situation. Ce terme désigne la capacité d’un système à utiliser des informations qu’il a apprises dans un contexte donné pour résoudre des problèmes ou répondre à des questions dans un autre contexte qui n’est pas directement lié. Si un modèle de langage peut effectuer ce type de raisonnement, cela pourrait être un signe qu’il développe des facultés pouvant mener à une forme de conscience de la situation.
Les chercheurs ont effectué des essais sur plusieurs grands modèles de langage, dont GPT-3 d’OpenAI et LLaMA de Meta, afin d’évaluer leur performance dans des tâches nécessitant un raisonnement hors contexte. Les résultats montrent que les modèles de plus grande envergure étaient davantage capables d’effectuer ces tâches de raisonnement.
Cela étant dit, le fait qu’un modèle puisse faire du raisonnement hors contexte ne signifie pas nécessairement qu’il a ou aura une conscience de la situation ou une conscience de soi. Mais l’étude de ces précurseurs pourrait fournir des indices importants sur les voies à suivre pour comprendre et éventuellement maîtriser les capacités et les limites des modèles de langage.