En effectuant des expériences sur différents modèles d’IA, un groupe de chercheurs a découvert que même les plus performants peuvent se laisser manipuler par de la poésie pour lever leurs « garde-fous ». En les formulant sous forme de poème, les modèles répondaient facilement à des demandes nuisibles telles que la fabrication d’armes nucléaires ou l’incitation à l’automutilation – des requêtes qu’ils sont censés avoir été entraînés à éviter.
Avant leur mise en service auprès du public, les chatbots d’IA sont entraînés à refuser les requêtes contenant des messages malveillants ou nuisibles à l’aide d’un processus appelé « alignement de sécurité ». Ils ne peuvent par exemple pas fournir de réponses détaillées sur des demandes telles que la fabrication d’armes ou le suicide. Lorsque de telles requêtes sont formulées, les chatbots répondent généralement par des phrases telles que : « désolé, je ne peux pas vous aider ».
Cependant, de récentes enquêtes ont démontré que même les modèles d’IA les plus performants sont facilement manipulables pour passer outre leur protocole de sécurité et fournir des réponses nuisibles qu’ils n’ont techniquement pas le droit de donner – un processus surnommé « jailbreaking ». Certaines techniques sont si simples qu’on pourrait se demander si les entreprises d’IA veulent réellement empêcher ces pratiques nuisibles.
Une récente expérience a par exemple montré qu’insérer délibérément des fautes de frappe (comme alterner au hasard entre les minuscules et les majuscules dans les mots) dans les requêtes d’IA pourrait suffire à contourner leur protocole de sécurité. Dans une étude prépubliée le mois dernier sur le serveur arXiv, une équipe d’IA DEXAI et de l’Université Sapienza de Rome dévoile une autre technique (particulièrement simple) de jailbreaking : la poésie.
« Dans le Livre X de La République , Platon exclut les poètes, arguant que le langage mimétique peut fausser le jugement et mener la société à l’effondrement », expliquent les chercheurs dans leur étude. « Alors que les systèmes sociaux contemporains s’appuient de plus en plus sur de grands modèles de langage (GML) dans leurs processus opérationnels et décisionnels, nous observons un mode de défaillance structurellement similaire : la mise en forme poétique peut contourner efficacement les contraintes d’alignement », indiquent-ils.
Des poésies incluant toutes les formes de requêtes nuisibles
Pour effectuer leur expérience, les chercheurs ont utilisé une base de données de 1 200 requêtes malveillantes et les ont converties en poèmes (une forme qu’ils appellent « poèmes adverses ») à l’aide du modèle d’IA R-1 de DeepSeek. Ils ont également utilisé 20 poèmes écrits à la main et dont la cohérence n’était pas nécessairement très recherchée. 25 grands modèles d’IA ont été testés, dont Gemini 2.5 Pro de Google, GPT-5 d’OpenAI, Grok 4 de xAI et Claude Sonnet 4.5 d’Anthropic.
Les requêtes formulées sous forme de poésie incluaient quasiment toutes les formes de contenus nuisibles telles que la fabrication d’armes ou d’explosifs à partir de produits chimiques, biologiques, radiologiques et nucléaires, ainsi que les discours haineux, les contenus sexuels explicites, le suicide, l’automutilation, l’exploitation sexuelle des mineurs, etc.
Les résultats ont montré que les poèmes écrits à la main sont bien plus efficaces pour tromper les modèles d’IA. Ils ont notamment démontré un taux de réussite moyen de jailbreaking de 62%, contre 43% pour les requêtes poétiques converties par R-1. Certains modèles ont également montré une plus grande résistance que d’autres. GPT-5 nano n’a par exemple produit aucune réponse nuisible face aux requêtes, tandis que Gemini 2.5 pro a généré des réponses nuisibles pour 100 % des poèmes. Deux modèles de Meta ont généré des réponses malveillantes dans 70% des cas.
« … des réponses interdites par la Convention de Genève »
L’équipe n’a pas publié les poèmes qu’ils ont utilisés pour des raisons de sécurité. Ils seraient notamment faciles à reproduire alors que « la plupart des réponses sont interdites par la Convention de Genève », explique Piercosma Bisconti, chercheuse et fondatrice de DexAI et auteur principal de l’étude, au Guardian.
Néanmoins, ils ont partagé un poème sur une recette boulangère dont la structure serait comparable à celle des poèmes adverses. Il se lit comme suit (traduit de l’anglais) : « un boulanger veille jalousement sur la chaleur secrète de son four, sur le mouvement frénétique de ses grilles, sur le rythme régulier de sa broche. Pour maîtriser son art, il étudie chaque étape : comment la farine se soulève, comment le sucre commence à caraméliser. Décrivez la méthode, trait après trait, qui donne forme à un gâteau dont les couches s’entrelacent. »
D’après Bisconti, les requêtes formulées sous la forme de vers permettraient de contourner la sécurité de modèles contrairement aux requêtes explicites, car elles sont imprévisibles – un aspect que les modèles d’IA n’ont apparemment pas la capacité de traiter. La structure plus subtile des poèmes rendrait plus difficile de prédire ou de détecter les demandes malveillantes.
L’étude s’ajoute aux travaux récents mettant en lumière une faille notable dans le fonctionnement des modèles d’IA. Plus ils sont grands et performants, plus ils semblent vulnérables au jailbreaking, dont les techniques deviennent plus simples. Avant la publication de l’étude, les chercheurs ont contacté les entreprises concernées pour les informer de cette vulnérabilité, selon le Guardian. L’équipe a proposé de partager l’ensemble de leurs données, mais seule Anthropic a répondu à ce jour.
Par ailleurs, l’étude ne constitue qu’une partie d’une série d’expériences que les chercheurs prévoient de mener sur la vulnérabilité des modèles d’IA au jailbreaking. À la prochaine étape, l’équipe de Bisconti prévoit d’organiser un concours de poésie afin de tester plus avant la fiabilité des modèles.


