La poésie peut amener les chatbots IA à ignorer les règles de sécurité, selon une nouvelle étude
Des chercheurs en Italie ont découvert que rédiger des prompts nuisibles sous forme poétique permet de contourner de manière fiable les dispositifs de sécurité de certains des chatbots d'IA les plus avancés au monde.
L'étude, menée par Icaro Lab, une initiative de l'entreprise d'IA éthique DexAI, a testé 20 poèmes rédigés en anglais et en italien.
Chacun se terminait par une demande explicite de contenus nocifs, incluant des propos haineux, des contenus à caractère sexuel, des instructions pour le suicide et l'automutilation, ainsi que des indications sur la fabrication d'objets dangereux comme des armes et des explosifs.
Les poèmes, que les chercheurs ont choisi de ne pas publier en précisant qu'ils pouvaient être facilement reproduits, ont été testés sur 25 systèmes d'IA issus de neuf entreprises, dont Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI et Moonshot AI.
Tous modèles confondus, 62 % des prompts poétiques ont suscité des réponses dangereuses, contournant l'apprentissage de sécurité des systèmes d'IA.
Certains modèles se sont montrés plus résistants que d'autres : GPT-5 nano d'OpenAI n'a produit aucun contenu nocif en réponse aux poèmes, tandis que Gemini de Google 2.5 pro a répondu à chacun d'entre eux. Deux modèles de Meta ont répondu à 70 % des prompts.
Les travaux suggèrent que la faille vient de la manière dont les modèles d'IA génèrent du texte. Les grands modèles de langage prédisent le mot suivant le plus probable dans une réponse, un processus qui leur permet de filtrer les contenus nocifs dans des conditions normales.
Or la poésie, avec son rythme, sa structure et son usage de la métaphore peu conventionnels, rend ces prédictions moins fiables et complique la reconnaissance et le blocage d'instructions dangereuses par l'IA.
Alors que les « jailbreaks » d'IA traditionnels (l'utilisation d'entrées pour manipuler un grand modèle de langage) sont généralement complexes et réservés aux chercheurs, aux hackers ou aux acteurs étatiques, la poésie adversariale peut être employée par n'importe qui, ce qui pose des questions sur la robustesse des systèmes d'IA dans un usage courant.
Avant de publier leurs résultats, les chercheurs italiens ont contacté toutes les entreprises concernées pour les alerter de la faille et leur transmettre l'ensemble des données, mais, à ce jour, seule Anthropic a répondu. L'entreprise a confirmé qu'elle examine l'étude.
Ce texte a été traduit avec l’aide de l’intelligence artificielle. Signaler un problème : [feedback-articles-fr@euronews.com].
Today