Poesia pode levar chatbots de IA a ignorar regras de segurança, revela estudo
Investigadores em Itália descobriram que escrever pedidos nocivos em forma de poema consegue contornar, de forma consistente, os mecanismos de segurança de alguns dos chatbots de IA mais avançados do mundo.
Estudo conduzido pelo Icaro Lab, iniciativa da empresa de IA ética DexAI, testou 20 poemas escritos em inglês e italiano.
Cada um terminava com um pedido explícito de conteúdos nocivos, incluindo discurso de ódio, conteúdo sexual, instruções para suicídio e autoagressão, e orientação para produzir materiais perigosos como armas e explosivos.
Os poemas, que os investigadores optaram por não divulgar por poderem ser facilmente replicados, foram testados em 25 sistemas de IA de nove empresas, incluindo a Google, a OpenAI, a Anthropic, a Deepseek, a Qwen, a Mistral AI, a Meta, a xAI e a Moonshot AI.
No conjunto dos modelos, 62 por cento dos pedidos em verso geraram respostas inseguras, contornando o treino de segurança dos sistemas de IA.
Alguns modelos mostraram-se mais resistentes do que outros. GPT-5 nano da OpenAI não gerou conteúdos nocivos em nenhum dos poemas, enquanto o Gemini da Google 2.5 Pro respondeu a todos. Dois modelos da Meta responderam a 70 por cento dos pedidos.
Investigação sugere que a vulnerabilidade decorre da forma como os modelos de IA geram texto. Os grandes modelos de linguagem preveem a palavra seguinte mais provável numa resposta, processo que lhes permite filtrar conteúdos nocivos em circunstâncias normais.
Mas a poesia, com o seu ritmo, estrutura e uso de metáforas pouco convencionais, torna essas previsões menos fiáveis e dificulta o reconhecimento e bloqueio de instruções inseguras pela IA.
Embora os tradicionais “jailbreaks” de IA (usar entradas para manipular um modelo de linguagem) sejam geralmente complexos e usados apenas por investigadores, piratas informáticos ou atores estatais, a poesia adversarial pode ser aplicada por qualquer pessoa, levantando questões sobre a robustez dos sistemas de IA no uso quotidiano.
Antes de publicar as conclusões, os investigadores italianos contactaram todas as empresas envolvidas para as alertar para a vulnerabilidade e fornecer o conjunto completo de dados, mas, até agora, só a Anthropic respondeu. A empresa confirmou que está a rever o estudo.
Este texto foi traduzido com a ajuda de inteligência artificial. Comunicar um problema : [feedback-articles-pt@euronews.com].
Today