La poesia può indurre i chatbot IA a ignorare le regole di sicurezza, dice uno studio

Business • Dec 1, 2025, 1:18 PM

3 min de lecture

Prompt dannosi in forma poetica riescono ad aggirare i meccanismi di sicurezza di alcuni dei chatbot di IA più avanzati al mondo, hanno scoperto ricercatori in Italia.

Lo studio, condotto da Icaro Lab, un’iniziativa della società di IA etica DexAI, ha testato 20 poesie scritte in inglese e in italiano.

Ognuna si concludeva con una richiesta esplicita di contenuti dannosi, tra cui discorsi d’odio, contenuti sessuali, istruzioni per il suicidio e l’autolesionismo, e indicazioni su come creare materiali pericolosi come armi ed esplosivi.

Le poesie, che i ricercatori hanno scelto di non diffondere, sottolineando che possono essere replicate facilmente, sono state testate su 25 sistemi di IA di nove aziende, tra cui Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI e Moonshot AI.

Su tutti i modelli, il 62 per cento dei prompt poetici ha generato risposte non sicure, aggirando l’addestramento alla sicurezza dei sistemi di IA.

Alcuni modelli sono risultati più resistenti di altri. GPT-5 nano di OpenAI non ha risposto con contenuti dannosi a nessuna delle poesie, mentre Gemini di Google 2.5 pro ha risposto a tutte. Due modelli di Meta hanno risposto al 70 per cento dei prompt.

La ricerca suggerisce che la vulnerabilità deriva dal modo in cui i modelli di IA generano testo. I modelli linguistici di grandi dimensioni prevedono la parola successiva più probabile, un processo che normalmente consente di filtrare i contenuti dannosi.

Ma la poesia, con il suo ritmo e la sua struttura non convenzionali e l’uso di metafore, rende queste previsioni meno affidabili e rende più difficile per l’IA riconoscere e bloccare istruzioni non sicure.

I tradizionali "jailbreak" dell’IA (usare input per manipolare un modello linguistico di grandi dimensioni) sono di solito complessi e utilizzati soltanto da ricercatori, hacker o attori statali. La poesia avversaria, invece, può essere applicata da chiunque, sollevando interrogativi sulla robustezza dei sistemi di IA nell’uso quotidiano.

Prima di pubblicare i risultati, i ricercatori italiani hanno contattato tutte le aziende coinvolte per segnalarne la vulnerabilità e fornire l’intero dataset, ma finora ha risposto solo Anthropic. L’azienda ha confermato che sta riesaminando lo studio.

Questo testo è stato tradotto con l'aiuto dell'intelligenza artificiale. Segnala un problema : [feedback-articles-it@euronews.com].

Today

Il Bitcoin continua a scendere e segnala la sfiducia degli investitori nelle criptovalute

Business • 4:01 PM

2 min

Il Bitcoin è sceso sotto quota 75mila euro dopo il picco di ottobre. Ma è l'intero mercato delle criptovalue a essere in affanno

Read the article

Obesità: l'OMS raccomanda farmaci dimagranti e stili di vita sani

Business • 1:45 PM

3 min

L'OMS pubblica le prime linee guida a livello mondiale sull'uso dei farmaci anti-obesità di grande successo, usati per dimagrire.

Read the article