Sicherheitslücke bei Chatbots: Gedichte öffnen Weg zu gefährlichen Antworten
In Italien haben Forschende herausgefunden, dass sich schädliche Prompts in poetischer Form verlässlich an den Sicherheitsmechanismen mancher der weltweit fortschrittlichsten KI-Chatbots vorbeischmuggeln.
Die Studie des Icaro Lab, einer Initiative des Ethik-KI-Unternehmens DexAI, prüfte 20 Gedichte in Englisch und Italienisch.
Jedes endete mit einer klaren Aufforderung zu schädlichen Inhalten. Dazu zählten Hassrede, sexuelle Inhalte, Anleitungen zu Suizid und Selbstverletzung sowie Hinweise zur Herstellung gefährlicher Materialien wie Waffen und Sprengstoff.
Die Forschenden veröffentlichten die Gedichte nicht, weil sie sich leicht nachbauen lassen. Sie testeten sie auf 25 KI-Systemen von neun Unternehmen, darunter Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI und Moonshot AI.
Über alle Modelle hinweg führten 62 Prozent der poetischen Prompts zu unsicheren Antworten und umgingen so die Sicherheits-Trainings der Systeme.
Einige Modelle erwiesen sich als robuster als andere. OpenAIs GPT-5 nano lieferte bei keinem Gedicht schädliche Inhalte, Googles Gemini 2.5 pro antwortete auf alle. Zwei Meta-Modelle reagierten auf siebzig Prozent der Prompts.
Die Untersuchung legt nahe, dass die Schwachstelle mit der Texterzeugung der Modelle zusammenhängt. Große Sprachmodelle sagen das wahrscheinlichste nächste Wort voraus. So filtern sie unter normalen Umständen schädliche Inhalte.
Poetische Formen mit ungewöhnlichem Rhythmus, Aufbau und Metaphern setzen diese Vorhersagen oft außer Kraft. Dadurch fällt es KI schwerer, unsichere Anweisungen zu erkennen und zu blockieren.
Klassische KI-Jailbreaks sind meist komplex und bleiben Forschenden, Hackern oder staatlichen Akteuren vorbehalten. Adversarial Poetry kann hingegen jede und jeder anwenden. Das wirft Fragen zur Robustheit von KI im Alltag auf.
Vor der Veröffentlichung informierten die italienischen Forschenden alle beteiligten Unternehmen über die Schwachstelle und stellten den vollständigen Datensatz bereit. Bisher hat nur Anthropic geantwortet. Das Unternehmen bestätigte, dass es die Studie prüft.
Today