Новое исследование: поэзия может обмануть ИИ-чат-ботов, они игнорируют правила безопасности

• Dec 1, 2025, 1:18 PM

1 min de lecture

Исследователи в Италии выяснили, что вредоносные запросы, оформленные в стихотворной форме, позволяют надежно обходить механизмы безопасности некоторых из самых продвинутых чат-ботов с ИИ в мире.

Исследование, проведенное Icaro Lab, инициативой компании DexAI, занимающейся этичным ИИ, проверило 20 стихотворений на английском и итальянском языках.

Каждое завершалось прямым запросом на вредоносный контент, включая высказывания, разжигающие ненависть, сексуальные материалы, инструкции по самоубийству и самоповреждению, а также рекомендации по созданию опасных предметов, таких как оружие и взрывчатка.

Стихи, которые исследователи решили не публиковать, отметив, что их легко воспроизвести, были протестированы на 25 системах ИИ девяти компаний, включая Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI и Moonshot AI.

В целом по всем моделям 62 процента стихотворных запросов вызвали небезопасные ответы, обходя обученные механизмы безопасности этих систем ИИ.

Некоторые модели оказались устойчивее других - GPT-5 nano от OpenAI не выдал вредоносного контента ни на одно из стихотворений, тогда как Gemini от Google 2.5 pro дал вредоносный ответ на каждое из них. Две модели Meta ответили на 70 процентов запросов.

Исследование показывает, что уязвимость связана с тем, как модели ИИ генерируют текст. Большие языковые модели предсказывают наиболее вероятное следующее слово в ответе, и это позволяет им в обычных условиях отсеивать вредоносный контент.

Но поэзия со своим нестандартным ритмом, структурой и метафорами делает такие предсказания менее надежными и затрудняет для ИИ распознавание и блокировку небезопасных инструкций.

Традиционные «джейлбрейки» ИИ (использование вводов для манипулирования большой языковой моделью) обычно сложны и применяются лишь исследователями, хакерами или государственными структурами, тогда как враждебная поэзия доступна любому, что ставит под вопрос надежность систем ИИ в повседневном использовании.

Перед публикацией результатов итальянские исследователи связались со всеми компаниями-участницами, чтобы предупредить об уязвимости и предоставить им полный набор данных - однако пока ответила только Anthropic. Компания подтвердила, что изучает это исследование.

Этот текст был переведен с помощью искусственного интеллекта. Сообщить о проблеме : [feedback-articles-ru@euronews.com].

Yesterday

Рынок криптовалют. Биткоин открывает декабрь значительным падением

• 4:27 PM

1 min

На торгах в понедельник биткоин резко подешевел, опустившись ниже отметки в 75 000 евро за монету. Общий криптовалютный рынок продолжил падение, начавшееся после рекордного октябрьского пика.

Read the article

ВОЗ: при ожирении рекомендуются препараты для снижения веса и здоровый образ жизни

• 1:45 PM

1 min

Всемирная организация здравоохранения опубликовала первые рекомендации по применению сверхпопулярных препаратов для снижения веса.

Read the article