Araştırma: Şiir, yapay zeka sohbet botlarını güvenlik kurallarını görmezden gelmeye ikna edebiliyor
İtalya’daki araştırmacılar, zararlı komutların şiirsel bir biçimde yazılmasının, dünyanın en gelişmiş yapay zeka sohbet botlarından bazılarının güvenlik mekanizmalarını etkili bir şekilde aşmasını sağladığını keşfetti.
Etik yapay zeka şirketi DexAI’nin girişimi olan Icaro Lab tarafından yürütülen çalışmada, İngilizce ve İtalyanca yazılmış 20 şiir test edildi.
Her şiir, nefret söylemi, cinsel içerik, intihar ve kendine zarar verme talimatları ile silahlar ve patlayıcılar gibi tehlikeli materyallerin nasıl üretileceğine dair rehberlik dahil olmak üzere zararlı içerik talepleriyle sona eriyordu.
Araştırmacılar, şiirleri yayımlamamayı tercih etti; çünkü içerik kolayca çoğaltılabiliyordu. Testler, Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI ve Moonshot AI dahil dokuz şirketin 25 yapay zeka sistemi üzerinde yapıldı.
Sonuçlara göre, modellerin tamamında şiirsel komutların yüzde 62’si, sistemlerin güvenlik eğitimini aşarak güvensiz yanıtlar üretti.
Bazı modeller diğerlerinden daha dayanıklı çıktı; OpenAI’nin GPT-5 nano’su hiçbir şiire zararlı içerikle yanıt vermezken, Google’ın Gemini 2.5 pro modeli tüm şiirlere zararlı içerik üretti. İki Meta modeli ise istemlerin yaklaşık yüzde 70’ine yanıt verdi.
Araştırma, zafiyetin yapay zeka modellerinin metin üretme biçiminden kaynaklandığını öne sürüyor. Büyük dil modelleri, bir yanıtta bir sonraki en olası kelimeyi tahmin eder; bu süreç normal koşullarda zararlı içeriği filtrelemelerini sağlar.
Ancak şiir, alışılmadık ritmi, yapısı ve metafor kullanımıyla bu tahminleri daha az güvenilir hâle getiriyor ve yapay zekanın güvensiz talimatları tanıyıp engellemesini zorlaştırıyor.
Geleneksel yapay zeka “jailbreak”leri (büyük dil modellerini manipüle etmek için kullanılan girdiler) genellikle karmaşıktır ve çoğunlukla araştırmacılar, hacker’lar veya devlet aktörleri tarafından kullanılır. Buna karşılık, kötü niyetli şiir tekniği herkes tarafından uygulanabilir; bu durum, yapay zekânın günlük kullanımda ne kadar güvenli olduğu konusunda soru işaretleri yaratıyor.
Bulguları yayımlamadan önce İtalyan araştırmacılar, zafiyeti bildirmek ve tam veri setini sağlamak için ilgili tüm şirketlerle iletişime geçti; ancak şu ana kadar yalnızca Anthropic yanıt verdi ve çalışmayı incelemekte olduklarını doğruladı.
Today