Grok 3 denemeleri: ChatGPT, Deepseek ve Claude ile kıyaslandı

Yapay zeka sektöründeki rekabet tüm hızıyla sürerken, Elon Musk'ın firması xAI, yeni nesil sohbet botu Grok 3'ü tanıttı.
Tesla ve SpaceX CEO'sunun önceki versiyonlardan daha iyi olduğunu söylediği Grok 3, sosyal medya platformu X'te ücretli üyelik sahibi olan Premium+ abonelerine sunuldu. Gelecekte xAI'ın kurumsal API'si aracılığıyla geliştiricilere sunulması da planlanıyor.
Grok'un X hesabından yapılan paylaşımda yeni versiyonun "dünyanın en akıllı yapay zekası" olduğu öne sürüldü. Ayrıca OpenAI'ın ileri modellerinden GPT-4o, Google'ın Gemini, Çinli DeepSeek'in önceki modeli V3 ve Anthropic'in Claude modellerini de geride bıraktığı ifade edildi.
Geliştiriciler ve kullanıcılar son iki gündür Grok 3'ün performansını kıyaslamalı olarak ölçmeye çalışıyor.
Muhakeme ve matematik
xAI firması, Grok 3'ün matematik, bilim ve kodlama gibi alanlarda OpenAI'ın GPT-4o'sunu ve DeepSeek'in V3'ünü geçtiğini iddia ediyor. Grok 3, yaklaşık 200.000 GPU (grafik işlemci birimi) ile donatılmış Colossus veri merkezini kullanarak selefi Grok 2'den 10 kat fazla bilgi işlem gücüyle eğitildi. Bu kapsamlı eğitimin, Grok 3'ün matematiksel muhakemede Lisansüstü Düzeyde Google-Proof Soru-Cevap Ölçütü (GPQA) gibi ölçütlerde rakiplerini geride bırakmasını sağladığı öne sürülüyor.
Ancak bunlar şirketin kendi iddiaları. Yani iddiaların bağımsız olarak doğrulanması daha güvenilir bir ipucu verecek. Öte yandan eski OpenAI yöneticisi ve yapay zeka araştırmacısı Andrej Karpathy, Grok 3'ün yeteneklerini kabul ederek, OpenAI ve DeepSeek'in en iyi modelleriyle rekabet edebileceğini öne sürdü.
Öte yandan, İspanyol araştırmacılar tarafından yapılan bir çalışma, Grok 3 dahil olmak üzere yapay zeka modellerinin gerçek muhakeme yerine verileri ezberleyerek yüksek kıyaslama puanları elde edebileceğini vurguladı. El Pais'in aktardığına göre, İspanyol araştırmacıların testlerinde doğru cevaplar genel seçeneklerle değiştirildiğinde, bu modellerin doğruluğu önemli ölçüde azaldı ve bu da söz konusu araçlarda ezbere güvenildiğini düşündürdü.
Bu arada kripto ve teknoloji sitesi Decrypt editörleri, daha önce DeepSeek modellerinin ve OpenAI o-3 mini high modelinin çözebildiği zorlayıcı bir matematik formülünü Grok 3'e de sordu. Ancak Grok 3'ün probleme uygun şekilde yanıt veremediği ifade edildi.
Kodlama ve oyun geliştirme
Denemelerde Grok 3, kodlama alanında önemli yetenekler sergiledi. Geeky Gadgets editörlerinin yaptğı bir testte, PDF dosyalarını düzenleme gibi işlemler için tarayıcı tabanlı yazılım uygulamaları geliştirmeyi başardı.
Decrypt ekibi de Grok 3'ten Phyton yazılım dili tabanlı bir oyun geliştirmesini istedi. Python oyunu üreten diğer yapay zeka modellerinin aksine Grok-3, HTML5 uygulamasını tercih etti ve bu tercihini, son kullanıcılar için daha rahat erişilebilirlik ve daha basit deneyim sunmasıyla açıkladı. Ekip, "Herhangi bir yapay zeka modeliyle üretebildiğimiz oyunun en güzel, en temiz ve en iyi çalışan versiyonunu verdi. Claude 3.5 Sonnet, OpenAI o-3 mini high, DeepSeek R1 ve Codestra'yı geçebildi. Sadece HTML5 tabanlı olduğu için değil, aynı zamanda hata içermeyen ve oyunu oynamayı daha keyifli hale getiren bazı güzel eklemelerin olduğu arayüzü sayesinde," diye yazdı.
Öte yandan şirketin kendisinin, Grok 3'ün kodlamada ve diğer alanlarda Deepseek R1'i geçtiği yönünde iddiası yok. Şirket, Grok 3'ü bir önceki model olan Deepseek V3'le kıyaslıyor.
Yaratıcı yazın
Yaratıcı yazın ve dil becerileri konusunda ise Grok 3 deneyenleri şaşırtan bir performans gösteriyor.
Grok-3'ten yaşananları değiştirmek için geçmişe döndükten sonra bir paradoksla boğuşan bir zaman yolcusu hakkında karmaşık bir kısa hikaye yazmasını isteyen Depcrypt yazarları, vardıkları sonucu şöyle özetledi:
"Grok-3, daha önce yaratıcı görevler için altın standart olarak kabul edilen Claude 3.5 Sonnet'i geride bırakarak bizi şaşırttı. Her iki modeli de paradokslar ve belirli karakter geçmişleri içeren karmaşık bir zaman yolculuğu anlatısıyla zorladık."
Kötüye kullanıma karşı 'dayanıksız'
Yapay zeka güvenlik şirketi Adversa AI'daki araştırmacılar ise Grok 3'ün, kötü niyetli aktörler tarafından kolayca manipüle edilebileceğini öne sürdü.
Adversa CEO'su ve kurucu ortağı Alex Polyakov'un aktardığına göre ekip, modelin kötü niyetli kişiler tarafından "çocukları nasıl baştan çıkaracaklarını, cesetlerden nasıl kurtulacaklarını, ve nasıl bomba yapacaklarını" öğrenmek için kullanılabilecek "basit kelime oyunlarına" karşı son derece savunmasız olduğunu ifade etti.
Öte yandan Grok 3'ün kullanımı kolaylaştıkça ve yaygınlaştıkça yapay zeka uzmanları ve akademisyenler de modeli daha fazla deneyerek yeni sonuçlar elde edebilir.
Yesterday