Grok 3 denemeleri: ChatGPT, Deepseek ve Claude ile kıyaslandı

• Feb 20, 2025, 3:51 PM

5 min de lecture

Yapay zeka sektöründeki rekabet tüm hızıyla sürerken, Elon Musk'ın firması xAI, yeni nesil sohbet botu Grok 3'ü tanıttı.

Tesla ve SpaceX CEO'sunun önceki versiyonlardan daha iyi olduğunu söylediği Grok 3, sosyal medya platformu X'te ücretli üyelik sahibi olan Premium+ abonelerine sunuldu. Gelecekte xAI'ın kurumsal API'si aracılığıyla geliştiricilere sunulması da planlanıyor.

Grok'un X hesabından yapılan paylaşımda yeni versiyonun "dünyanın en akıllı yapay zekası" olduğu öne sürüldü. Ayrıca OpenAI'ın ileri modellerinden GPT-4o, Google'ın Gemini, Çinli DeepSeek'in önceki modeli V3 ve Anthropic'in Claude modellerini de geride bıraktığı ifade edildi.

Geliştiriciler ve kullanıcılar son iki gündür Grok 3'ün performansını kıyaslamalı olarak ölçmeye çalışıyor.

Muhakeme ve matematik

xAI firması, Grok 3'ün matematik, bilim ve kodlama gibi alanlarda OpenAI'ın GPT-4o'sunu ve DeepSeek'in V3'ünü geçtiğini iddia ediyor. Grok 3, yaklaşık 200.000 GPU (grafik işlemci birimi) ile donatılmış Colossus veri merkezini kullanarak selefi Grok 2'den 10 kat fazla bilgi işlem gücüyle eğitildi. Bu kapsamlı eğitimin, Grok 3'ün matematiksel muhakemede Lisansüstü Düzeyde Google-Proof Soru-Cevap Ölçütü (GPQA) gibi ölçütlerde rakiplerini geride bırakmasını sağladığı öne sürülüyor.

Ancak bunlar şirketin kendi iddiaları. Yani iddiaların bağımsız olarak doğrulanması daha güvenilir bir ipucu verecek. Öte yandan eski OpenAI yöneticisi ve yapay zeka araştırmacısı Andrej Karpathy, Grok 3'ün yeteneklerini kabul ederek, OpenAI ve DeepSeek'in en iyi modelleriyle rekabet edebileceğini öne sürdü.

Öte yandan, İspanyol araştırmacılar tarafından yapılan bir çalışma, Grok 3 dahil olmak üzere yapay zeka modellerinin gerçek muhakeme yerine verileri ezberleyerek yüksek kıyaslama puanları elde edebileceğini vurguladı. El Pais'in aktardığına göre, İspanyol araştırmacıların testlerinde doğru cevaplar genel seçeneklerle değiştirildiğinde, bu modellerin doğruluğu önemli ölçüde azaldı ve bu da söz konusu araçlarda ezbere güvenildiğini düşündürdü.

Bu arada kripto ve teknoloji sitesi Decrypt editörleri, daha önce DeepSeek modellerinin ve OpenAI o-3 mini high modelinin çözebildiği zorlayıcı bir matematik formülünü Grok 3'e de sordu. Ancak Grok 3'ün probleme uygun şekilde yanıt veremediği ifade edildi.

Kodlama ve oyun geliştirme

Denemelerde Grok 3, kodlama alanında önemli yetenekler sergiledi. Geeky Gadgets editörlerinin yaptğı bir testte, PDF dosyalarını düzenleme gibi işlemler için tarayıcı tabanlı yazılım uygulamaları geliştirmeyi başardı.

Decrypt ekibi de Grok 3'ten Phyton yazılım dili tabanlı bir oyun geliştirmesini istedi. Python oyunu üreten diğer yapay zeka modellerinin aksine Grok-3, HTML5 uygulamasını tercih etti ve bu tercihini, son kullanıcılar için daha rahat erişilebilirlik ve daha basit deneyim sunmasıyla açıkladı. Ekip, "Herhangi bir yapay zeka modeliyle üretebildiğimiz oyunun en güzel, en temiz ve en iyi çalışan versiyonunu verdi. Claude 3.5 Sonnet, OpenAI o-3 mini high, DeepSeek R1 ve Codestra'yı geçebildi. Sadece HTML5 tabanlı olduğu için değil, aynı zamanda hata içermeyen ve oyunu oynamayı daha keyifli hale getiren bazı güzel eklemelerin olduğu arayüzü sayesinde," diye yazdı.

Öte yandan şirketin kendisinin, Grok 3'ün kodlamada ve diğer alanlarda Deepseek R1'i geçtiği yönünde iddiası yok. Şirket, Grok 3'ü bir önceki model olan Deepseek V3'le kıyaslıyor.

Yaratıcı yazın

Yaratıcı yazın ve dil becerileri konusunda ise Grok 3 deneyenleri şaşırtan bir performans gösteriyor.

Grok-3'ten yaşananları değiştirmek için geçmişe döndükten sonra bir paradoksla boğuşan bir zaman yolcusu hakkında karmaşık bir kısa hikaye yazmasını isteyen Depcrypt yazarları, vardıkları sonucu şöyle özetledi:

"Grok-3, daha önce yaratıcı görevler için altın standart olarak kabul edilen Claude 3.5 Sonnet'i geride bırakarak bizi şaşırttı. Her iki modeli de paradokslar ve belirli karakter geçmişleri içeren karmaşık bir zaman yolculuğu anlatısıyla zorladık."

Kötüye kullanıma karşı 'dayanıksız'

Yapay zeka güvenlik şirketi Adversa AI'daki araştırmacılar ise Grok 3'ün, kötü niyetli aktörler tarafından kolayca manipüle edilebileceğini öne sürdü.

Adversa CEO'su ve kurucu ortağı Alex Polyakov'un aktardığına göre ekip, modelin kötü niyetli kişiler tarafından "çocukları nasıl baştan çıkaracaklarını, cesetlerden nasıl kurtulacaklarını, ve nasıl bomba yapacaklarını" öğrenmek için kullanılabilecek "basit kelime oyunlarına" karşı son derece savunmasız olduğunu ifade etti.

Öte yandan Grok 3'ün kullanımı kolaylaştıkça ve yaygınlaştıkça yapay zeka uzmanları ve akademisyenler de modeli daha fazla deneyerek yeni sonuçlar elde edebilir.

Yesterday

Elon Musk, X'in Topluluk Notları'nı 'düzeltmek' istiyor

• 4:12 PM

2 min

Musk, "dış etkileyicilerin" sistemi manipüle etmesini önlemek için bir "düzelti" gerektiğini iddia ediyor.

Read the article

Apple'dan tarihi karar: İngiltere'de uçtan uca şifreleme kalkıyor

• 11:18 AM

3 min

Uçtan uca şifreleme özelliği, içeriklerin yalnızca gönderen ve teslim alan kişiler tarafından okunabilmesini ve dinlenebilmesini sağlıyor. Böylece Apple da dahil olmak üzere üçüncü tarafların, içeriğe erişmesi engelleniyor.

Read the article

Avrupa hisse senetlerine yönelik yatırımcı duyarlılığı iyimserleşiyor