DeepSeek, kendi kendini geliştiren yapay zeka modeli için çalışıyor

Çinli yapay zekâ girişimi DeepSeek, büyük dil modellerinin (Large Language Models -LLM) akıl yürütme yeteneklerini geliştirmek için yeni bir yöntem tanıttı. Bu yöntem sayesinde şirket, genel sorulara rakiplerinden daha hızlı ve daha doğru yanıtlar verebildiğini öne sürüyor.
DeepSeek, Ocak ayında piyasaya sürdüğü R1 adlı yapay zekâ modeli ve sohbet robotuyla büyük ilgi toplamıştı. Şirket, bu modelin OpenAI'nin ChatGPT’si kadar başarılı olduğunu, ancak çok daha düşük maliyetle çalıştığını savunmuştu.
Çin’in prestijli üniversitelerinden Tsinghua ile birlikte çalışan DeepSeek, Cuma günü yayımladığı son akademik çalışmasında, yapay zekâ modellerinin kendi kendini geliştirmesini sağlayan bir teknik geliştirdiklerini duyurdu.
Bu yeni teknolojiye 'kendi ilkelerine dayalı eleştiri ayarı' (self-principled critique tuning – SPCT) adı veriliyor. Bu yöntemle yapay zekâ, içerikleri değerlendirmek için kendi kurallarını oluşturuyor ve ardından bu kurallara dayanarak detaylı geri bildirimler (eleştiriler) üretiyor.
DeepSeek’in geliştirdiği sistem, büyük modeller kullanmak yerine, birden fazla değerlendirmeyi aynı anda çalıştırarak daha iyi sonuçlar elde ediyor.
Bu yaklaşım 'üretken ödül modellemesi' (generative reward modeling – GRM) olarak biliniyor. Bu sistem, yapay zekâların ürettiği içerikleri değerlendiriyor ve kullanıcıların beklentileriyle ne derece uyumlu olduğunu SPCT yöntemiyle kontrol ediyor.
Peki, bu sistem nasıl çalışıyor?
Genelde yapay zekâyı geliştirmek için daha büyük modellerin eğitilmesi gerekiyor. Ancak bu hem büyük bilişim gücü hem de ciddi insan emeği gerektiriyor. DeepSeek ise bunun yerine, yapay zekâya entegre bir 'yargıç' sistemi kurdu. Bu yargıç, yapay zekânın verdiği yanıtları anlık olarak değerlendiriyor.
Bir kullanıcı soru sorduğunda, bu dahili yargıç sistemi cevabı hem modelin kendi kurallarıyla hem de ideal bir yanıtın nasıl olması gerektiğiyle karşılaştırıyor.
Eğer cevap yeterince iyi bir eşleşme sunuyorsa, sistem yapay zekâya olumlu geri bildirim veriyor. Böylece model zamanla kendini daha da geliştiriyor.
DeepSeek bu kendi kendini geliştiren sisteme 'DeepSeek-GRM' adını verdi. Araştırmacılar, bu yöntemin Google’ın Gemini’si, Meta’nın Llama’sı ve OpenAI’nin GPT-4o’su gibi rakip modellerden daha iyi performans göstereceğini iddia ediyor.
Şirket bu gelişmiş yapay zekâ modellerini açık kaynaklı olarak sunmayı planlıyor, ancak kesin bir tarih verilmiş değil.
Bu bilimsel makalenin yayımlanmasıyla birlikte, DeepSeek’in yeni nesil sohbet robotu R2’yi tanıtmaya hazırlandığına dair söylentiler de arttı. Ancak şirket şu ana kadar bu konuda herhangi bir resmi açıklama yapmadı.
Today