...

Logo Pasino du Havre - Casino-Hôtel - Spa
in partnership with
Logo Nextory

Google'dan yapay zekada bir ilk: VaultGemma verilerimizi nasıl koruyacak?

• Sep 19, 2025, 3:20 PM
6 min de lecture
1

Yapay zeka sektöründe büyük dil modelleri (LLM – Large Language Model) geliştirme yarışı hızla devam ederken, teknoloji devlerinin karşısına çıkan en büyük sorunlardan biri yüksek kaliteli eğitim verisi eksikliği.

Modelleri daha akıllı, daha doğal ve daha güçlü kılmak için gereken devasa miktardaki veri çoğunlukla internetten toplanıyor. Ancak bu süreçte kullanıcıların hassas kişisel bilgilerinin de eğitim verisine dahil olması ihtimali giderek artıyor. 

Google, bu kritik sorunu çözmek için VaultGemma adını verdiği yeni yapay zeka modelini tanıttı.

Model, Google'ın gizlilik odaklı ilk yapay zeka aracı. Hatta bazı yorumcular şimdiden VaultGemma'yı "en gizli yapay zeka modeli" ilan etmiş durumda.

LLM’lerin hafıza sorunu: Neden tehlikeli?

Büyük dil modelleri deterministik çalışmaz; yani aynı soruya her zaman aynı cevabı vermezler. ChatGPT gibi büyük dil modelleri, cümleleri kelime kelime olasılık hesaplayarak kurar. Örneğin, “Türkiye’nin başkenti…” diye başladığında sıradaki kelimenin çok yüksek ihtimalle “Ankara” olduğunu hesaplar. Ama bazen çok küçük ihtimalleri de seçebilir.

Öte yandan modellerin bir özelliği var ki son yıllarda ciddi tartışmalara yol açtı: Ezberleme (memorization).

Eğer eğitim verileri arasında kişisel bilgiler (örneğin e-posta adresleri, telefon numaraları, sağlık kayıtları) ya da telifli içerikler bulunuyorsa, model bunları tekrar “dışarı çıkarabilir”.

Yani normalde büyük dil modelleri metinleri “ezberleyerek” değil, kelimeler arasındaki istatistiksel ilişkileri öğrenerek çalışsa da bazı durumlarda, eğitim setindeki bir cümleyi, paragrafı ya da hatta kişisel veriyi birebir aynı şekilde çıktıya dökebilir.

Bu durum hem gizlilik ihlali hem de hukuki sorunlar anlamına geliyor.

Google Research ve DeepMind ekibine göre sorun yalnızca veri setlerinin hatalı seçilmesinden kaynaklanmıyor; yapay zekanın yapısı gereği bu risk matematiksel olarak da kaçınılmaz hale geliyor.

Çözüm: 'Differential Privacy'

VaultGemma’nın merkezinde yer alan yöntem ise yapay zeka alanında uzun süredir bilinen ama büyük ölçekli modellerde ilk kez kapsamlı şekilde uygulanan bir teknik: Differential Privacy (DP / Farklılaştırılmış Gizlilik).

DP’nin mantığı şu: Model eğitimi sırasında verilere dijital gürültü ekleniyor. Bu gürültü, modelin verileri birebir ezberlemesini engelliyor. Yani eğitimde gördüğü özel bilgileri tam olarak hatırlayıp yeniden üretemiyor.

Google’ın açıklamasına göre VaultGemma, token dizisi seviyesinde gizlilik sağlıyor. Yani bir bilgi tek bir dizide (örneğin “Ahmet’in doğum günü 5 Haziran 1985” gibi) yer alıyorsa, model o bilgiyi “hiç görmemiş” gibi davranıyor. Yanıtları istatistiksel olarak, bu bilgiyi hiç öğrenmemiş bir modelle aynı oluyor.

Gürültü mü, doğruluk mu?

Tabii ki bu yaklaşımın dezavantajı da var. Gürültü arttıkça modelin doğruluk oranı düşüyor. Gizlilik açısından güvenli ama daha “bulanık” sonuçlar ortaya çıkıyor.

Google ekibi bu sorunu çözmek için “differential privacy ölçekleme yasaları” adını verdikleri yeni bir matematiksel çerçeve geliştirdi. Bu yasalar, üç kritik faktör arasındaki dengeyi tanımlıyor:

Compute bütçesi (FLOPs): Daha fazla işlem gücü kullanmak, eklenen gürültünün etkisini dengeleyebilir.

Veri bütçesi (token sayısı): Daha çok veriyle eğitmek, doğruluğu artırabilir.

Gizlilik bütçesi: Kullanıcı gizliliğinin korunma seviyesi.

Özetle ne kadar fazla gürültü eklenirse, o kadar fazla işlem gücü ya da eğitim verisiyle telafi edilmesi gerekiyor. Google burada “gürültü-işlem gücü-veri” arasında optimal dengeyi bulmaya çalıştı.

VaultGemma çok büyük değil (1 milyar parametre) ama yine de eklenen gürültü nedeniyle, benzer büyüklükteki “normal” modellere kıyasla daha fazla işlem gücüyle eğitildi.

Öte yandan, Google, bu farkı tolere edecek şekilde ayarlandığından, performansı ciddi şekilde düşmediğini söylüyor. Bu yüzden performansı, benzer boyuttaki gizlilik odaklı olmayan modellere yakın kalabiliyor.

VaultGemma’nın teknik özellikleri

VaultGemma, temelde Google'ın Gemma 2 model ailesine dayanıyor.

Parametre sayısı ise 1 milyar (bugünün devasa modellerine kıyasla küçük). Bir modeldeki parametre sayısı, daha karmaşık ilişkileri öğrenme, daha insansı ve akıcı cevaplar üretme kapasitesi anlamına geliyor. VaultGemma’da 1 milyar parametre olması, bunun daha hafif, deneysel, araştırma amaçlı bir model olması demek. Nitekim Differential Privacy gibi “gürültü ekleme” yöntemleri bu ölçekte daha kolay test ediliyor.

Ancak bu model, dev LLM'ler kadar güçlü değil; örneğin GPT-4 seviyesine çıkması beklenmiyor.

Yine de benzer boyuttaki “gizliliği olmayan” modellere yakın. Uzmanlar OpenAI GPT-2 seviyesinde olduğunu belirtiyor.

Model açık ağırlıklı (open-weight), ancak tam anlamıyla açık kaynak değil. Modelin eğitimden çıkan “ağırlıkları” (yani öğrendiği sayısal değerler) herkes tarafından indirilebiliyor ve kullanılabiliyor. Yani modeli çalıştırabilir, inceleyebilir, hatta kendi verilerinizle yeniden eğitebilirsiniz.

Google, modelin ağırlıklarını Hugging Face ve Kaggle üzerinde paylaştı. Geliştiriciler modeli indirip değiştirebiliyor, ancak şirketin lisans koşullarına göre kötüye kullanım yasak.

Neden önemli?

Geleneksel yapay zekâ geliştirme süreci hep şu ikilemle karşı karşıyaydı: Daha fazla veri, daha akıllı bir model demek ama aynı zamanda daha yüksek gizlilik riskini beraberinde getiriyor.

VaultGemma, bu ikilemi hafifletmeyi amaçlıyor. Kullanıcıların verileri modele girse bile, model bunları birebir hatırlayıp yeniden üretemiyor.

Google, blog yazısında bu çalışmanın önemini şöyle özetliyor:

“Bugünkü özel eğitim yöntemleri, yaklaşık beş yıl önceki modellerin performansına denk sonuçlar veriyor. Çalışmamız, bu açığı kapatmak için yapay zeka topluluğuna sistematik bir yol haritası sunuyor.”

Henüz en güçlü modellerin yerine geçmesi mümkün görünmüyor, ancak uzmanlara göre bu yaklaşım, gelecekte özellikle hassas verilerin işlendiği sektörlerde standart haline gelebilir.


Today

AB, Trump'ın artan baskısı altında Rus petrolüne gümrük vergisi getirilmesini önerecek
• 4:11 PM
6 min
Rus petrolüne gümrük vergisi konulması Macaristan ve Slovakya'nın Moskova ile enerji bağlarını sürdürmesini giderek daha pahalı hale getirebilir.
Read the article
HIV salgınının seyrini değiştirecek ilaç düşük fiyatla geliyor
• 11:36 AM
3 min
Lenakapavir adı verilen ilaç, dünya genelinde yaklaşık 40,8 milyon kişiyi etkileyen HIV salgınının seyrini değiştirebilecek bir tıbbi atılım olarak görülüyor.
Read the article
Airbus, Boeing gibi 'Trump tarzı savunuculuğa' ihtiyaç duyuyor mu?
• 11:07 AM
3 min
ABD Başkanı Donald Trump büyük siparişleri teşvik ederken, Airbus için güçlü bir savunucu yok. Ancak uzmanlar, dolu bir sipariş defterine sahip olan Avrupa havacılık şampiyonunun buna ihtiyaç duymayabileceğini söylüyor.
Read the article
AB iş dünyası lideri, Çin'in Avrupa'ya ihracatındaki hızlı artış konusunda uyarıda bulundu
• 9:19 AM
6 min
Ticaret akışının ABD'den Avrupa'ya kayması Avrupa sanayileri için ciddi sonuçlar doğurabilir. Ancak Avrupa Komisyonu büyük bir ticaret sapmasının gerçekleştiğine dair kanıt görmüyor.
Read the article
ABD'de 'kabus bakteri' enfeksiyonları artıyor
• 8:11 AM
4 min
ABD'deki vaka oranı son yıllarda beş kattan fazla arttı.
Read the article
Apple, akıllı saatinin yüksek tansiyonu tespit edebildiğini açıkladı: Ne kadar güvenilir?
• 7:23 AM
3 min
Apple, ilk yılda 1 milyondan fazla teşhis edilmemiş hipertansiyon vakasının tespit edilmesini bekliyor.
Read the article