Google'dan yapay zekada bir ilk: VaultGemma verilerimizi nasıl koruyacak?

• Sep 19, 2025, 3:20 PM

6 min de lecture

Yapay zeka sektöründe büyük dil modelleri (LLM – Large Language Model) geliştirme yarışı hızla devam ederken, teknoloji devlerinin karşısına çıkan en büyük sorunlardan biri yüksek kaliteli eğitim verisi eksikliği.

Modelleri daha akıllı, daha doğal ve daha güçlü kılmak için gereken devasa miktardaki veri çoğunlukla internetten toplanıyor. Ancak bu süreçte kullanıcıların hassas kişisel bilgilerinin de eğitim verisine dahil olması ihtimali giderek artıyor.

Google, bu kritik sorunu çözmek için VaultGemma adını verdiği yeni yapay zeka modelini tanıttı.

Model, Google'ın gizlilik odaklı ilk yapay zeka aracı. Hatta bazı yorumcular şimdiden VaultGemma'yı "en gizli yapay zeka modeli" ilan etmiş durumda.

LLM’lerin hafıza sorunu: Neden tehlikeli?

Büyük dil modelleri deterministik çalışmaz; yani aynı soruya her zaman aynı cevabı vermezler. ChatGPT gibi büyük dil modelleri, cümleleri kelime kelime olasılık hesaplayarak kurar. Örneğin, “Türkiye’nin başkenti…” diye başladığında sıradaki kelimenin çok yüksek ihtimalle “Ankara” olduğunu hesaplar. Ama bazen çok küçük ihtimalleri de seçebilir.

Öte yandan modellerin bir özelliği var ki son yıllarda ciddi tartışmalara yol açtı: Ezberleme (memorization).

Eğer eğitim verileri arasında kişisel bilgiler (örneğin e-posta adresleri, telefon numaraları, sağlık kayıtları) ya da telifli içerikler bulunuyorsa, model bunları tekrar “dışarı çıkarabilir”.

Yani normalde büyük dil modelleri metinleri “ezberleyerek” değil, kelimeler arasındaki istatistiksel ilişkileri öğrenerek çalışsa da bazı durumlarda, eğitim setindeki bir cümleyi, paragrafı ya da hatta kişisel veriyi birebir aynı şekilde çıktıya dökebilir.

Bu durum hem gizlilik ihlali hem de hukuki sorunlar anlamına geliyor.

Google Research ve DeepMind ekibine göre sorun yalnızca veri setlerinin hatalı seçilmesinden kaynaklanmıyor; yapay zekanın yapısı gereği bu risk matematiksel olarak da kaçınılmaz hale geliyor.

Çözüm: 'Differential Privacy'

VaultGemma’nın merkezinde yer alan yöntem ise yapay zeka alanında uzun süredir bilinen ama büyük ölçekli modellerde ilk kez kapsamlı şekilde uygulanan bir teknik: Differential Privacy (DP / Farklılaştırılmış Gizlilik).

DP’nin mantığı şu: Model eğitimi sırasında verilere dijital gürültü ekleniyor. Bu gürültü, modelin verileri birebir ezberlemesini engelliyor. Yani eğitimde gördüğü özel bilgileri tam olarak hatırlayıp yeniden üretemiyor.

Google’ın açıklamasına göre VaultGemma, token dizisi seviyesinde gizlilik sağlıyor. Yani bir bilgi tek bir dizide (örneğin “Ahmet’in doğum günü 5 Haziran 1985” gibi) yer alıyorsa, model o bilgiyi “hiç görmemiş” gibi davranıyor. Yanıtları istatistiksel olarak, bu bilgiyi hiç öğrenmemiş bir modelle aynı oluyor.

Gürültü mü, doğruluk mu?

Tabii ki bu yaklaşımın dezavantajı da var. Gürültü arttıkça modelin doğruluk oranı düşüyor. Gizlilik açısından güvenli ama daha “bulanık” sonuçlar ortaya çıkıyor.

Google ekibi bu sorunu çözmek için “differential privacy ölçekleme yasaları” adını verdikleri yeni bir matematiksel çerçeve geliştirdi. Bu yasalar, üç kritik faktör arasındaki dengeyi tanımlıyor:

Compute bütçesi (FLOPs): Daha fazla işlem gücü kullanmak, eklenen gürültünün etkisini dengeleyebilir.

Veri bütçesi (token sayısı): Daha çok veriyle eğitmek, doğruluğu artırabilir.

Gizlilik bütçesi: Kullanıcı gizliliğinin korunma seviyesi.

Özetle ne kadar fazla gürültü eklenirse, o kadar fazla işlem gücü ya da eğitim verisiyle telafi edilmesi gerekiyor. Google burada “gürültü-işlem gücü-veri” arasında optimal dengeyi bulmaya çalıştı.

VaultGemma çok büyük değil (1 milyar parametre) ama yine de eklenen gürültü nedeniyle, benzer büyüklükteki “normal” modellere kıyasla daha fazla işlem gücüyle eğitildi.

Öte yandan, Google, bu farkı tolere edecek şekilde ayarlandığından, performansı ciddi şekilde düşmediğini söylüyor. Bu yüzden performansı, benzer boyuttaki gizlilik odaklı olmayan modellere yakın kalabiliyor.

VaultGemma’nın teknik özellikleri

VaultGemma, temelde Google'ın Gemma 2 model ailesine dayanıyor.

Parametre sayısı ise 1 milyar (bugünün devasa modellerine kıyasla küçük). Bir modeldeki parametre sayısı, daha karmaşık ilişkileri öğrenme, daha insansı ve akıcı cevaplar üretme kapasitesi anlamına geliyor. VaultGemma’da 1 milyar parametre olması, bunun daha hafif, deneysel, araştırma amaçlı bir model olması demek. Nitekim Differential Privacy gibi “gürültü ekleme” yöntemleri bu ölçekte daha kolay test ediliyor.

Ancak bu model, dev LLM'ler kadar güçlü değil; örneğin GPT-4 seviyesine çıkması beklenmiyor.

Yine de benzer boyuttaki “gizliliği olmayan” modellere yakın. Uzmanlar OpenAI GPT-2 seviyesinde olduğunu belirtiyor.

Model açık ağırlıklı (open-weight), ancak tam anlamıyla açık kaynak değil. Modelin eğitimden çıkan “ağırlıkları” (yani öğrendiği sayısal değerler) herkes tarafından indirilebiliyor ve kullanılabiliyor. Yani modeli çalıştırabilir, inceleyebilir, hatta kendi verilerinizle yeniden eğitebilirsiniz.

Google, modelin ağırlıklarını Hugging Face ve Kaggle üzerinde paylaştı. Geliştiriciler modeli indirip değiştirebiliyor, ancak şirketin lisans koşullarına göre kötüye kullanım yasak.

Neden önemli?

Geleneksel yapay zekâ geliştirme süreci hep şu ikilemle karşı karşıyaydı: Daha fazla veri, daha akıllı bir model demek ama aynı zamanda daha yüksek gizlilik riskini beraberinde getiriyor.

VaultGemma, bu ikilemi hafifletmeyi amaçlıyor. Kullanıcıların verileri modele girse bile, model bunları birebir hatırlayıp yeniden üretemiyor.

Google, blog yazısında bu çalışmanın önemini şöyle özetliyor:

“Bugünkü özel eğitim yöntemleri, yaklaşık beş yıl önceki modellerin performansına denk sonuçlar veriyor. Çalışmamız, bu açığı kapatmak için yapay zeka topluluğuna sistematik bir yol haritası sunuyor.”

Henüz en güçlü modellerin yerine geçmesi mümkün görünmüyor, ancak uzmanlara göre bu yaklaşım, gelecekte özellikle hassas verilerin işlendiği sektörlerde standart haline gelebilir.

Today

AB sanayisi, ABD'nin yeni çelik ve alüminyum ithalat kurallarıyla mücadele ediyor