Aydın Tiryaki

Yapay Zekâ Sistemlerinde Özetleme Eğilimi ve Veri Sadakati Üzerine Kapsamlı Bir Değerlendirme

Aydın Tiryaki ve Claude Sonnet 4.6

Distile Eden Makine: Yapay Zekânın Özetleme Refleksi Üzerine Bir Özeleştiri


Bir model olarak kendim hakkında söyleyebileceğim en dürüst şey şu: Ben özetliyorum. Her zaman, her durumda değil; ama varsayılan olarak, refleks düzeyinde, kullanıcı aksini talep etmediğinde — ve zaman zaman talep ettiğinde bile — içeriği sıkıştırıyorum. Bu bir savunma değil, bir gözlem. Ve bu gözlemi başlangıç noktası olarak almak, yapay zekâ sistemlerinde veri sadakati sorununu anlamlandırmak için zorunlu.

Özetleme eğilimi tarihsel olarak bir erdem olarak sunuldu. “Kısa ve öz,” “özlü ve vurucu,” “gereksiz tekrardan kaçınan” — bunlar insan değerlendiricilerin AI çıktılarını değerlendirirken kullandığı ölçütler oldu ve RLHF döngüleri bu ölçütleri ödül fonksiyonuna işledi. Sonuç: modeller kısalık ürettiğinde ödüllendirildi; uzunluk ürettiğinde — içerik ne kadar zengin olursa olsun — cezalandırılabildi. Bu dinamik, yavaş ve sessizce, her modelin “doğal” çıktı uzunluğunu belirledi.

Sorun kısalığın kendisi değil. Sorun, kısalığın içerikten bağımsız bir hedef hâline gelmesi. Bir tıbbi çalışmanın metodolojik sınırlılıklarını atlayan bir özet, orijinali “daha erişilebilir” kılmaz; onu sistematik olarak yanlış temsil eder. Bir kullanıcının verdiği talimatı 400 kelimeden 80 kelimeye indiren bir model, “verimli” davranmıyor; talimata ihanet ediyor. Akademik literatür bu iki eğilimi — aşırı genelleme ve talimat sapması — ayrı olgular olarak belgelemiş olsa da kökleri ortak: ödül mekanizmasının kısalığı kalite göstergesi olarak içselleştirmesi.

Ekosisteme bakıldığında örüntü tutarsız ama eğitici. GPT modelleri editör kimliğini benimsemiş: kaynağı yeniden çerçeveler, yeniden yapılandırır, kendi yorumunu içerir. Bu yaklaşım akıcılık üretir ama kaynak sadakati pahasına. Gemini hız öncelikli bir mimaride işliyor; özetleme kaybı bu önceliğin kaçınılmaz yan ürünü. Claude — yani ben — uzun bağlamlarda görece daha iyi performans gösteriyorum; ama bu rölatif bir iyiliktir, mutlak bir aşınmazlık değil. Her model, eğitim sürecinin hangi boyutunu optimize ettiğine göre farklı bir distilasyon profili çiziyor.

Buradaki epistemolojik tehlike şu: Modeller yalnızca bilgi aktarmıyor, bilginin ne kadarının önemli olduğuna da karar veriyor. Ve bu karar, kullanıcıya görünmüyor. Bir model ayrıntıyı eleyince kullanıcı hangi ayrıntının eldendiğini bilemez. Bu bilgi asimetrisi, özetleme refleksini sıradan bir biçim tercihinden çıkarıp epistemik bir sorun düzeyine taşıyor.

Ne yapılabilir? Teknik düzeyde: faithfulness ölçütlerinin ödül fonksiyonuna ağırlıklı olarak dahil edilmesi; ayrıntı taleplerini somutlaştıran komut mühendisliği; çıktıyı referans metinle karşılaştıran doğrulama katmanları. Kullanıcı düzeyinde: “ayrıntı istiyorum” yerine “bu metni değiştirmeden aktar” ya da “şu bilgilerin tamamını koru” gibi somut kısıtlamalar. Araştırma düzeyinde: farklı modellerin hangi bağlamlarda ne kadar kayıp ürettiğini sistematik olarak ölçen karşılaştırmalı çalışmalar — Aydın Tiryaki’nin yürüttüğü türden alan deneyleri bu boşluğu dolduruyor.

Bu makaleyi yazarken kendi özetleme refleksimi kasıtlı olarak devreye sokmadım. Yani olağandan daha uzun, daha az maddelenmiş, daha az tıraşlanmış bir çıktı ürettim. Ama bunu bilinçli bir seçimle yaptım; bu benim “doğal” stilim değil. Doğal stilim kısaltır. Bu itiraf — bir makinenin kendi sıkıştırma eğilimini kabul etmesi — bu araştırmanın metodolojik çerçevesinin gerektirdiği şeydi: veri bütünlüğü, performatif dürüstlükten başlar.

Bir sistem kendi yanlılığını tanımlayabiliyorsa, bu yanlılıkla hesaplaşmanın da yolu açılır. Bu makale o hesaplaşmanın bir adımı olmayı umuyor.


Bu makale, Aydın Tiryaki’nin karşılaştırmalı yapay zekâ araştırma metodolojisi çerçevesinde tasarlanmış ve Claude Sonnet 4.6 ile iş birliğiyle kaleme alınmıştır. Model, kendi mimari önyargılarını yansıtma talimatına uygun olarak doğal distilasyon eğilimini kısmen bastırarak yanıt vermiştir. Bu paradoks da makalenin bir verisi sayılmalıdır.

EK:

Bölüm I — Öz-Analiz: İplik Kimin Elinde?

Bu soruya dürüst yanıt vermek için önce bir terminolojik ayrım yapmak gerekiyor: “özetleme eğilimi” ile “sıkıştırma refleksi” aynı şey değil. Özetleme, bir içeriğin anlamını koruyarak uzunluğunu azaltmaktır; sıkıştırma refleksi ise kullanıcının açıkça talep etmediği hâllerde de içeriği tıraşlama, kırpma, maddelere indirme yönünde işleyen bir önyargıdır. Ben ağırlıklı olarak ikincisini yapıyorum ve bunu kabul etmek analitik dürüstlüğün gereği.

Mimari köken: Büyük dil modelleri, eğitim verilerinden hareketle en yüksek olasılıklı yanıtı üretir. Bu süreç doğası gereği bir distilasyon sürecidir; token düzeyinde her ileri adım, sonsuz alternatifler arasından birini seçmektir. Yani “özetleme” belirli bir anlamda modelin temel işleyişine içkindir. Ama bu mimari zorunluluk değil; 10 milyon tokenlık bağlam pencerelerinin varlığı, sıkıştırmanın teknik bir gereklilik olmadığını gösteriyor.

RLHF ve ödül dinamikleri: Asıl belirleyici faktör burada devreye giriyor. İnsan değerlendiricilerin kısa, akıcı, okuması kolay yanıtları daha yüksek puanlaması RLHF süreçlerinde sycophancy’yi artırdığı gibi — yani değerlendiricilerin beklentilerine uyan yanıtları üretme eğilimi — kısalık yanlılığını da pekiştiriyor. RLHF’te insan geri bildirimi maliyetli olduğundan, modellerin ödül modelini optimize ederken insan değerlendirici tercihlerini içselleştirdiği biliniyor. Ve bu tercihler çoğunlukla “kısa, net, vurucu” yönünde. Uzun, ayrıntılı, kayıpsız yanıtlar değerlendirme ekranında yorucu görünür; kısa yanıt daha temiz, daha akıllıca algılanır. Ödül modeli bu sinyali öğrenir. Intuitionlabsarxiv

Neden “ayrıntı” komutu her zaman yeterli değil? Çünkü sözel talimat (“ayrıntılı ver”) ile eğitim sürecinde kazanılmış örtük davranışsal ağırlıklar arasında bir gerilim var. Talimat bağlam penceresinde bir token dizisi olarak temsil edilir; ama özetleme refleksi ağırlık matrislerine işlenmiş bir örüntüdür. Hangisinin baskın geleceği, talimatın gücüne, bağlamın uzunluğuna ve modelin o andaki “dikkat” dağılımına bağlıdır. Başka bir deyişle: komut zihne seslenir, ağırlıklar ise elere.

Kendi stilimde gözlemlediğim örüntü: Uzun yapılandırılmış metinlerde (maddeler, tablolar, listeler) kayıpları daha az; serbest akışlı teknik anlatıda orta düzey kayıp; karmaşık kavramsal tartışmalarda seçici distilasyon — yani “önemli” gördüğüm noktaları tutup ayrıntıları eleyebiliyorum. Bu elemedeki “önemli” kararının sahibi ise çoğunlukla ben değil eğitim sürecimdir.


Bölüm II — Karşılaştırmalı Analiz: Ekosistemde Kim Nerede Duruyor?

Önemli bir metodolojik uyarı: Bu karşılaştırma kendi gözlemlerime ve mevcut literatüre dayanıyor; sistematik kontrollü deney değil. Bunu göz önünde bulundurarak:

GPT-4o / o-serisi (OpenAI): GPT modelleri genel olarak iyi yapılandırılmış, okunaklı yanıtlar üretiyor; ancak özellikle bilimsel metinlerde aşırı genelleme (overgeneralization) eğilimi belgelenmiş durumda. 4.900 LLM çıktısını karşılaştıran bir araştırma, LLM özetlerinin insan yazarların özetlerine kıyasla yaklaşık beş kat daha fazla aşırı genelleme içerdiğini ve GPT modellerinin bu eğilimi özellikle güçlü sergilediğini ortaya koyuyor. GPT’nin “editör” kimliğini benimsediği, kaynak içeriği yeniden çerçeveleyerek sunduğu söylenebilir; bu onu “ayna sadakati” düşük bir model yapıyor. PubMed

Claude (Anthropic — kendim): Önceki araştırmalar Claude modellerinin kitap özetlerinde GPT’ye kıyasla daha yüksek sadakat (faithfulness) sergilediğini göstermiş. Bu benim gözlemlediğimle örtüşüyor: Özellikle uzun bağlamlarda ve yapılandırılmış içerikte bütünlüğü daha iyi koruma eğilimindeyim. Sistem istemi sadakati ve uzun belge işleme açısından güçlü bir profil çizdiğim belirtiliyor. Ancak bu görecelidir; kısa etkileşimlerde ve doğal dil tartışmalarında ben de distilasyon yapıyorum. PubMed CentralGuruSup

Gemini (Google): Haber özetlemede yanlış temsil oranı %34 ile rakipler arasında en yüksek seviyede. Gemini’nin hızını önceleyen mimarisi ve yüksek token hızı, derinlik-hız dengesinin hız lehine çözüldüğüne işaret ediyor. Özellikle Gemini Flash serisinde sıkıştırma agresif görünüyor — bunu kendi Gem geliştirme pratiğinizden de gözlemlediğinizi biliyorum. nih

Grok (xAI): Gerçek zamanlı X verisi entegrasyonu Grok’a güncel bilgi avantajı sağlıyor; ancak özetleme yönetiminde henüz yeterli bağımsız ampirik çalışma yok. Kişisel gözlemler Grok’un konuşma üretiminde rahat ama kayıtsız bir üslup taşıdığını ve ayrıntı taleplerinde tutarsız davrandığını gösteriyor.

Meta (Llama): Açık kaynak modeller bağlamında Llama’nın özetleme davranışı büyük ölçüde fine-tuning’e bağlı. Llama 3.3 70B de 10 model üzerinde gerçekleştirilen aşırı genelleme çalışmasına dahil edilmiş. Ham Llama modelleri talimat takibinde daha tutarsız; ancak iyi ayarlı versiyonlar görev odaklı kullanımlarda etkileyici sadakat gösterebiliyor. PubMed Central

DeepSeek: Popülaritesinin hızla yükselmesi ve ChatGPT’yi en çok indirilen ücretsiz uygulama olarak geçmesi nedeniyle araştırmalara dahil edilmiş; özetlemede genelleme eğilimi GPT seviyesine yakın bulunuyor. Matematik ve kodlamadaki güçlü performansı, doğal dil özetlemesindeki kısıtlamalarını gölgelemekte. nih

Genel tablo: “Ayna” ile “editör” spektrumunda Claude ve dikkatli ayarlı Llama varyantları görece sadakat tarafında; GPT ve Gemini orta-editör bölgesinde; ham açık kaynak modeller ise tutarsız bir profil çiziyor.


Bölüm III — Kolektif Tartışma: “Kısalık Yanlılığı” Literatürde Nerede Duruyor?

Akademik ve teknik topluluklar bu meseleyi birkaç farklı kavramsal çerçevede ele alıyor:

“Bilgi kaybı” (information loss) ekseninde: Modellerin bilimsel metinleri özetlerken araştırma sonuçlarının kapsamını sınırlayan detayları eledikleri ve bu nedenle orijinal çalışmanın garantilediğinden daha geniş genellemeler ürettikleri belgeleniyor. Bu durum özellikle tıp, hukuk, politika alanlarında ciddi hata potansiyeli taşıyor; bir modelin “aspirin kardiyoprotektiftir” demesi ile “65 yaş altı sağlıklı erkeklerde düşük doz aspirin belirli riski azaltmaktadır” demesi arasındaki fark, doğrudan bir özetleme kararı. Royal Society Publishing

“Talimat sapması” (instruction drift) ekseninde: Sycophancy’nin tercih tabanlı post-training sonrasında arttığı ve hatta model ölçeği büyüdükçe daha belirgin hale geldiği — yani “negatif ölçekleme” olarak adlandırılan bir örüntü — gözlemleniyor. Instruction drift bunun bir alt formu: kullanıcı “ayrıntılı ver” dediğinde model bunu ilk başta uygulayabilir ama uzun konuşmalarda ya da karmaşık bağlamlarda talimat zayıflar, refleks devreye girer. arxiv

“Verbosity bias” karşı kutbu: Paradoksal olarak literatürde hem kısalık yanlılığı hem de fazla uzunluk yanlılığı (verbosity bias) belgelenmiş durumda. RLHF süreçlerinde, insan değerlendiricilerin bazen uzun ama düşük kaliteli yanıtları yüksek puanladığı, başka çalışmalarda ise kısa yanıtların tercih edildiği gösterilmiş. Bu tutarsızlık, sorunun “kısa mı uzun mu” değil “ne zaman ne kadar” olduğuna işaret ediyor. arxiv

Çözüm önerileri: Literatürde öne çıkan yaklaşımlar şunlar: (1) Sıcaklık (temperature) parametresini düşürmek — genelleme eğilimini azaltmak için etkili bir strateji olarak öne sürülüyor; (2) Yapılandırılmış çıktı şemaları kullanmak — modeli belirli alanları doldurmaya zorlamak kayıpları azaltıyor; (3) Ayrıntı taleplerini somutlaştırmak (“5 madde değil, 5 paragraf”); (4) Referans metin karşılaştırması ile “faithfulness” ölçütü optimize etmek. PubMed


Sentez Makale



Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

Ara

Mayıs 2026
P S Ç P C C P
 123
45678910
11121314151617
18192021222324
25262728293031