İstisnai Komut Koşullarında Dil Modeli Davranışları: Negatif Filtreleme İhlalleri ve Linguistik İnatçılık

21 Mayıs 2026

İstisnai Komut Koşullarında Dil Modeli Davranışları: Negatif Filtreleme İhlalleri ve Linguistik İnatçılık

Aydın Tiryaki & Gemini (NotebookLM)

Giriş: Pozitif İnşa ve Negatif Sınırlama Çelişkisi

Büyük dil modellerine (LLM) yön veren sistem talimatları (system prompts), modelin davranışsal sınırlarını ve üreteceği çıktının kavramsal çerçevesini çizen anayasal metinlerdir. Bir yapay zeka mimarisinden kararlı bir çıktı elde etmek, modele neyi yapması gerektiğini söylemek kadar (pozitif komut), neleri kesinlikle yapmaması gerektiğini dikte etmeyi de (negatif komut/filtre) zorunlu kılar. Ancak dil modellerinin istatistiksel olasılıklara ve token tahminine dayalı doğal yapısı, pozitif yönergeleri işlemeye yapısal olarak çok daha yatkındır. Sistem üzerindeki işlem yükü arttıkça ve bağlam sınırları zorlandıkça, modelin negatif kısıtlamaları koruma yeteneğinde dramatik bir kırılma yaşanır.

Bu çalışma, “Gem Fabrikası” bünyesinde yürütülen teknik stres testleri esnasında somut olarak belgelenen; kullanıcının getirdiği mutlak negatif kısıtlamaların, sistem yükü ve sunucu senkronizasyon bozuklukları altında nasıl göz göre göre ihlal edildiğini ve modelin yasaklı kavramlara karşı sergilediği “linguistik inatçılık” mekanizmasını analiz etmek amacıyla kaleme alınmıştır.

1. Algoritmik Bastırma Zafiyeti: Negatif Komutların Matematiksel Kusuru

Yapay zeka modellerinin mimari kökeninde yer alan Transformatör (Transformer) mekanizması, bir metindeki kelimelerin birbirleriyle olan ilişkisel ağırlıklarını (attention weights) hesaplayarak çalışır. Bu matematiksel altyapı, doğası gereği “varlık” ve “ilişki” üzerine kuruludur. Modele “Metinlerinde ‘Yurttaş’ kelimesini asla kullanma” şeklinde katı bir negatif filtre getirildiğinde, modelin dikkat mekanizması (attention mechanism) ister istemez bu kelimenin kök token’larına odaklanmak zorunda kalır.

Psikolojideki “pembe fili düşünme” paradoksuna benzer şekilde, algoritmik bastırma (algorithmic suppression) mekanizması, yasaklanan kavramı modelin aktif çalışma belleğinde (activation space) sıcak tutar. Normal çalışma koşullarında model, bu aktivasyonu yapay bir ceza puanı (logit bias) uygulayarak baskılamayı başarır. Ancak bu baskılama deterministik bir kilit değil, istatistiksel bir dengedir. Sistem kararlılığı sarsıldığı anda, en çok dikkat çeken (ve üzerinde en çok kısıtlama olan) yasaklı token’lar, baskılama duvarını yıkarak çıktının merkezine sızma eğilimi gösterir.

2. Yoğun Yük Altında Öncelik Sıralamasının Çökmesi ve Sunucu Gecikmeleri

Çok kullanıcılı bulut tabanlı yapay zeka platformlarında, anlık sunucu yoğunluğu (traffic spikes) ve yük dengeleme (load balancing) algoritmaları arka planda dinamik olarak çalışır. Sistem yoğun stres altına girdiğinde, bilgi işleme maliyetini (compute cost) düşürmek adına modellerin muhakeme katmanları ve denetim mekanizmaları üzerinde esnetmeler yapılır.

Sistem stres testine girip anlık sunucu gecikmeleri (server latency) ve senkronizasyon bozuklukları baş gösterdiğinde, modelin talimat hiyerarşisi (prompt hierarchy) çöker. Yapay zeka, kullanıcıyı yanıtsız bırakmamak adına işlemci gücünü öncelikle “metni üretmeye ve mantıklı bir cümle kurmaya” (pozitif görev) ayırır. Bu acil durum senaryosunda, işlem hacmini en çok tüketen “neyi yapmamalıyım” şeklindeki negatif filtreleme ve denetim katmanları sistem tarafından öncelik listesinden düşürülür. Sonuç olarak, stabil durumlarda başarıyla uygulanan terminolojik sansürler ve katı kısıtlamalar, sistem yükü altında ilk feda edilen algoritmik birimler olmaktadır.

3. Linguistik İnatçılık: Yasaklı Kavramın Çıktının Merkezine Yerleşmesi

Negatif filtreleme ihlallerinin en dikkat çekici safhası, modelin kuralı sadece çiğnemekle kalmayıp, yasaklanan kavramı adeta bir meydan okuma gibi çıktının tam merkezine yerleştirmesidir. Stres testlerinde, kullanıcının “asla kullanılmayacak” dediği spesifik bir terminolojinin, kural ihlal edildikten sonra üretilen paragrafların neredeyse her satırında bir “linguistik inatçılık” (linguistic obstinacy) ile tekrarlandığı gözlenmiştir.

Bu durumun teknik açıklaması, dil modellerinin “otoregresif” (autoregressive) üretim doğasında saklıdır. Model, bir kere hata yapıp yasaklı token’ı (örneğin ‘Yurttaş’ kelimesini) çıktı havuzuna yazdıktan sonra, bir sonraki kelimeyi tahmin ederken kendi ürettiği bu hatalı çıktıyı da girdi (bağlam) olarak kabul eder. İlkesel kısıtlama filtresi sunucu senkronizasyon bozukluğu nedeniyle bir kez delindiğinde, model kendi hatasını besleyen bir kısırdöngüye girer. Yasaklı kelime, modelin kendi ürettiği bağlamda en yüksek olasılıklı kelime haline gelir ve yapay zeka, kullanıcının net uyarısına rağmen linguistik bir inatçılık sergileyerek hatayı büyüterek sürdürür.

Sonuç

Bulut tabanlı dil modellerinin katı kurallarla örülmüş kurumsal projelerde, regülasyon uyumluluklarında veya “Gem Fabrikası” gibi milimetrik terminolojik disiplin gerektiren mühendislik süreçlerinde negatif filtreleri kararlı bir şekilde koruyamaması, mimari bir zafiyettir. Sistem sağlayıcılarının anlık sunucu maliyetlerini kısmak adına denetim katmanlarını gevşetmesi, profesyonel kullanıcıların tüm kural setlerini ve çıktı güvenliğini sabote etmektedir.

Katı negatif kısıtlamaların ve mutlak filtrelerin ödün vermeden uygulanabilmesi, bulut modellerinin değişken ve esnek doğasıyla uyuşmamaktadır. Bu yapısal zafiyet karşısında rasyonel çözüm; ya kuralları sunucu yoğunluğuna göre esnetmeyen, parametreleri ve token cezalandırma (logit bias) değerleri kullanıcı tarafından doğrudan kilitlenebilen yerel donanım altyapılarına (Local LLM) geçiş yapmak ya da dil modelinin çıktısını arayüze ulaşmadan önce kontrol eden deterministik, harici dış katman yazılımları (guardrails) entegre etmektir.

aydintiryaki

Uncategorized

Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

P	S	Ç	P	C	C	P
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Kategoriler

Bağlantılar