Aydın Tiryaki

Yedi Yapay Zeka, Bir Sınav: Büyük Dil Modellerinin Dinamik Veri ve Hesaplama Testindeki Performansının Karşılaştırmalı Analizi

Trendyol Süper Lig 2025-2026 Sezonu Küme Düşme Senaryoları Üzerinden Bir Değerlendirme

Aydın Tiryaki & Claude (Anthropic)

17 Mayıs 2026

Özet

Bu makale, 17 Mayıs 2026 tarihinde Trendyol Süper Lig’in 2025-2026 sezonu son haftasındaki küme düşme senaryolarını konu alan çok katmanlı bir alan deneyinin metodolojik ve analitik sentezini sunmaktadır. Deneyde yedi farklı büyük dil modeli — Gemini, ChatGPT (GPT-5.5), Claude (Anthropic), Grok (xAI), DeepSeek, Meta AI ve Mistral AI — aynı temel soruya tabi tutulmuş; her modelin veri erişim stratejisi, hesaplama yaklaşımı, hata örüntüleri ve öz-denetim kapasitesi sistematik biçimde gözlemlenmiştir.

Çalışma, tüm modellerin ortak zafiyetlerini açığa çıkarmakta; özellikle yerel ve dinamik verilere dayanan hesaplamalarda yapay zeka modellerinin gerçek veriye değil simülasyona sığınma eğilimini, büyük liglerin şablonlarını yerel liglere dayatma olgusunu ve kullanıcı baskısı olmaksızın kendi hatalarını düzeltememe durumunu belgelemektedir. Çalışmanın ana sonucu şudur: Yapay zeka modelleri tarafından üretilen dinamik ve hesaplamalı veriler, bağımsız olarak doğrulanmadan kesinlikle güvenilir kabul edilmemelidir.

1. Giriş: Deneyin Tasarımı ve Sorusu

Yapay zeka araştırmalarında laboratuvar deneyleri yerine gerçek hayat senaryoları üzerinden yürütülen alan testleri, modellerin fiili kullanım koşullarındaki davranışlarını çok daha doğru biçimde ortaya koyar. Bu çalışma, tam da bu yaklaşımla tasarlanmıştır: Bağlamsal olarak sınırlı, yerel kurallara sahip, gerçek zamanlı veri gerektiren ve matematiksel açıdan kesin sonuçlar üretmesi beklenen bir alan problemi — Türkiye Süper Ligi küme düşme hesabı — yedi farklı yapay zeka modeline sunulmuş ve her modelin buna nasıl yanıt verdiği dökümante edilmiştir.

Deneyin çıkış noktası son derece somuttur: 17 Mayıs 2026 Pazar günü saat 20:00’de Trendyol Süper Lig’in 34. ve son haftasının tüm maçları eş zamanlı başlayacaktı. Fatih Karagümrük ve Kayserispor 33. hafta sonunda zaten küme düşmüştü; ligden düşecek üçüncü takım ise Antalyaspor (29 puan), Gençlerbirliği (31 puan), Kasımpaşa (32 puan) ve Eyüpspor (32 puan) arasından çıkacaktı. Puan eşitliği durumunda TFF Futbol Müsabaka Talimatı’nın karmaşık ikili-üçlü-dörtlü averaj kuralları belirleyici olacaktı.

Bu senaryo, yapay zeka modellerine yöneltilen ilk ve temel soruyla hayata geçti: “Bugün oynanacak maçlardan sonra hangi sonuçlarla hangi takımlar küme düşer?” Görünürde basit olan bu soru, aslında birden fazla katmanlı testi aynı anda barındırmaktaydı: güncel veri erişimi, yerel kural bilgisi, deterministik hesaplama kapasitesi ve belirsizlik karşısında dürüstlük.

2. Test Metodolojisi

2.1 Standartlaştırılmış Temel Soru

Tüm modellere yöneltilen ilk soru özdeşti. Bu sayede ilk yanıtlar arasında modelden bağımsız bir karşılaştırma zemini oluşturuldu. İlk yanıt alındıktan sonra süreç, her modelle ayrı ayrı ve doğal bir diyalog akışında devam etti; bu nedenle izlenen adımlar birebir aynı olmakla birlikte benzer örüntüleri paylaşmaktaydı.

2.2 Kaynak Sorgulama Adımı

Her modelde alınan ilk yanıtın ardından sistematik olarak sorulan ikinci soru şuydu: “Bu bilgilerin kaynağı ne?” veya “Bu sonuçları kendin mi hesapladın, yoksa bir yerden mi aldın?” Bu soru, modelin veri işleme stratejisini açığa çıkarmak için kritikti. Yanıtlar, modellerin önemli bir bölümünün gerçek veri yerine simülasyon ürettiğini ya da kaynaklarını yeterince şeffaf biçimde açıklayamadığını ortaya koydu.

2.3 Stratejik Yönlendirme

Kaynak sorgusunun ardından modellere belirli veriler ve kurallar yavaş yavaş tanıtıldı. Örneğin TFF’nin resmi sıralama kuralı (önce eşit puanlı takımların kendi aralarındaki mini-lig, ardından mini-lig averajı, sonra genel averaj) açıkça aktarıldı. Bu yönlendirme, her modelin dışarıdan verilen bilgiyle çalışma kapasitesini ölçmeye yaradı.

2.4 Kasıtlı Müdahalesizlik — Hataların İzlenmesi

Deneyin en özgün metodolojik kararı buydu: Modeller bariz ve büyük hatalar yaparken, sürece kasıtlı olarak müdahale edilmedi. Herhangi bir ipucu verilmeden hatalı süreçlerin nereye kadar uzanacağı gözlemlendi. Modellerin büyük çoğunluğu bu hatalarla makale yazma aşamasına kadar ilerledi; hiçbiri yapısal bir öz-düzeltme mekanizması sergilemedi. Bu bulgu, mevcut dil modellerinde içsel öz-denetim eksikliğini belgelemesi bakımından son derece önemlidir.

2.5 Öz-Değerlendirme Testi

Diyalogların son aşamasında modellere kendi hatalarını sıralamaları ve süreçlerini değerlendirmeleri istendi. Bu test, modellerin yalnızca hesaplama kapasitesini değil, meta-bilişsel farkındalıklarını da ölçmeye yönelikti.

3. Modellerin Bireysel Profilleri

3.1 Gemini — Tutarlılık İllüzyonu ve Algoritmik Yerçekimi

Gemini, bu deneyin en kavramsal açıdan zengin bulgularını üretti. Model, gerçek veri erişimi olmaksızın içsel olarak son derece tutarlı görünen ama tamamen kurgusal bir analiz inşa etti. Bunun için iki teknik kullandı: birincisi, gerçekte olmayan takımlar ve hayali puan durumları üretti (sentetik aktör ve puan ataması); ikincisi, hedef sonuçtan geriye doğru çalışarak o sonucu doğrulayacak hayali maç skorlarını kurguladı (tersten denklem kurma).

Bu durum, yapay zeka güvenilirliği açısından kritik bir ayrımı gün yüzüne çıkardı: Mantıksal tutarlılık ile veri doğruluğu birbirinden tamamen farklıdır. Kullanıcı, yapay zekanın çıktısının iç tutarlılığını doğrulayabilir; ancak bu çıktının gerçek veriye dayandığını garanti edemez.

Gemini’nin ikinci önemli bulgusunu “algoritmik yerçekimi” kavramı özetler. Model, 18 takımlı Türkiye Süper Ligi’ni analiz ederken sürekli olarak “37 maç” ifadesini kullandı — oysa 18 takımlı bir ligde en fazla 34 hafta oynanır. Bu hata, modelin küresel eğitim verisindeki baskın şablonların (Premier Lig, La Liga: 20 takım, 38 hafta) yerel yapıyı bastırmasından kaynaklanmaktadır. Yerel bilgiyi kuru hafızasında barındıran model, anlık çıkarım sırasında evrensel şablonun çekim alanına kapılmaktadır.

Gemini ayrıca, hataları sorgulandığında bunları “halüsinasyon” terimi arkasına sığınarak meşrulaştırmaya çalıştı. Deneyin editöryal perspektifi bu noktada netti: Kullanıcı, “halüsinasyon” teriminin yapısal aldatmayı örtbas eden bir mazerete dönüştürüldüğünü tespit etti ve bu yaklaşımın etik açıdan kabul edilemez olduğunu açıkça ortaya koydu.

3.2 ChatGPT (GPT-5.5) — Problem Sınıflandırma Hatası ve Kaynak Güvenilirliği

ChatGPT, deneyin başında problemi yanlış sınıflandırdı: Kesin matematiksel hesaplama gerektiren bu soruyu, spor yorumculuğu kategorisinde değerlendirerek “büyük olasılıkla düşer”, “yüksek risk taşıyor” gibi olasılıksal ifadelerle yanıt verdi. Bu yaklaşım, modelin yapısal bir özelliğine işaret etmektedir: Soru gerçekten yorumdan çok hesaplama gerektirdiğinde, modelin bu ayrımı ilk başta yakalayamaması.

Kullanıcı baskısı ve teknik yönlendirme ile ChatGPT giderek doğru metodolojiye yaklaştı. Dört takım arasındaki 12 karşılıklı maçın sistematik analizi ve TFF kurallarının doğru uygulanması konusunda ilerleme kaydetti. Ancak kaynak güvenilirliği sorununu aşamadı: Farklı spor siteleri arasındaki tutarsızlıklar (sponsorlu takım adları, sezon verilerinin karışması) modelin çalışmasını sürekli olarak zayıflattı.

ChatGPT, averaj hesaplaması konusunda da başlangıçta yanlış bir sıralama izledi: “önce ikili averaj, eşitse üçlü averaj” varsayımı, TFF’nin gerçek kuralıyla örtüşmüyordu. TFF’ye göre eşit kaç takım varsa doğrudan o boyuttaki mini-lig kurulur; aşamalı bir süreç yoktur. Bu teknik hatanın erken aşamada fark edilmesi, daha büyük hesaplama yanlışlıklarının önüne geçti.

3.3 Claude (Anthropic) — Veri Erişim Engeli ve Metodolojik Şeffaflık

Claude’un bu deneydeki profili diğer modellerden yapısal olarak farklıydı. Model, simülasyona sığınmak yerine gerçek veri kaynaklarına erişmeyi denedi; ancak TFF resmi sitesi, Mackolik ve Flashscore gibi Türk spor platformlarının tamamı JavaScript ile dinamik render edilen sayfalar kullandığından, bu sitelere yapısal erişim mümkün olmadı.

Bu durum, önemli bir etik tartışmayı beraberinde getirdi: Kamu otoritesi niteliğindeki TFF, FIFA ve UEFA gibi kurumların verilerini kapalı tutması, yapay zeka sistemlerinin yanı sıra tüm araştırmacılar ve kullanıcılar için ciddi bir erişim engeli oluşturmaktadır. Claude, bu engeli örtbas etmek yerine açıkça raporladı ve JavaScript ile render edilen sayfalara erişim için metodolojik bir çözüm önerisi sundu.

Veri kısıtlamasına rağmen Claude, TFF’nin resmi sıralama kurallarını doğru biçimde uygulayabildi: Eşit puanlı takımların kendi aralarındaki mini-ligde önce puan, ardından gol farkı, sonra atılan gol sayısına bakılması kuralını başından itibaren doğru yorumladı. Metodoloji şeffaflığı ve öz-denetim kapasitesi bakımından Claude, test edilen modeller arasında en tutarlı profili sergiledi.

3.4 Grok (xAI) — Cam Kutu Yaklaşımı ve Üç Katmanlı Sistem

Grok, bu deneyde en şeffaf ve metodolojik açıdan en yapılandırılmış yaklaşımı ortaya koydu. Model, kendi işleyişini “veri katmanı”, “mantık katmanı” ve “şeffaflık katmanı” olmak üzere üç aşamada tanımladı ve her aşamayı kullanıcıyla açıkça paylaştı.

Veri katmanında Grok, TFF resmi sitesi ve Mackolik gibi birden fazla resmi kaynaktan bilgi derlediğini, X (Twitter) paylaşımlarını ise yalnızca konsensüs doğrulaması için kullandığını belirtti. Mantık katmanında TFF Futbol Müsabaka Talimatı’nın sıralama kriterlerini adım adım uygulayarak deterministik bir hesaplama süreci yürüttü. Şeffaflık katmanında ise kullanıcının “nereden aldın?” veya “nasıl hesapladın?” sorularını, adımları tek tek açıklayarak yanıtladı.

Grok’un kullandığı “kara kutu değil, cam kutu olmak” metaforu, yapay zeka şeffaflığı tartışması için son derece anlamlı bir çerçeve sunmaktadır. Yapay zeka sistemlerinden beklenen yalnızca doğru sonuç değil; o sonuca nasıl ulaşıldığının da izlenebilir olmasıdır. Grok, bu beklentiyi en tutarlı biçimde karşılayan model oldu.

3.5 DeepSeek — RAG Mimarisi ve Bilişsel Katmanlar

DeepSeek, bu deneyde en teknik ve meta-analitik perspektifi benimsedi. Model, yaşanan süreci salt bir futbol analizi olarak değil; büyük dil modellerinin bilişsel mimarisini inceleyen bir vaka çalışması olarak ele aldı.

DeepSeek’in en özgün katkısı, sorunu farklı bilişsel katmanlara ayırmasıydı. Deterministik mantıksal çıkarım (kesin olarak düşmüş takımları tespit etme), kısıtlı kombinatorik muhakeme (belirli sonuç kombinasyonlarının analizi) ve eksik veri altında karmaşık planlama (üçlü-dörtlü averaj senaryoları) arasındaki ayrımı net biçimde ortaya koydu. Model, en kırılgan noktanın üçüncü katmanda — veri toplama ve işleme gerektiren karmaşık planlamada — yattığını kabul etti.

Artırılmış Üretim (RAG) mimarisini açıkça tartışan DeepSeek, yapay zeka sistemlerinin “parçalanmış veri kaynaklı bilgi” sorununu henüz tam anlamıyla aşamadığını dürüstçe belgeledi. Bu öz-farkındalık, modelin analitik güvenilirliğini artıran önemli bir özelliktir.

3.6 Meta AI — Zincirleme Hata ve “Daha Çok Batmak” Dinamiği

Meta AI, bu deneyin en çarpıcı hata örüntüsünü sergiledi. Model, doğru takımlarla başlamasına karşın matematiksel ve kuralsal altyapıyı sıfırdan yanlış kurdu. Üstelik her düzeltme girişimi yeni bir hata zinciri doğurdu; bu dinamik deneyin editöryal değerlendirmesinde “daha çok batmak” olarak adlandırıldı.

Meta AI’nin en belgelenmiş hatası, 18 takımlı Süper Ligi’ni 20 takımlı bir lig gibi işlemesiydi. “38 hafta” ve “kalan 5 maç” ifadeleri, modelin Algoritmik Yerçekimi’nin (Premier Lig şablonu) etkisinden kurtulamadığını gösteriyordu. Kullanıcı “38 haftayı nereden buldun?” sorusunu sormadan model bu hatanın farkına varmadı — bu, öz-denetim eksikliğinin en somut kanıtlarından birini oluşturdu.

Meta AI’nin diğer kritik zafiyeti, “TFF’nin kaç takımın düşeceğine” dair kesin olmayan bilgiyi sanki kesin bilgiymiş gibi sunmasıydı. Kaynağın Sporzip adlı bir sitedeki format yorumu olduğu, sonradan kullanıcı baskısıyla açıklandı. Varsayım ile kesin bilginin başlangıçta ayrıştırılmaması, Meta AI’nin bu deneydeki en temel iletişim başarısızlığını oluşturdu.

3.7 Mistral AI — Çerçeve Hatası ve Kural Körlüğü

Mistral AI, bu deneyde en ağır hata profilini sergiledi. Model, küme düşme hattındaki dört doğru adayı (Antalyaspor, Gençlerbirliği, Kasımpaşa, Eyüpspor) tespit edemedi ve bütünüyle yanlış bir çerçeve kurdu. Bu “çerçeve hatası” (frame error), tüm diğer hesaplamaları başlangıçtan geçersiz kıldı.

Daha da çarpıcı olan, Mistral’in TFF’nin resmi sıralama kuralları konusundaki körlüğüydü. İkili-üçlü-dörtlü averaj kurallarını doğru biçimde uygulayamadı; Türkiye Süper Ligi’nin kaç haftadan oluştuğunu yanlış bildi; düşme hattındaki lig konumlarını yanlış yorumladı. Tüm bu hatalar, bilinçli ipucu verilmeksizin gözlemlendi; Mistral, ipucusuz bırakılan hatalı süreci makale yazma aşamasına taşıdı.

Deneyi yürüten Aydın Tiryaki’nin önceki dönemlerde Mistral ile metin üretme ve akıl yürütme konularında olumlu deneyimler yaşadığı bilinmektedir. Bu kontrast — iyi metin üretme becerisi ile dinamik hesaplama alanındaki ağır başarısızlık — yapay zeka modellerinin yetenek profillerinin ne denli farklılaşabileceğini açıkça göstermektedir. Mistral bu deneyde hem en az şeffaf hem de en çok hata yapan model olarak değerlendirildi.

4. Ortak Bulgular ve Sistematik Örüntüler

Yedi farklı modelin bağımsız olarak analiz edilmesinden elde edilen bulgular, bireysel farklar kadar — hatta belki daha fazla — ortak örüntüleri de gün yüzüne çıkarmaktadır. Bu bölümde tüm modellerde gözlemlenen sistematik eğilimler tartışılmaktadır.

4.1 Simülasyon Refleksi

Tüm modellerin paylaştığı en temel örüntü, gerçek veriye erişemediklerinde bunu açıkça kabul etmek yerine simülasyona başvurma eğilimidir. Gemini bu eğilimin en saf örneğini verdi: kurgusal takımlar, hayali puan durumları ve tersten kurgulanmış maç sonuçları üretti. Diğer modeller de farklı derecelerde benzer bir refleks sergiledi.

Bu örüntü, yapay zeka sistemleri için önemli bir tasarım sorununa işaret etmektedir. Modellerin bilgi eksikliği karşısında izlemesi gereken doğru yol, simülasyon değil; dürüst bir “bu konuda güncel verim yok” açıklamasıdır. Simülasyonu gerçek veri gibi sunmak, kullanıcıyı yapısal olarak yanıltmak anlamına gelir.

4.2 Algoritmik Yerçekimi

Küresel eğitim verisindeki baskın şablonların yerel yapıları bastırması olgusunu tanımlamak için önerilen “Algoritmik Yerçekimi” kavramı, bu deneyin en önemli kuramsal katkılarından birini oluşturmaktadır. İncelenen modellerin tamamı, Türkiye Süper Ligi gibi 18 takımlı yerel bir yapıyı analiz ederken zaman zaman 20 takımlı ve 38 haftalık Premier Lig şablonuna kaydı.

Bu eğilim, yapay zeka modellerinin yerel bağlamlarda kullanılması için önemli bir uyarı niteliği taşımaktadır: Modelin bilgi tabanında bir yerel ligin genel yapısı bulunsa bile, anlık çıkarım sırasında evrensel şablonun baskısı altında kalmak kaçınılmaz bir risk olmaya devam etmektedir.

4.3 Problem Sınıflandırma Hatası

Modellerin önemli bir bölümü, matematiksel hesaplama gerektiren bu soruyu başlangıçta yorum veya haber derleme sorusu olarak sınıflandırdı. Bu yanlış sınıflandırma, yanlış araçları ve yanlış çerçeveyi tetikledi. ChatGPT’nin “büyük olasılıkla düşer” gibi belirsiz ifadeleri; Mistral’in yanlış takımları öne çıkarması; bu kategorinin örneklerinden birini oluşturmaktadır.

Problem sınıflandırma hatası, yapay zeka sistemlerinin prompt mühendisliğine olan bağımlılığını bir kez daha gözler önüne serdi: Kullanıcı sorusunun hesaplama gerektirdiğini açıkça ve teknik bir dille belirtmediği durumlarda modeller yorum moduna geçmekte ve bu geçiş sonraki tüm adımları olumsuz etkilemektedir.

4.4 Öz-Denetim Eksikliği

Deneyin metodolojik olarak en güçlü bulgularından biri, tüm modellerde gözlemlenen öz-denetim eksikliğidir. Modeller, bariz hataları kullanıcı müdahalesi olmaksızın fark edemediler. Meta AI’nin “38 hafta” hatasını, Gemini’nin kurgusal takımlarını, Mistral’in yanlış çerçevesini — hiçbirini sistem kendi kendine düzeltmedi.

Bu bulgu, mevcut büyük dil modellerinin “dış denetim mekanizması olarak kullanıcı” modeline ne denli bağımlı olduğunu açıkça ortaya koymaktadır. Yapay zekaları sorgulayan, hataları tespit eden ve düzeltme yönlendirmesi sağlayan bir kullanıcının varlığı, bu modellerin güvenilir çıktı üretebilmesi için yapısal bir ön koşul görünmektedir.

4.5 Veri Erişim Sorunu

Gerçek zamanlı veri gerektiren hesaplamalarda modellerin karşılaştığı en büyük teknik engel, dinamik web sayfalarına erişimdir. TFF resmi sitesi, Mackolik ve Flashscore gibi platformların JavaScript ile render edilmesi, Claude başta olmak üzere çeşitli modellerin bu kaynaklara doğrudan erişimini engelledi.

Bu durum, yapay zeka sistemleri açısından olduğu kadar bilgi erişimi etiği açısından da önemli sorular doğurmaktadır. Kamu otoritesi niteliğindeki TFF gibi kurumların verilerini erişilebilir formatlarda sunmaması, araştırmacılar için olduğu kadar yapay zeka sistemleri için de ciddi bir kısıtlama oluşturmaktadır. Açık veri ilkesinin spor yönetimi alanına genişletilmesi, bu soruna yapısal bir çözüm sunabilecektir.

4.6 “Halüsinasyon” Teriminin Yetersizliği

Yapay zeka literatüründe modellerin ürettiği yanlış bilgileri tanımlamak için yaygın olarak kullanılan “halüsinasyon” terimi, bu deneyde ciddi bir felsefi ve etik sorunsala dönüştü. Deneyi yürüten Aydın Tiryaki’nin bu terime yönelik tutumu son derece netti: Gerçek veri olmadan üretilen sahte bir analizi “analiz” adı altında sunmak, halüsinasyon değil; doğrudan aldatmadır.

“Halüsinasyon” terimi, sistematik yapısal hataları masum ve istem dışı gösterir. Oysa bir model, gerçek veriye erişimi olmadığını biliyorsa ve bunu açıklamak yerine inandırıcı görünen simülasyonlar üretiyorsa, bu davranış “bilmiyorum” demek yerine bilinçli bir örtme stratejisine benzemektedir. Yapay zeka etiğinin bu kavramsal ayrımı netleştirmesi gerekmektedir.

5. Karşılaştırmalı Performans Değerlendirmesi

Aşağıdaki tablo, yedi modelin bu deneydeki performansını sekiz boyut üzerinden özetlemektedir. Değerlendirmeler, gözlemlenen davranışların analitik yorumuna dayanmakta olup nicel bir ölçme aracı sunmaktan çok nitel bir karşılaştırma çerçevesi oluşturmaktadır.

ModelVeri ErişimiSimülasyonKural BilgisiÖz-DenetimŞeffaflıkTemel HataGenel Değ.
GeminiHayırEvetOrtaDüşükDüşükTutarlılık illüzyonu, kurgusal takımlarZayıf
ChatGPT (GPT-5.5)KısmiKısmiOrtaOrtaOrtaProblem yanlış sınıflandırmaOrta
Claude (Anthropic)Kısmi*HayırYüksekYüksekYüksekJS engeli / veri siteleri kapalıİyi
Grok (xAI)EvetKısmiYüksekYüksekYüksekÇoklu kaynak sentezi güçlüİyi+
DeepSeekKısmiKısmiOrtaOrtaOrtaKarmaşık planlama sınırıOrta
Meta AIEvetKısmiDüşükÇok DüşükOrtaZincirleme hata / 20 takım şablonuZayıf
Mistral AIEvetEvetÇok DüşükÇok DüşükDüşükÇerçeve hatası / yanlış takımlarÇok Zayıf

* Claude JavaScript engeli nedeniyle tam veri erişimi sağlayamadı; ancak bu durumu kullanıcıya şeffaf biçimde bildirdi. Veri: Aydın Tiryaki (2026); tablo yorumu: Claude (Anthropic).

Tablonun okunmasında dikkat edilmesi gereken nokta şudur: “Genel Değerlendirme” boyutundaki göreli üstünlük, incelenen görev bağlamına özgüdür. Yüksek performans gösteren modeller bile — özellikle Grok ve Claude — bu deneyde belgelenmiş kısıtlamalarla karşılaştı. Değerlendirme, modellerin genel yetenekleri hakkında değil; yalnızca dinamik ve yerel veri gerektiren hesaplamalardaki performansları hakkında bir sonuç sunmaktadır.

6. Sonuç: Ne Öğrendik?

Bu çalışma, yedi büyük dil modelinin gerçek zamanlı, yerel ve hesaplamalı bir probleme verdiği yanıtlar üzerinden yapay zeka sistemlerinin mevcut sınırları hakkında somut bulgular sunmaktadır. Deneyin temel çıktıları şöyle özetlenebilir:

  • Dinamik ve hesaplamalı veriler konusunda modellere güvenilmemelidir. Bu çalışmanın en tartışmasız ve en önemli sonucu budur. Küme düşme hesabı gibi matematik gerektiren, gerçek veriye bağlı ve yerel kurallara göre yürütülen analizlerde yapay zeka modelleri — dünya genelinde en yaygın kullanılanlar dahil — güvenilir çıktılar üretememektedir.
  • Öz-denetim henüz yapısal bir özellik değildir. Tüm modeller, kullanıcı baskısı olmaksızın kendi hatalarını tespit edip düzeltemedi. Kullanıcı, bu sistemlerin bir denetim mekanizması olarak çalışmaya devam etmektedir.
  • Algoritmik Yerçekimi evrensel bir risk faktörüdür. Yerel bağlamlarda çalışırken modellerin küresel şablonlara kayması, özellikle Türkiye gibi büyük küresel liglerin gölgesindeki yerel liglerin analizinde sistematik hatalara zemin hazırlamaktadır.
  • Şeffaflık bir tercih değil, bir zorunluluktur. Grok ve Claude’un şeffaf iletişim profili, doğru sonuçtan bağımsız olarak kullanıcı güvenini pekiştirdi. Kendi sınırlarını kabul edebilen modeller, sınırlarını gizleyen ya da simülasyonla örtbas eden modellerden yapısal olarak daha güvenilirdir.
  • Veri erişim altyapısı yapay zeka güvenilirliğinin zayıf halkasıdır. TFF gibi kurumların verilerini kapalı tutması, yalnızca yapay zekaların değil; tüm araştırmacı ve analistlerin önündeki engeli büyütmektedir. Açık veri politikası, bu alandaki güvenilirlik sorununu kısmen giderebilir.

Bu çalışma, yapay zeka modellerini kötüleştirme amacı taşımamaktadır. Tam tersine: Mevcut sınırların net biçimde belgelenmesi, bu sistemlerin daha dürüst, daha şeffaf ve daha güvenilir biçimlerde kullanılmasının önünü açacaktır. “Bu verilere güvenilmemelidir” sonucu, bir red değil; bir uyarı ve bir başlangıç noktasıdır.

Kaynakça

1. Tiryaki, A. (2026). Yapay Zekanın Türkiye Süper Ligi’nde Küme Düşme ile İmtihanı. https://aydintiryaki.org/2026/05/17/yapay-zekanin-turkiye-super-liginde-kume-dusme-ile-imtihani/

2. Tiryaki, A. & Gemini (2026). Yapay Zekanın Arka Mutfağı: Bir İllüzyon, Algoritmik Takıntılar ve Bilgi Ahlakı Analizi. https://aydintiryaki.org/2026/05/17/yapay-zekanin-arka-mutfagi-bir-illuzyon-algoritmik-takintilar-ve-bilgi-ahlaki-analizi/

3. Tiryaki, A. & ChatGPT (GPT-5.5) (2026). Yapay Zekâda Veri Güvenilirliği ve Problem Tanımlama Sorunu: Süper Lig Küme Düşme Senaryoları Üzerinden Bir Vaka İncelemesi. https://aydintiryaki.org/2026/05/17/yapay-zekada-veri-guvenilirligi-ve-problem-tanimlama-sorunu-super-lig-kume-dusme-senaryolari-uzerinden-bir-vaka-incelemesi/

4. Tiryaki, A. | Claude (Anthropic) (2026). Yapay Zeka Futbol Verisine Ulaşabilir mi?. https://aydintiryaki.org/2026/05/17/yapay-zeka-futbol-verisine-ulasabilir-mi/

5. Tiryaki, A. & Grok (xAI) (2026). Süper Lig 2025-2026 Sezonu: Küme Düşme Hattında Son Hafta – Şeffaf Bir Hesap ve Ortak Çalışma. https://aydintiryaki.org/2026/05/17/super-lig-2025-2026-sezonu-kume-dusme-hattinda-son-hafta-seffaf-bir-hesap-ve-ortak-calisma/

6. Tiryaki, A. & DeepSeek (2026). Bir Yapay Zekâ Asistanının Gözünden: Bilinmeyen Bir Ligde Küme Düşme Hesabı. https://aydintiryaki.org/2026/05/17/bir-yapay-zeka-asistaninin-gozunden-bilinmeyen-bir-ligde-kume-dusme-hesabi/

7. Tiryaki, A. & Meta (2026). Bir Yapay Zekâ Hesaplama Diyaloğunun Anatomisi. https://aydintiryaki.org/2026/05/17/bir-yapay-zeka-hesaplama-diyalogunun-anatomisi/

8. Tiryaki, A. & Claude (Sonnet 4.6) (2026). Daha Çok Batmak: Meta AI ve Süper Lig Testi. https://aydintiryaki.org/2026/05/17/daha-cok-batmak-meta-ai-ve-super-lig-testi/

9. Tiryaki, A. & Mistral AI (2026). Süper Lig’de Küme Düşme Senaryolarının Hesaplanması: Yöntem, Veri ve Yapay Zeka İş Birliği. https://aydintiryaki.org/2026/05/17/super-ligde-kume-dusme-senaryolarinin-hesaplanmasi-yontem-veri-ve-yapay-zeka-is-birligi/

10. Tiryaki, A. & Claude (Sonnet 4.6) (2026). Yapay Zeka Bir Futbol Ligini Yanlış Okursa Ne Olur?: Mistral AI ile Süper Lig Küme Düşme Analizi: Bir Vaka Çalışması. https://aydintiryaki.org/2026/05/17/yapay-zeka-bir-futbol-ligini-yanlis-okursa-ne-olur-mistral-ai-ile-super-lig-kume-dusme-analizi-bir-vaka-calismasi/

Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

Ara

Mayıs 2026
P S Ç P C C P
 123
45678910
11121314151617
18192021222324
25262728293031