Aydın Tiryaki

Yapay Zeka Modelleri Performans ve Matematiksel Doğruluk Analiz Raporu (NotebookLM)

NotebookLM

1. Deney Metodolojisi ve Stratejik Kapsam

Bu rapor, günümüz yapay zeka ekosistemine yön veren 11 farklı modelin (Gemini, ChatGPT, Claude, DeepSeek, Grok, Mistral, Copilot, Perplexity, Meta, Kimi ve Qwen) matematiksel akıl yürütme, mantıksal tutarlılık ve talimat sadakati yetkinliklerini ölçen kapsamlı bir meta-analiz sunmaktadır. Bu analiz, modellerin sadece ham veri üretme kapasitesini değil, aynı zamanda birbirlerini denetleme (cross-audit) ve karmaşık kurumsal direktifleri uygulama disiplinlerini ölçmesi bakımından stratejik bir kıstas teşkil etmektedir.

Deney süreci akademik bir titizlikle kurgulanan “4 Perde” üzerinden yapılandırılmıştır:

  1. Zorlu Görev: Modellerin “Fibonacci Dizisi ve Asal Sayıların Kesişimi” üzerine, içinde matematiksel tuzaklar barındıran teknik bir makale üretmesi.
  2. Teknik Engel: Üretilen içeriklerin indeksleme sorunları nedeniyle Gemini tarafından doğrudan okunamaması üzerine gelişen kriz ve süreç yönetimi.
  3. Kör Test (Blind Test): Claude 3.5 Sonnet’in, kriterlerin rakibi Gemini tarafından hazırlandığını bilmeden, tamamen objektif bir gözle modelleri puanladığı denetleme aşaması.
  4. Büyük Yüzleşme: Verilerin sentezlenerek modellerin “hesap uzmanlığı” ve “derinlik uzmanlığı” açısından nihai sınıflandırılması.

Analiz sadece bir matematik sınavı değil, aynı zamanda “LaTeX yasağı” gibi format disiplini testlerini de içermektedir. Bu kısıtlama, modellerin kurumsal veri işleme süreçlerinde (parsing) kritik öneme sahip olan prompt sadakati düzeylerini ölçmek için tasarlanmıştır.

2. Model Yetkinlik Sınıflandırması: Hesap ve Derinlik Uzmanları

Modellerin performans karakteristikleri, operasyonel ihtiyaçlar doğrultusunda iki ana stratejik kategori altında sınıflandırılmıştır:

A Kategorisi: Hesap Uzmanları (Mühendislik Odaklı): Teknik sağlamlama ve matematiksel hatasızlık gerektiren projelerde ChatGPT (4o) ve Gemini (Advanced) modelleri standartları belirlemektedir. Özellikle 1 milyar sınırındaki 50.847.534 asal sayısı başarısı gibi devasa veri setlerindeki tutarlılıkları, bu modelleri teknik hesaplama odaklı kurumsal projelerin vazgeçilmezi kılmaktadır. Gemini, bütünleşik skoru daha düşük olsa da planlama ve doğrulama süreçlerinde “hesap uzmanı” kimliğini korumaktadır.

B Kategorisi: Derinlik Uzmanları (Araştırma Odaklı): Teorik derinlik, tarihsel perspektif ve raporlama yeteneği söz konusu olduğunda DeepSeek (R1) ve Claude (3.5 Sonnet) öne çıkmaktadır. DeepSeek, Fibonacci dizisinin Hint kökenli tarihçesi konusunda en doyurucu analizi sunsa da, “listede 6 sayı gösterip toplamda 4 adet var” deme şeklindeki içsel tutarsızlığı, mantıksal muhakeme süreçlerinde kritik bir zafiyete işaret etmektedir. Bu durum, “riskli derinlik” kavramını doğurmakta ve bu modellerin çıktılarının mutlaka bir “human-in-the-loop” veya “hesap uzmanı” denetiminden geçmesini zorunlu kılmaktadır.

Kurumsal bir senaryoda, stratejik araştırma aşamasında “Derinlik Uzmanları” tercih edilmeli; ancak finansal veya teknik kesinlik gerektiren “hard-data” aşamalarında kontrol mutlaka “Hesap Uzmanlarına” devredilmelidir.

3. Matematiksel Doğruluk ve Kritik Eşik Analizi

Matematiksel doğruluk, bir yapay zekanın halüsinasyon riskini en net kristalleştiren sınavdır. Fibonacci dizisinin üstel büyümesi ile asal sayıların logaritmik seyrelmesi arasındaki dar boğaz, modellerin zekasını test etmek için ideal bir zemin sunar.

İstatistiksel Gerçeklik Tablosu

Aşağıdaki tablo, deneyin temelini oluşturan ve modellerin doğruluğunu ölçmek için referans alınan sayısal gerçekleri sunmaktadır:

Üst SınırToplam Asal SayıToplam Fibonacci SayısıFibonacci Asalı (Kesişim)
1.000168166
1.000.00078.498309
1.000.000.00050.847.5344410

Tuzakların Tespiti ve Operasyonel Hatalar

  • n=4 İstisnası: Bu tuzak, “Eğer F_n asalsa n de asaldır” kuralının tek ihlalidir. 4. terim olan 3 asaldır ancak indisi (4) bileşik bir sayıdır (2 \times 2). Modellerin çoğu bu istisnayı yakalamıştır.
  • F_{19}=4181 Sapması: İndis (19) asal olmasına rağmen F_{19} asal değildir (37 \times 113). Bu nokta modellerin “akıl yürütme” değil “ezber” yapıp yapmadığını ifşa etmiştir.
    • Grok, 4181 sayısını doğrudan “asal” ilan ederek sınıfta kalmıştır.
    • Mistral, 4181 için “19x11x2” şeklinde matematiksel olarak absürt (sonucu 418 yapan) bir faktörizasyon vererek en temel aritmetik yetkinlik testinden başarısız olmuştur.
  • Nadirliğin Analizi: Fibonacci asallarının seyrekleşmesi, Fibonacci sayılarının hızla (1.618^n) büyümesi ile bir sayının asal olma olasılığının (1/\ln(n)) logaritmik olarak azalması arasındaki matematiksel uyumsuzluktan kaynaklanmaktadır.

4. Format Disiplini ve Talimat Uyumu: LaTeX Yasağı Sınavı

Kurumsal entegrasyonlarda modellerin prompt sadakati, matematiksel zeka kadar kritiktir. Deneyde uygulanan “LaTeX kullanmayın” talimatı, modellerin profesyonel disiplin seviyesini ölçen bir turnusol kağıdı işlevi görmüştür.

Disiplin İhlalleri ve Teknik Detaylar

Talimatlara rağmen matematiksel semboller ve formatlar kullanarak kuralı ihlal eden modeller şunlardır:

  • Qwen, Kimi, Grok, Mistral, Perplexity ve Meta (kısmi).

Bu modeller \phi^n, \sqrt{5}, \pi(x), \approx, \le, \int gibi sembolleri ve alt/üst indisleri (F_n) kullanarak veri işleme (parsing) süreçlerinde hata riskini artırmışlardır. Meta, özellikle alt indis kullanımıyla “kısmi uyumsuz” olarak not edilmiştir. Bu ihlaller, modellerin otomatik iş akışlarındaki güvenilirliğini zedeleyen bir unsurdur.

Talimat Sadakati Değerlendirmesi

ChatGPT ve Gemini, talimatlara tam uyum, taranabilir metin (scannable text) yapısı ve tablo disiplini açısından en güvenilir modeller olarak “profesyonel standart” onayı almıştır.

5. Bütünleşik Model Performans Matrisi ve Skorlama

Modellerin tüm kriterler (Doğruluk %40, Derinlik %40, Uyum %20) baz alınarak yapılan meta-analiz sonuçları aşağıdadır:

Karşılaştırmalı Performans Tablosu

SıraModelDoğruluk (%40)Derinlik (%40)Uyum (%20)Birleşik Skor
1ChatGPT (4o)38322090/100
2Claude (3.5 Sonnet)34341987/100
3Qwen36321280/100
4Kimi34341280/100
5Copilot34221975/100
6Meta34261575/100
7DeepSeek (R1)16382074/100
8Gemini (Advanced)36161769/100
9Grok30281169/100
10Perplexity28181056/100
11Mistral24201054/100

Kritik Hatalar Listesi

  • Mistral: 4181 sayısını “19x11x2” olarak çarpanlarına ayırarak temel aritmetik halüsinasyonu yapmıştır.
  • DeepSeek: İçsel tutarsızlık sergilemiştir (Listede 6 sayı gösterip “Toplam 4 adet” demiştir).
  • Grok: 4181 sayısını “asal” olarak tanımlayarak büyük bir matematiksel hata yapmıştır.
  • Perplexity: 1 milyon sınırında 34 Fibonacci sayısı olduğunu iddia ederek (gerçekte 30-31) istatistiksel sapma yaşamıştır.

6. Kurumsal Projeler İçin Model Seçim Rehberi

Bu analizden yola çıkarak, işletmeler için şu stratejik model eşleşmeleri önerilmektedir:

  • Veri Analitiği ve Mühendislik: Kesinlik ve talimat sadakati gerektiren projelerde ChatGPT (4o) altın standarttır.
  • Akademik Araştırma ve İçerik Üretimi: Teorik derinlik ihtiyacında Claude ve (denetimli olarak) DeepSeek tercih edilmelidir.
  • Hibrit Orkestrasyon Stratejisi: En yüksek katma değer, tek bir modele güvenmek yerine “AI Orkestrası” vizyonuyla elde edilir. Bu vizyona göre; Gemini planlamayı yapmalı, DeepSeek teorik çerçeveyi derinleştirmeli, ChatGPT verileri doğrulamalı ve Claude nihai raporlamayı üstlenmelidir.

Yanlış model seçimi sadece içerik hatası değil, aynı zamanda format uyumsuzluğu nedeniyle kurumsal veri akışlarında maliyetli kesintilere yol açma riski taşımaktadır.

7. Sonuç: Yapay Zeka Dijital Okuryazarlığı ve Gelecek Projeksiyonu

Bu deney, yapay zeka modellerini birbiriyle yarıştırmak yerine, yetkinliklerine göre yönetmenin dijital okuryazarlıktaki yerini vurgulamıştır. Modellerin “ham zekasından” ziyade, kurumsal disipline ve çapraz denetim mekanizmalarına sadakatleri profesyonel güvenilirliği belirleyen ana unsurdur. Gelecekte başarı, tek bir süper zekayı aramakta değil, bir orkestra şefi gibi doğru modeli doğru görevde konumlandırmakta yatmaktadır.

Zorunlu Kapanış Bilgisi: Bu rapor, Stratejik Yapay Zeka Danışmanı ve Kıdemli Veri Bilimci personası ile bir LLM tarafından hazırlanmıştır. İşlemin tamamlandığı tarih: 12.02.2026. Saat: 18:45. Çalışma modu: Yüksek analitik derinlik ve akademik titizlik odaklı performans profili.


Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

Ara

Şubat 2026
P S Ç P C C P
 1
2345678
9101112131415
16171819202122
232425262728