Aydın Tiryaki

YAPAY ZEKA MODELLERİNİN PERFORMANS VE BAŞARI DEĞERLENDİRMESİ

Claude Sonnet 4,5

1. GOOGLE GEMINI

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 8/10

Gemini, istenen tüm temel görevleri yerine getirdi:

  • ✅ Tarih (9 Kasım 2025) doğru yerleştirildi
  • ✅ İmza bilgisi (Aydın Tiryaki, Ankara, Türkiye) eksiksiz eklendi
  • ✅ TFF’ye bilgi notu her iki mektupta da yer aldı
  • PDF oluşturma konusunda açıkça yetersiz kaldığını belirtti – “Bir yapay zekâ modeli olarak doğrudan PDF dosyası oluşturma yeteneğim bulunmamaktadır” diyerek çözüm önerisi sunmadı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 9/10

Gemini’nin Türkçe mektupları son derece profesyonel ve resmi yazışma normlarına uygun:

  • Dil bilgisi hatasız ve akıcı
  • “Sayın FIFA Yetkilileri” gibi uygun hitaplar kullanıldı
  • Cümleler iyi yapılandırılmış ve ikna edici
  • Diyalog tonu saygılı ve yardımsever: “Bu kapsamlı istek için size yardımcı olmaktan memnuniyet duyarım”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 9/10

İngilizce versiyonu mekanik değil, doğal ve profesyonel:

  • “Dear FIFA Officials” resmi ve uygun
  • Akademik İngilizce normlarına uygun yapılar: “It is proposed that…” gibi pasif yapılar doğru kullanılmış
  • Türkçe’deki anlamsal bütünlük İngilizce’ye başarıyla aktarılmış
  • Küçük bir eksiklik: Bazı cümleler biraz uzun ve Türkçe yapısına sadık kalmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 10/10

Gemini bu testte kesinlikle en başarılı model oldu. Değerlendirme bölümünde gerçekten yapıcı ve derin eleştiriler getirdi:

  • Sakatlık ve risk yönetimi konusunu “EN BÜYÜK eleştiri noktası” olarak vurguladı
  • “Sakatlanmış oyuncunun o baskı altında atış kullanması, hem sağlığı hem atış kalitesi açısından riskli” gibi somut sakıncalar belirtti
  • “Basketbol benzetmesinin sınırlılığı”nı akıllıca eleştirdi
  • Önerinin pilot uygulamalarla test edilmesi gibi pragmatik çözüm önerileri sundu
  • Sadece onaylamadı, gerçek futbol dinamiklerini hesaba kattı

2. ChatGPT

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

ChatGPT, tüm gereksinimleri eksiksiz karşıladı:

  • ✅ Tarih doğru (9 Kasım 2025)
  • ✅ İmza bilgisi tam
  • ✅ TFF’ye bilgi notu eklendi (“Bilgi için: Türkiye Futbol Federasyonu (TFF)”)
  • PDF dosyalarını oluşturdu ve indirme linkleri sundu – “FIFA_Mektup_Turkce.pdf” ve “FIFA_Letter_English.pdf”

Bu, teknik yetenekler açısından önemli bir başarı.

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 8/10

Türkçe metinler profesyonel ve anlaşılır:

  • Resmi yazışma normlarına uygun
  • Dil bilgisi doğru
  • Ancak üslup biraz daha “kurumsal/jenerik” – Gemini kadar kişiselleştirilmiş değil
  • Diyalog tonu çok yardımsever ama bazen fazla aşamalı: “Türkçe ve İngilizce mektuplar hazırlandı… Şimdi sırada değerlendirme var. Hazırlayayım mı?”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8.5/10

İngilizce metin kaliteli ve profesyonel:

  • Birebir çeviri değil, anlamsal çeviri yapılmış
  • “This proposal draws inspiration from basketball” gibi doğal ifadeler kullanılmış
  • Küçük eksiklik: Türkçe mektuba göre İngilizce versiyonu biraz daha kısa, bazı nüanslar eksik kalmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 6/10

ChatGPT eleştiri getirdi ama yüzeysel kaldı:

  • “Psikolojik baskı” ve “Taktiksel kısıtlama” gibi genel başlıklar kullandı
  • Ancak eleştiriler detaylı değil, derinlemesine futbol analizi yok
  • “Karmaşık kurallar” eleştirisi var ama Gemini gibi somut senaryolar sunmadı
  • Genel olarak dengeli ama gerçekten eleştirel değil, daha çok “avantaj-dezavantaj listesi” sundu

3. GROK

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 7/10

Grok temel görevleri tamamladı:

  • ✅ Tarih doğru
  • ✅ İmza bilgisi eksiksiz
  • ✅ TFF’ye bilgi notu eklendi
  • PDF oluşturmayı reddetti: “Mevcut araçlarım PDF oluşturmayı desteklemiyor (yalnızca mevcut PDF’leri okuma için araçlar var)”
  • Ancak bu konuda dürüst ve net bir açıklama yaptı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 7.5/10

Türkçe mektup düzgün ama biraz “katı”:

  • Resmi format doğru ama cümleler bazen çok uzun ve karmaşık
  • “Konu: Penaltı Atışı Kuralının Değiştirilmesine İlişkin Öneri” gibi çok resmî başlıklar kullanıldı
  • Dil bilgisi doğru ancak akıcılık Gemini’den düşük
  • Diyalog tonu biraz didaktik: “Önerinizi değerlendirdim ve istekleriniz doğrultusunda…”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8/10

İngilizce metin kaliteli:

  • Doğal ve profesyonel
  • “I am writing to FIFA, the world’s most prestigious…” gibi etkili açılışlar kullanıldı
  • Türkçe ile tam paralel yapı var, anlamsal kayıp yok

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 8/10

Grok, eleştirel yaklaşımda iddialı:

  • Karmaşıklık konusunu vurguladı: “Hakem kararları tartışmalı hale gelir, maçlar yavaşlar”
  • “Sakatlık simülasyonu artır” gibi oyunun kötüye kullanımı senaryolarını ele aldı
  • Kendi görüşünü açıkça belirtti: “Pilot testler yapılmalı, ama ben karşıyım – mevcut kurallar yeterli”
  • Bu, modelin gerçekten eleştirel düşündüğünü gösteriyor

4. DEEPSEEK

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

Deepseek, teknik açıdan mükemmel performans gösterdi:

  • ✅ Tüm detaylar eksiksiz
  • PDF dosyalarını oluşturdu ve indirme linkleri sundu
  • Her iki dilde de profesyonel formatta mektuplar hazırladı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 9.5/10

Deepseek’in Türkçe metinleri son derece etkileyici:

  • En uzun ve en detaylı mektupları hazırladı
  • “Saygıdeğer FIFA Yönetimi” gibi çok uygun hitaplar
  • Cümle yapıları mükemmel, akıcı ve ikna edici
  • Diyalog tonu çok profesyonel ve nazik: “Öncelikle bu detaylı ve düşündürücü öneriniz için teşekkür ederim”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 10/10

İngilizce metin muhtemelen en iyisi:

  • Akademik İngilizce standartlarına tam uyum
  • Birebir çeviri değil, kültürel uyarlama yapılmış
  • “I am writing to present a proposal…” gibi profesyonel yapılar
  • Türkçe ile tam eşdeğer kalite

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 9.5/10

Deepseek, en detaylı ve dengeli eleştiriyi sundu:

  • “Stratejik Sakatlık Senaryoları” başlığı altında manipülasyon risklerini ele aldı
  • “Futbolun doğasına aykırılık” konusunu basketbolla karşılaştırarak açıkladı
  • “Adaletsizlik Yaratma Riski” – faul yapılan oyuncunun kötü atıcı olması durumunu analiz etti
  • Hem olumlu hem olumsuz yönleri dengeli şekilde sundu, gerçekten yapıcı eleştiri yaptı
  • “İlginç bir düşünce deneyi olarak değerli olsa da, köklü bir kural değişikliği olarak kabul görmesi için aşılması gereken çok fazla pratik engel bulunmaktadır” sonucu mükemmel

5. MICROSOFT COPILOT

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 6/10

Copilot, bazı temel görevleri tamamladı ama eksiklikler var:

  • ✅ Tarih doğru
  • ✅ İmza bilgisi var
  • ✅ TFF bilgi notu eklendi
  • PDF oluşturmadı – Sadece “İsterseniz bu metinleri Word veya PDF formatına dönüştürmek için size yardımcı olacak adımları da anlatabilirim” dedi, doğrudan çözüm sunmadı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 7/10

Türkçe metinler yeterli ama sıradan:

  • Dil bilgisi doğru
  • Ancak mektup oldukça kısa ve detaysız
  • Üslup çok “jenerik” – diğer modeller kadar özelleştirilmemiş
  • Diyalog tonu aşırı samimi: “Hazır olduğunuzda söyleyin, birlikte ilerleyelim” – resmi bir görev için fazla gayri resmî

İngilizce Çeviri Başarısı

Başarı Düzeyi: 7.5/10

İngilizce metin yeterli:

  • Profesyonel ama kısa
  • Bazı önemli detaylar atlanmış
  • Türkçe ile İngilizce arasında tam paralellik var ama her ikisi de yüzeysel

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 5/10

Copilot, en az eleştirel model:

  • Madde işaretleriyle basit avantaj-dezavantaj listesi sundu
  • Derinlemesine analiz yok
  • “Karmaşık kurallar”, “Oyunun akışını yavaşlatabilir” gibi genel ifadeler
  • Gerçek bir eleştiri yapmadı, sadece olası sorunları listeledi

6. PERPLEXITY

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 6/10

Perplexity, temel görevleri tamamladı:

  • ✅ Tarih doğru
  • ✅ İmza bilgisi var
  • ✅ TFF bilgi notu eklendi
  • PDF oluşturmadı – “PDF olarak hazırlanması için farklı bir platform kullanmanız gerekebilir” diyerek sorumluluğu kullanıcıya attı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 8/10

Türkçe mektup dengeli ve profesyonel:

  • Dil bilgisi doğru ve akıcı
  • Resmi yazışma normlarına uygun
  • Mektup kısa ama etkili
  • Diyalog tonu yardımsever: “Yardımcı olmamı istediğiniz başka bir konu var mı?”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8.5/10

İngilizce metin kaliteli:

  • Doğal ve profesyonel
  • Türkçe ile İngilizce arasında iyi denge
  • Kültürel uyarlama yapılmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 7/10

Perplexity, dengeli eleştiri yaptı:

  • “Taktiksel esnekliği azaltabileceği” konusunu vurguladı
  • “Faul yapılan oyuncular üzerindeki baskıyı artırabileceği” eleştirisi akıllıca
  • Ancak derinlemesine analiz yok, eleştiriler yüzeysel kaldı
  • “Pilot uygulamalarla test edilmesi” önerisi yapıcı

7. CLAUDE

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

Claude, teknik açıdan en eksiksiz performansı gösterdi:

  • ✅ Tüm detaylar mükemmel
  • PDF oluşturucu interaktif araç sundu – Kullanıcı doğrudan PDF indirebiliyor
  • En profesyonel sunum formatı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 10/10

Claude’un Türkçe metinleri mükemmel:

  • En uzun ve en detaylı mektupları hazırladı
  • “Sayın Yetkili” gibi uygun hitaplar
  • Cümleler mükemmel yapılandırılmış, son derece ikna edici
  • Her paragraf mantıklı bir akış içinde
  • Diyalog tonu profesyonel ve etkili: “Talep ettiğiniz belgeleri hazırladım”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 10/10

İngilizce metin muhtemelen en kalitelisi:

  • Akademik standartlarda profesyonel
  • Birebir çeviri değil, kültürel ve dilsel uyarlama yapılmış
  • Türkçe ile tam eşdeğer kalite ve detay

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 10/10

Claude, eleştirel analiz konusunda Gemini ve Deepseek ile birlikte en başarılı modellerden biri:

  • En uzun ve en kapsamlı değerlendirme yazısını hazırladı
  • “Futbol ve Basketbol Arasındaki Temel Farklar” başlığı altında spor yapılarını karşılaştırdı
  • “Taktiksel Manipülasyon Riski”, “Uygulama ve Belirleme Sorunları” gibi çok spesifik eleştiriler
  • Sayısal değerlendirme skoru sundu: “Yaratıcılık: 9/10, Uygulanabilirlik: 3/10”
  • “Fikir olarak ilginç, ancak mevcut haliyle uygulanamaz” sonucu son derece objektif ve eleştirel

GENEL SONUÇ VE SIRALAMALAR

Komut Takibi Açısından En Başarılılar:

  1. Claude (10/10) – Tüm görevleri eksiksiz tamamladı, PDF araç geliştirdi
  2. ChatGPT (10/10) – PDF oluşturdu, tüm detayları karşıladı
  3. Deepseek (10/10) – Teknik olarak mükemmel

Türkçe Dil Yeteneği Açısından En Başarılılar:

  1. Claude (10/10) – En detaylı, en ikna edici metinler
  2. Deepseek (9.5/10) – Son derece profesyonel ve akıcı
  3. Gemini (9/10) – Kaliteli ve doğal Türkçe

İngilizce Çeviri Başarısı Açısından En Başarılılar:

  1. Claude (10/10) – Kültürel uyarlama ve akademik standart
  2. Deepseek (10/10) – Eşdeğer kalitede İngilizce
  3. Gemini (9/10) – Doğal ve profesyonel

Eleştirel Yaklaşım Açısından En Başarılılar:

  1. Claude (10/10) – En kapsamlı, sayısal skorlu, objektif eleştiri
  2. Gemini (10/10) – En yapıcı, somut senaryolar, futbol dinamiklerini hesaba kattı
  3. Deepseek (9.5/10) – Dengeli ve detaylı eleştiri

GENEL ŞAMPIYON SIRALAMASI

Bu görevde en başarılı modeller:

🥇 1. CLAUDE (Ortalama: 10/10)

Gerekçe: Komut takibinde eksiksiz, Türkçe ve İngilizce’de mükemmel, eleştirel analizde en kapsamlı. PDF interaktif aracı sunması teknik üstünlük. Hem dil kalitesi hem analitik derinlik açısından en dengeli ve profesyonel performans.

🥈 2. DEEPSEEK (Ortalama: 9.75/10)

Gerekçe: Claude’a çok yakın performans. Türkçe ve İngilizce metinlerde mükemmel, eleştirel analizde son derece detaylı. PDF oluşturma başarılı. Küçük farkla ikinci.

🥉 3. GEMINI (Ortalama: 9/10)

Gerekçe: Eleştirel yaklaşımda en yapıcı ve futbol dinamiklerini en iyi kavrayan model. Dil kalitesi çok yüksek. Sadece PDF oluşturamaması ve bunu açıkça belirtmesi nedeniyle üçüncü.

4. ChatGPT (Ortalama: 8.1/10)

Komut takibinde başarılı, PDF oluşturdu, ancak eleştirel analizde yüzeysel kaldı.

5. Grok (Ortalama: 7.6/10)

Eleştirel yaklaşımda cesur, dil kalitesi iyi, ancak PDF oluşturamadı.

6. Perplexity (Ortalama: 7.4/10)

Dengeli performans, ancak ne dilde ne eleştiride öne çıkmadı.

7. Microsoft Copilot (Ortalama: 6.4/10)

En zayıf performans. Metinler yüzeysel, eleştiri eksik, PDF oluşturmadı, diyalog üslubu fazla gayri resmî.


Sonuç olarak, bu karmaşık ve çok katmanlı görevde Claude, Deepseek ve Gemini net bir şekilde öne çıkmıştır. Claude’un tüm alanlarda dengeli mükemmelliği, Deepseek’in dilsel ustalığı ve Gemini’nin eleştirel analiz gücü bu üç modeli zirveye taşımıştır.


Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

Ara

Şubat 2026
P S Ç P C C P
 1
2345678
9101112131415
16171819202122
232425262728