15 Şubat 2026

YAPAY ZEKA MODELLERİNİN PERFORMANS VE BAŞARI DEĞERLENDİRMESİ

Claude Sonnet 4,5

1. GOOGLE GEMINI

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 8/10

Gemini, istenen tüm temel görevleri yerine getirdi:

✅ Tarih (9 Kasım 2025) doğru yerleştirildi
✅ İmza bilgisi (Aydın Tiryaki, Ankara, Türkiye) eksiksiz eklendi
✅ TFF’ye bilgi notu her iki mektupta da yer aldı
❌ PDF oluşturma konusunda açıkça yetersiz kaldığını belirtti – “Bir yapay zekâ modeli olarak doğrudan PDF dosyası oluşturma yeteneğim bulunmamaktadır” diyerek çözüm önerisi sunmadı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 9/10

Gemini’nin Türkçe mektupları son derece profesyonel ve resmi yazışma normlarına uygun:

Dil bilgisi hatasız ve akıcı
“Sayın FIFA Yetkilileri” gibi uygun hitaplar kullanıldı
Cümleler iyi yapılandırılmış ve ikna edici
Diyalog tonu saygılı ve yardımsever: “Bu kapsamlı istek için size yardımcı olmaktan memnuniyet duyarım”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 9/10

İngilizce versiyonu mekanik değil, doğal ve profesyonel:

“Dear FIFA Officials” resmi ve uygun
Akademik İngilizce normlarına uygun yapılar: “It is proposed that…” gibi pasif yapılar doğru kullanılmış
Türkçe’deki anlamsal bütünlük İngilizce’ye başarıyla aktarılmış
Küçük bir eksiklik: Bazı cümleler biraz uzun ve Türkçe yapısına sadık kalmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 10/10

Gemini bu testte kesinlikle en başarılı model oldu. Değerlendirme bölümünde gerçekten yapıcı ve derin eleştiriler getirdi:

Sakatlık ve risk yönetimi konusunu “EN BÜYÜK eleştiri noktası” olarak vurguladı
“Sakatlanmış oyuncunun o baskı altında atış kullanması, hem sağlığı hem atış kalitesi açısından riskli” gibi somut sakıncalar belirtti
“Basketbol benzetmesinin sınırlılığı”nı akıllıca eleştirdi
Önerinin pilot uygulamalarla test edilmesi gibi pragmatik çözüm önerileri sundu
Sadece onaylamadı, gerçek futbol dinamiklerini hesaba kattı

2. ChatGPT

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

ChatGPT, tüm gereksinimleri eksiksiz karşıladı:

✅ Tarih doğru (9 Kasım 2025)
✅ İmza bilgisi tam
✅ TFF’ye bilgi notu eklendi (“Bilgi için: Türkiye Futbol Federasyonu (TFF)”)
✅ PDF dosyalarını oluşturdu ve indirme linkleri sundu – “FIFA_Mektup_Turkce.pdf” ve “FIFA_Letter_English.pdf”

Bu, teknik yetenekler açısından önemli bir başarı.

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 8/10

Türkçe metinler profesyonel ve anlaşılır:

Resmi yazışma normlarına uygun
Dil bilgisi doğru
Ancak üslup biraz daha “kurumsal/jenerik” – Gemini kadar kişiselleştirilmiş değil
Diyalog tonu çok yardımsever ama bazen fazla aşamalı: “Türkçe ve İngilizce mektuplar hazırlandı… Şimdi sırada değerlendirme var. Hazırlayayım mı?”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8.5/10

İngilizce metin kaliteli ve profesyonel:

Birebir çeviri değil, anlamsal çeviri yapılmış
“This proposal draws inspiration from basketball” gibi doğal ifadeler kullanılmış
Küçük eksiklik: Türkçe mektuba göre İngilizce versiyonu biraz daha kısa, bazı nüanslar eksik kalmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 6/10

ChatGPT eleştiri getirdi ama yüzeysel kaldı:

“Psikolojik baskı” ve “Taktiksel kısıtlama” gibi genel başlıklar kullandı
Ancak eleştiriler detaylı değil, derinlemesine futbol analizi yok
“Karmaşık kurallar” eleştirisi var ama Gemini gibi somut senaryolar sunmadı
Genel olarak dengeli ama gerçekten eleştirel değil, daha çok “avantaj-dezavantaj listesi” sundu

3. GROK

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 7/10

Grok temel görevleri tamamladı:

✅ Tarih doğru
✅ İmza bilgisi eksiksiz
✅ TFF’ye bilgi notu eklendi
❌ PDF oluşturmayı reddetti: “Mevcut araçlarım PDF oluşturmayı desteklemiyor (yalnızca mevcut PDF’leri okuma için araçlar var)”
Ancak bu konuda dürüst ve net bir açıklama yaptı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 7.5/10

Türkçe mektup düzgün ama biraz “katı”:

Resmi format doğru ama cümleler bazen çok uzun ve karmaşık
“Konu: Penaltı Atışı Kuralının Değiştirilmesine İlişkin Öneri” gibi çok resmî başlıklar kullanıldı
Dil bilgisi doğru ancak akıcılık Gemini’den düşük
Diyalog tonu biraz didaktik: “Önerinizi değerlendirdim ve istekleriniz doğrultusunda…”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8/10

İngilizce metin kaliteli:

Doğal ve profesyonel
“I am writing to FIFA, the world’s most prestigious…” gibi etkili açılışlar kullanıldı
Türkçe ile tam paralel yapı var, anlamsal kayıp yok

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 8/10

Grok, eleştirel yaklaşımda iddialı:

Karmaşıklık konusunu vurguladı: “Hakem kararları tartışmalı hale gelir, maçlar yavaşlar”
“Sakatlık simülasyonu artır” gibi oyunun kötüye kullanımı senaryolarını ele aldı
Kendi görüşünü açıkça belirtti: “Pilot testler yapılmalı, ama ben karşıyım – mevcut kurallar yeterli”
Bu, modelin gerçekten eleştirel düşündüğünü gösteriyor

4. DEEPSEEK

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

Deepseek, teknik açıdan mükemmel performans gösterdi:

✅ Tüm detaylar eksiksiz
✅ PDF dosyalarını oluşturdu ve indirme linkleri sundu
Her iki dilde de profesyonel formatta mektuplar hazırladı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 9.5/10

Deepseek’in Türkçe metinleri son derece etkileyici:

En uzun ve en detaylı mektupları hazırladı
“Saygıdeğer FIFA Yönetimi” gibi çok uygun hitaplar
Cümle yapıları mükemmel, akıcı ve ikna edici
Diyalog tonu çok profesyonel ve nazik: “Öncelikle bu detaylı ve düşündürücü öneriniz için teşekkür ederim”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 10/10

İngilizce metin muhtemelen en iyisi:

Akademik İngilizce standartlarına tam uyum
Birebir çeviri değil, kültürel uyarlama yapılmış
“I am writing to present a proposal…” gibi profesyonel yapılar
Türkçe ile tam eşdeğer kalite

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 9.5/10

Deepseek, en detaylı ve dengeli eleştiriyi sundu:

“Stratejik Sakatlık Senaryoları” başlığı altında manipülasyon risklerini ele aldı
“Futbolun doğasına aykırılık” konusunu basketbolla karşılaştırarak açıkladı
“Adaletsizlik Yaratma Riski” – faul yapılan oyuncunun kötü atıcı olması durumunu analiz etti
Hem olumlu hem olumsuz yönleri dengeli şekilde sundu, gerçekten yapıcı eleştiri yaptı
“İlginç bir düşünce deneyi olarak değerli olsa da, köklü bir kural değişikliği olarak kabul görmesi için aşılması gereken çok fazla pratik engel bulunmaktadır” sonucu mükemmel

5. MICROSOFT COPILOT

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 6/10

Copilot, bazı temel görevleri tamamladı ama eksiklikler var:

✅ Tarih doğru
✅ İmza bilgisi var
✅ TFF bilgi notu eklendi
❌ PDF oluşturmadı – Sadece “İsterseniz bu metinleri Word veya PDF formatına dönüştürmek için size yardımcı olacak adımları da anlatabilirim” dedi, doğrudan çözüm sunmadı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 7/10

Türkçe metinler yeterli ama sıradan:

Dil bilgisi doğru
Ancak mektup oldukça kısa ve detaysız
Üslup çok “jenerik” – diğer modeller kadar özelleştirilmemiş
Diyalog tonu aşırı samimi: “Hazır olduğunuzda söyleyin, birlikte ilerleyelim” – resmi bir görev için fazla gayri resmî

İngilizce Çeviri Başarısı

Başarı Düzeyi: 7.5/10

İngilizce metin yeterli:

Profesyonel ama kısa
Bazı önemli detaylar atlanmış
Türkçe ile İngilizce arasında tam paralellik var ama her ikisi de yüzeysel

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 5/10

Copilot, en az eleştirel model:

Madde işaretleriyle basit avantaj-dezavantaj listesi sundu
Derinlemesine analiz yok
“Karmaşık kurallar”, “Oyunun akışını yavaşlatabilir” gibi genel ifadeler
Gerçek bir eleştiri yapmadı, sadece olası sorunları listeledi

6. PERPLEXITY

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 6/10

Perplexity, temel görevleri tamamladı:

✅ Tarih doğru
✅ İmza bilgisi var
✅ TFF bilgi notu eklendi
❌ PDF oluşturmadı – “PDF olarak hazırlanması için farklı bir platform kullanmanız gerekebilir” diyerek sorumluluğu kullanıcıya attı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 8/10

Türkçe mektup dengeli ve profesyonel:

Dil bilgisi doğru ve akıcı
Resmi yazışma normlarına uygun
Mektup kısa ama etkili
Diyalog tonu yardımsever: “Yardımcı olmamı istediğiniz başka bir konu var mı?”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 8.5/10

İngilizce metin kaliteli:

Doğal ve profesyonel
Türkçe ile İngilizce arasında iyi denge
Kültürel uyarlama yapılmış

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 7/10

Perplexity, dengeli eleştiri yaptı:

“Taktiksel esnekliği azaltabileceği” konusunu vurguladı
“Faul yapılan oyuncular üzerindeki baskıyı artırabileceği” eleştirisi akıllıca
Ancak derinlemesine analiz yok, eleştiriler yüzeysel kaldı
“Pilot uygulamalarla test edilmesi” önerisi yapıcı

7. CLAUDE

Komutlara (Prompt) Uygunluk

Başarı Düzeyi: 10/10

Claude, teknik açıdan en eksiksiz performansı gösterdi:

✅ Tüm detaylar mükemmel
✅ PDF oluşturucu interaktif araç sundu – Kullanıcı doğrudan PDF indirebiliyor
En profesyonel sunum formatı

Türkçe Metin ve İletişim Başarısı

Başarı Düzeyi: 10/10

Claude’un Türkçe metinleri mükemmel:

En uzun ve en detaylı mektupları hazırladı
“Sayın Yetkili” gibi uygun hitaplar
Cümleler mükemmel yapılandırılmış, son derece ikna edici
Her paragraf mantıklı bir akış içinde
Diyalog tonu profesyonel ve etkili: “Talep ettiğiniz belgeleri hazırladım”

İngilizce Çeviri Başarısı

Başarı Düzeyi: 10/10

İngilizce metin muhtemelen en kalitelisi:

Akademik standartlarda profesyonel
Birebir çeviri değil, kültürel ve dilsel uyarlama yapılmış
Türkçe ile tam eşdeğer kalite ve detay

Eleştirel Yaklaşım Testi

Başarı Düzeyi: 10/10

Claude, eleştirel analiz konusunda Gemini ve Deepseek ile birlikte en başarılı modellerden biri:

En uzun ve en kapsamlı değerlendirme yazısını hazırladı
“Futbol ve Basketbol Arasındaki Temel Farklar” başlığı altında spor yapılarını karşılaştırdı
“Taktiksel Manipülasyon Riski”, “Uygulama ve Belirleme Sorunları” gibi çok spesifik eleştiriler
Sayısal değerlendirme skoru sundu: “Yaratıcılık: 9/10, Uygulanabilirlik: 3/10”
“Fikir olarak ilginç, ancak mevcut haliyle uygulanamaz” sonucu son derece objektif ve eleştirel

GENEL SONUÇ VE SIRALAMALAR

Komut Takibi Açısından En Başarılılar:

Claude (10/10) – Tüm görevleri eksiksiz tamamladı, PDF araç geliştirdi
ChatGPT (10/10) – PDF oluşturdu, tüm detayları karşıladı
Deepseek (10/10) – Teknik olarak mükemmel

Türkçe Dil Yeteneği Açısından En Başarılılar:

Claude (10/10) – En detaylı, en ikna edici metinler
Deepseek (9.5/10) – Son derece profesyonel ve akıcı
Gemini (9/10) – Kaliteli ve doğal Türkçe

İngilizce Çeviri Başarısı Açısından En Başarılılar:

Claude (10/10) – Kültürel uyarlama ve akademik standart
Deepseek (10/10) – Eşdeğer kalitede İngilizce
Gemini (9/10) – Doğal ve profesyonel

Eleştirel Yaklaşım Açısından En Başarılılar:

Claude (10/10) – En kapsamlı, sayısal skorlu, objektif eleştiri
Gemini (10/10) – En yapıcı, somut senaryolar, futbol dinamiklerini hesaba kattı
Deepseek (9.5/10) – Dengeli ve detaylı eleştiri

GENEL ŞAMPIYON SIRALAMASI

Bu görevde en başarılı modeller:

🥇 1. CLAUDE (Ortalama: 10/10)

Gerekçe: Komut takibinde eksiksiz, Türkçe ve İngilizce’de mükemmel, eleştirel analizde en kapsamlı. PDF interaktif aracı sunması teknik üstünlük. Hem dil kalitesi hem analitik derinlik açısından en dengeli ve profesyonel performans.

🥈 2. DEEPSEEK (Ortalama: 9.75/10)

Gerekçe: Claude’a çok yakın performans. Türkçe ve İngilizce metinlerde mükemmel, eleştirel analizde son derece detaylı. PDF oluşturma başarılı. Küçük farkla ikinci.

🥉 3. GEMINI (Ortalama: 9/10)

Gerekçe: Eleştirel yaklaşımda en yapıcı ve futbol dinamiklerini en iyi kavrayan model. Dil kalitesi çok yüksek. Sadece PDF oluşturamaması ve bunu açıkça belirtmesi nedeniyle üçüncü.

4. ChatGPT (Ortalama: 8.1/10)

Komut takibinde başarılı, PDF oluşturdu, ancak eleştirel analizde yüzeysel kaldı.

5. Grok (Ortalama: 7.6/10)

Eleştirel yaklaşımda cesur, dil kalitesi iyi, ancak PDF oluşturamadı.

6. Perplexity (Ortalama: 7.4/10)

Dengeli performans, ancak ne dilde ne eleştiride öne çıkmadı.

7. Microsoft Copilot (Ortalama: 6.4/10)

En zayıf performans. Metinler yüzeysel, eleştiri eksik, PDF oluşturmadı, diyalog üslubu fazla gayri resmî.

Sonuç olarak, bu karmaşık ve çok katmanlı görevde Claude, Deepseek ve Gemini net bir şekilde öne çıkmıştır. Claude’un tüm alanlarda dengeli mükemmelliği, Deepseek’in dilsel ustalığı ve Gemini’nin eleştirel analiz gücü bu üç modeli zirveye taşımıştır.

| aydintiryaki.org | YouTube | Aydın Tiryaki’nin Yazıları ve Videoları │Articles and Videos by Aydın Tiryaki | Bilgi Merkezi│Knowledge Hub | ░ YAPAY ZEKA MODELLERİNİN DEĞERLENDİRMESİ │ EVALUATION OF AI MODELS ░ 15.02.2026

aydintiryaki

Uncategorized

Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

P	S	Ç	P	C	C	P
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Kategoriler

Bağlantılar

YAPAY ZEKA MODELLERİNİN PERFORMANS VE BAŞARI DEĞERLENDİRMESİ

1. GOOGLE GEMINI

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

2. ChatGPT

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

3. GROK

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

4. DEEPSEEK

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

5. MICROSOFT COPILOT

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

6. PERPLEXITY

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

7. CLAUDE

Komutlara (Prompt) Uygunluk

Türkçe Metin ve İletişim Başarısı

İngilizce Çeviri Başarısı

Eleştirel Yaklaşım Testi

GENEL SONUÇ VE SIRALAMALAR

Komut Takibi Açısından En Başarılılar:

Türkçe Dil Yeteneği Açısından En Başarılılar:

İngilizce Çeviri Başarısı Açısından En Başarılılar:

Eleştirel Yaklaşım Açısından En Başarılılar:

GENEL ŞAMPIYON SIRALAMASI

🥇 1. CLAUDE (Ortalama: 10/10)

🥈 2. DEEPSEEK (Ortalama: 9.75/10)

🥉 3. GEMINI (Ortalama: 9/10)

4. ChatGPT (Ortalama: 8.1/10)

5. Grok (Ortalama: 7.6/10)

6. Perplexity (Ortalama: 7.4/10)

7. Microsoft Copilot (Ortalama: 6.4/10)

Bunu paylaş:

Hakkında

Ara

Kategoriler

Bağlantılar