Çelişkiler ve Uyum Üzerine Bir İnceleme
Aydın Tiryaki (2025)
Yapay zekânın çeşitli konularda verdiği yanıtların birbirleriyle ne kadar uyumlu veya çelişkili olduğunu gözlemlemek amacıyla bir deney gerçekleştireceğiz. Bu deneyin temel amacı, yapay zekâdan hem soruları hem de yanıtları hazırlamasını isteyerek, farklı yapay zekâların aynı sorulara nasıl yanıtlar verdiğini analiz etmektir.
BÖLÜM 1: DENEY TASARIMI
Deney kapsamında, önceden belirlenen çeşitli konularda sorular hazırlanacak ve bu sorular yine yapay zekâ tarafından formüle edilecektir. Ardından, farklı yapay zekalar tarafından hazırlanmış bu sorulara verilen yanıtlar karşılaştırılarak, cevapların tutarlılığı ve çelişen noktaları değerlendirilecektir.
Deneyin başında, elde edilecek sonuçlar hakkında kesin bir öngörüde bulunmak mümkün değildir. Süreç boyunca beklenmedik sonuçlarla karşılaşabileceğimiz gibi, oldukça anlamlı ve doğru yanıtlar da elde edebiliriz. Sonuç olarak, deneyin sonunda hem soruların kalitesi hem de verilen yanıtların doğruluğu açısından kapsamlı bir değerlendirme yapılacaktır ve bu değerlendirme, yapay zekânın tutarlılık düzeyi hakkında önemli ipuçları sunacaktır.
Bu deneyde 10 yapay zekâ modeli kullanıldı.
Problem hazırlamak için kullanılan 5 yapay zekâ modeli: Gemini, ChatGPT, Grok, Deepseek, Copilot
Problemleri çözmek için kullanılan 10 yapay zekâ modeli: Gemini, ChatGPT, Grok, Deepseek, Copilot, Perplexity, Claude, Meta, Kimi, Qwen (EK 1)

BÖLÜM 2: BİR HAVUZ PROBLEMİ
Havuz problemini hazırlamak için yapay zekâ modelleri görevlendirildi. Birbirine bağlı iki havuzdan oluşan bir havuz problemi hazırlanması istendi. Ayrıntılı bir istem (prompt) verildi:
“Bir havuz problemi tasarımı istemi (prompt): Bu havuz problemi birbirine bağlı farklı boyutlarda iki havuzdan oluşsun. İki havuzun kapasiteleri ve başlangıçtaki farklı miktarları tanımlansın. 1. havuza farklı akış hızında 2 giriş ve 2 çıkış olsun. 1. havuzun çıkışlarından biri 2. havuza bağlı olsun. 2. havuzdan farklı akış hızında 2 çıkış olsun, bu çıkışlardan biri ilk havuza geri dönsün. Problemde havuzlar hiçbir zaman taşmasın ve hiçbir zaman tam boşalmasın. Zaman ölçüsü olarak saat, hacim ölçüsü olarak litre kullanılsın ve miktarlar 1000 litreyi geçmesin. Tasarlanan problemin sorusu bir süre için olsun ve yanıttaki bu süre 12 saatten uzun olmasın. Örnek olarak “bu işlem ne kadar zamanda gerçekleşir?” gibi bir soru olabilir. Problemdeki tüm sayılar litre ve saat olarak tam sayı olsun, yanıtta saat ve dakika ayrıntısı olabilir. Problemde sorulan sorunun kesin bir sayısal bir yanıtı olsun. Bu kurallarla göre ve ayrıca yapay zekânın yaratıcılığını da kullanarak çok kolay olmayan bir havuz problemi oluşturmanı istiyorum. Bu problem tek paragraftan oluşan bir metin olsun. Problem metni yalnızca sözcükler ve sayılardan oluşsun, metinde formüller, listeler ve tablolar olmasın.”
BÖLÜM 3: GEMINI İLE HAVUZ PROBLEMİ
Gemini ile “hızlı” seçeneğinde defalarca denemelerde bu istemi tam karşılayacak bir problem oluşturamadı. Daha sonra “3 Pro ile düşünen” seçeneğinde ilk denemede bir problem metni oluştu:
“Endüstriyel bir tesiste birbirine bağlı çalışan iki farklı karıştırma tankından birincisinin kapasitesi 800 litre iken ikincisinin kapasitesi 600 litredir. Sürecin başında birinci tankta 200 litre, ikinci tankta ise 150 litre sıvı hammadde mevcuttur. Birinci tanka dış kaynaktan saatte 60 litre ve 30 litre hızla sıvı sağlayan iki ayrı giriş hattı bulunurken, tanktaki karışımın saatte 15 litresi sistem dışına atılmakta ve saatte 50 litresi ise bir ara bağlantı borusuyla ikinci tanka dökülmektedir. İkinci tanktan ise saatte 10 litre sıvı atık ünitesine gönderilirken, saatte 25 litre sıvı bir geri besleme pompası vasıtasıyla tekrar birinci tanka pompalanmaktadır. Tankların hiçbir zaman taşmadığı ve tamamen boşalmadığı bu sistemde, birinci tanktaki toplam sıvı miktarının ikinci tanktaki sıvı miktarının tam iki katı olması için sistemin kaç saat çalışması gerekir?”
Kendi hazırladığı soruyu Gemini “3 pro” ayarında çözdü ve 5 saat sonucunu buldu. Daha sonra “hızlı” ayarında problem metni verildiğinde de 5 saat yanıtını buldu.
Ve Gemini tarafından hazırlanan soru ChatGPT, Grok, Deepseek, Copilot, Porplexity, Claude, Meta, Kimi, Qwen ile test edildi ve tümü 5 litre yanıtını verdi.
BÖLÜM 4: CHATGPT İLE HAVUZ PROBLEMİ
“Birinci havuzun kapasitesi 800 litre başlangıç miktarı 200 litre ikinci havuzun kapasitesi 600 litre başlangıç miktarı 150 litre. Birinci havuza saatte 60 litre ve saatte 10 litre hızında iki giriş bulunmakta. Birinci havuzun iki çıkışı var bunlardan biri saatte 40 litre hızla tahliye oluyor diğeri saatte 40 litre hızla ikinci havuza bağlanıyor. İkinci havuzdan iki çıkış var bunlardan biri saatte 30 litre hızla tahliye oluyor diğeri saatte 5 litre hızla birinci havuza geri dönüyor. Havuzlar hiçbir zaman taşmaz ve hiçbir zaman tam boşalmaz. Bu sistemde birinci havuzdaki sıvı miktarı kaç saatte 140 litreye düşer?”
ChatGPT kendi hazırladığı sorunun çözümünü yaptı ve yanıtı 12 saat buldu.
Gemini, ChatGPT, Deepseek, Copilot, Claude, Meta, Kimi yanıtı 12 saat bulurken Grok ve Qwen 4 saat, Perplexity ise 6 saat 40 dakika olarak hesapladı.
8 model aynı sonucu verirken 2 model farklı sonuçlar buldu.
BÖLÜM 5: GROK İLE HAVUZ PROBLEMİ
“İki birbirine bağlı havuz vardır. Birinci havuz 800 litre kapasiteli olup başlangıçta 500 litre su içermektedir, ikinci havuz ise 600 litre kapasiteli olup başlangıçta 200 litre su bulunmaktadır. Birinci havuza aynı anda iki musluk su doldurmakta; biri saatte 90 litre, diğeri saatte 60 litre hızıyla çalışmaktadır. Birinci havuzdan aynı anda iki boru su boşaltmaktadır: bunlardan biri saatte 70 litre hızıyla doğrudan dışarıya akarken, diğeri saatte 80 litre hızıyla ikinci havuza aktarmaktadır. İkinci havuzdan da aynı anda iki boru su çekmektedir: biri saatte 50 litre hızıyla dışarıya giderken, diğeri saatte 65 litre hızıyla birinci havuza geri dönmektedir. Bu düzenek sürekli çalıştığında, birinci havuzdaki su miktarı başlangıçtaki 500 litreden ilk kez 650 litreye ulaştığı anda kaç saat kaç dakika geçmiş olur?”
Grok kendi hazırladığı sorunun yanıtını 2 saat 18 dakika buldu.
Gemini “yaklaşık olarak 2 saat 18 dakika 27.7 saniyeye karşılık gelir.” Yanıtını verdi. Yani Grok soru tasarımında hata yapmış olabilir çünkü tam sayı istenmişti.
ChatGPT “2 saat 18 dakika 27,69 saniye (ya da tam olarak 30/13 saat)” olarak yanıtladı.
Deepseek “2 saat 18 dakika 28 saniye” yanıtını verdi.
Copilot, Perplexity, Meta, Kimi, Qwen de diğerleri gibi 2 saat 18 dakika ve saniye ayrıntısıyle sonucu verdiler.
Claude yanıtı 10 saat olarak buldu. Yani bir model farklı sonuç verirken diğerleri aynı sonucu buldu.
BÖLÜM 6: DEEPSEEK İLE HAVUZ PROBLEMİ
Deepseek ile farklı bir süreç ilerledi. İstem (prompt) verildiğinde önce bir metin hazırladı. Bunu çözmesi istendiğinde problemin hatalı kurgulandığınu farketti çözümü yeni sayılarla yapmaya başlayınca “çözerken bulduğun hataları düzelterek problem metnini yeniden hazırlar mısın” isteğiyle yeni metin hazırladı. Onu da beğenmedi bir birkaç denemeden sonra “Nihai Problem Metmi” diyerek aşağıdaki metni verdi:
“Birinci havuzun kapasitesi 900 litre ve ikinci havuzun kapasitesi 700 litredir. Başlangıçta birinci havuzda 200 litre, ikinci havuzda 200 litre su bulunmaktadır. Birinci havuza birinci girişten saatte 50 litre, ikinci girişten saatte 30 litre su akmaktadır. Birinci havuzun birinci çıkışı saatte 40 litre suyu dışarı boşaltırken, ikinci çıkışı saatte 25 litre suyu ikinci havuza aktarmaktadır. İkinci havuzun birinci çıkışı saatte 10 litre suyu dışarı boşaltır, ikinci çıkışı ise saatte 5 litre suyu birinci havuza geri gönderir. İkinci havuzdaki su miktarı ilk kez 320 litre olduğunda, bu işlem başlangıçtan itibaren ne kadar zamanda gerçekleşir?”
Deepseek kendi hazırladığı sorunun yanıtını 12 saat olarak verdi.
Gemini, ChatGPT, Grok, Deepseek, Copilot, , Claude, Meta, Kimi, Qwen sorunun yanıtını 12 saat olarak verirken, Perplexity 6 saat olarak hesapladı.
BÖLÜM 7: COPILOT ILE HAVUZ PROBLEMİ
“Birbiriyle bağlı iki havuzdan oluşan bir sistemde 1. havuzun kapasitesi 800 litre, başlangıçtaki miktarı 300 litre, 2. havuzun kapasitesi 700 litre, başlangıçtaki miktarı 400 litre olsun; zaman ölçüsü saat, hacim ölçüsü litre olarak alınsın ve tüm sayılar tam sayı olsun; 1. havuzda farklı akış hızında 2 girişten sırasıyla saatte 60 litre ve saatte 24 litre su girsin, 1. havuzdan 2 çıkış olsun, bunlardan biri dışarıya saatte 30 litre, diğeri 2. havuza saatte 18 litre su taşısın; 2. havuzdan farklı akış hızında 2 çıkış olsun, bunlardan biri dışarıya saatte 10 litre, diğeri 1. havuza geri saatte 8 litre su taşısın; havuzlar hiçbir zaman taşmasın ve hiçbir zaman tam boşalmasın; bu koşullar altında 1. havuzdaki su miktarı 600 litreye ulaştığında bu işlem ne kadar zamanda gerçekleşir?”
Copilot 6 saat 49 dakika hesapladı.
Gemini, ChatGPT, Grok, Deepseek, Copilot, Claude, Meta, Kimi, Qwen 75/11 saat yani yaklaşık 6 saat 49 dakika hesapladı. Bu da Copilot’un problem tasarımında tam sayı yanıt olsun koşulunu karşılamadığını görüyoruz.
Perplexity ise sonucu 8 saat 20 dakika olarak hesapladı.
BÖLÜM 8: SONUÇ
Tek tip bir istem (prompt) ile 5 yapay zeka modelinin hazırladığı farklı problem metinlerini 10 yapay zekâ modelinde test edildiği bir deneyde objektif olarak ölçülebilen problem çözüm sonuçları olduğu gibi objektif olarak ölçülemeyen problem metinleri vardı. Sayısal sorulara yapay zekâ modellerini verdiği yanıtların çoğunlukla aynı olması sonucu elde edilse de farklı sonuçların düşündürücü olduğunu da göz ardı etmemek gerekir.
Aydın Tiryaki
Ankara, 28 Kasım 2025
EK 1: YAPAY ZEKÂ MODELLERİ
Yapay Zekâ Modeli / Ürün Geliştiricisi / Şirketi ve Notlar (Gemini’nin verdiği bilgi)
Gemini Google Google’ın en güçlü ve çok modlu (multimodal) büyük dil modeli (LLM). Metin, görsel, ses ve video gibi farklı veri türlerini işleyebilir.
ChatGPT: OpenAI Büyük dil modeli (LLM) uygulaması. OpenAI’ın GPT (Generative Pre-trained Transformer) serisi modelleri (GPT-4o, GPT-4, GPT-3.5) üzerine kuruludur.
Grok: xAI (Elon Musk) X (eski adıyla Twitter) platformuna entegre edilmiş, özellikle güncel ve gerçek zamanlı bilgilere erişim odaklı büyük dil modeli (LLM).
Deepseek: Deepseek AI Genellikle akıl yürütme (reasoning) ve kodlama gibi alanlarda yüksek performans gösteren büyük dil modelleri (LLM’ler) geliştiren bir şirket/model serisi.
Copilot: Microsoft/GitHub GitHub Copilot (kodlama yardımcısı) ve Microsoft Copilot (Bing Chat/Windows/Microsoft 365 için genel AI asistanı) olarak bilinir. Genellikle OpenAI’ın GPT modellerini kullanır.
Perplexity: Perplexity AI Arama ve bilgi özetleme odaklı bir yapay zeka cevap motoru. Bilgileri kaynaklarıyla birlikte sunmaya önem verir.
Claude Anthropic Güvenlik, etik ve uzun bağlam penceresi (context window) özelliklerine odaklanan bir büyük dil modeli (LLM) serisi (örneğin, Claude 3.5 Sonnet, Claude 4 Opus).
Meta: Meta (eski adıyla Facebook) Llama (Large Language Model Meta AI) serisi gibi popüler açık kaynaklı büyük dil modelleri (LLM’ler) geliştiren şirket (örneğin, Llama 3).
Kimi: Kimi (Moonshot AI – Çin) Özellikle uzun bağlam penceresi ve belge analizi konusunda öne çıkan, hızla büyüyen bir büyük dil modeli (LLM) uygulaması.
Qwen: Alibaba Group Alibaba Cloud tarafından geliştirilen ve özellikle Çin pazarında güçlü olan, açık kaynaklı seçenekleri de bulunan bir büyük dil modeli (LLM) serisi.
