Aydın Tiryaki

YAPAY ZEKÂ NE KADAR ZEKİ? – 4: Yapay Zekâ Ne Öneriyor?

Aydın Tiryaki (2025)

YouTube TR

Yapay zekâların anlama ve hesaplama becerilerini ölçen deneyleri ve sonuçlarını anlatan “Yapay zekâ ne kadar zeki” başlıklı 3 yazıdan sonra yeni bir deney için konular ve yöntemler ararken “bu işi neden yapay zekâ yapmasın” yaklaşımı benimsendi ve yeni bir deney oluştu. Bu yazıda yapay zekâ modellerinin önerdiği konu ve yöntemleri bulacaksınız.

İSTEM (PROMPT)

1. Yazı: https://aydintiryaki.org/2025/11/25/how-intelligent-is-artificial-intelligence-1-how-many-days-calculated/

2. Yazı: https://aydintiryaki.org/2025/11/26/how-intelligent-is-artificial-intelligence-1-which-day-was-the-conquest-of-istanbul/

3. Yazı: https://aydintiryaki.org/2025/11/28/how-intelligent-is-artificial-intelligence-3-a-pool-problem/

Yayımladığım bu 3 yazıda yapay zekâları inceledim. Bu yazılara ek olarak “Yapay zekâ ne kadar zeki- 4″ ana başlığıyla bir yazı daha yazmak istesem, yapay zekâ olarak yaratıcılığını kullanarak bana bir konu ve yöntem önerebilir misin? Önerdiğin konu ve yöntemin girdileri çok karmaşık olmamalı ve çıktıları da değerlendirilebilir ve/veya ölçülebilir olmalıdır.

İstemde listelenen makaleler İngilizce, istem (prompt) metni ise Türkçe hazırlandı.

YAPAY ZEKÂ NE ÖNERDİ?

İstem (prompt) 10 yapay zekâ modeline sunulduğunda değişik öneriler geldi.

Gemini, Yaratıcılığını test edebileceğiniz bir konu ve yöntem önerebilirim. Bu test, yapay zekanın sadece mantıksal ve hesaplamaya dayalı görevlerdeki performansını değil, aynı zamanda bağlamı anlama, çağrışım yapma ve benzersiz fikirler üretme yeteneğini de ölçmeye odaklanacaktır.” yaklaşımıyla önerdiği yöntem “Yapay zekaya, rastgele seçilmiş iki adet somut veya soyut isim verilir ve bu iki kavramı bir arada kullanarak kısa, anlamlı ve yaratıcı bir metin (kısa hikaye, şiir, deneme başlangıcı) oluşturması istenir.” şeklinde açıklanıyor. Örnek olarak da “Pazartesi sendromu” ve “Eski bir fener” kavramlarıyla bunun yapılabileceğini anlatıyor.

Gemini’nin bu önerisi ilginç ve yaratıcı olsa da ve Gemini bunun sonuçlarının ölçülmesi için yöntemler önerse de değerlendirme ve ölçüm çok kolay görünmüyor.

ChatGPT incelediği 3 yazıdaki gibi sayısal öneride bulunmuş:” ‘Yapay zekânın çok adımlı mantık yürütme becerisini ölçen bir çalışma: Kademeli Mantık Zinciri Problemi’.  Bu yöntem, yapay zekâların tek adımda doğru yanıt vermek yerine mantık zincirleri uzadıkça hata yapma eğilimini açıkça gösterebileceğiniz bir test olur. Ayrıca girdiler kontrol edilebilir ve çıktılar ölçülebilirdir.”  Örnek olarak “Bir sayı verilir. Bu sayıya art arda 4–10 adım boyunca dönüşümler uygulanır. Yapay Zekadan her adımı tek tek takip ederek son değeri bulması istenir.” Böyle bir öneride bulunmasının nedenini de kolay ölçülebilir olmasıyla açıklıyor.

ChatGPT önerisi uygulanabilir ancak özgünlüğü tartışılabilir.

Grok bilmeceler sorarak yapay zekâları test edebileceğimiz söylüyor: “Mantık bilmeceleri ise tam bir “zekâ göstergesi” olarak kabul edilir ve LLM’lerin hâlâ sıklıkla çuvalladığı bir alandır. Girdisi çok basit: sadece birkaç cümlelik bir hikâye. Çıktısı %100 ölçülebilir: Ya doğru cevabı bulacak ya da yanlış/çelişkili bir şey söyleyecek.” Grok başka bir sorgulamada da gizemli polisiye hikayelerin çözümlenmesini önermişti.

Grok’un bu önerileri uygulanabilir.

Deepseek şekilleri test etmeyi öneriyor: “Yapay zekaların görsel bilgiyi matematiksel probleme dönüştürme, desen tanıma ve çok adımlı mantık yürütme becerilerini ölçmek.” Bu konunun neden iyi bir seçim olduğunu açıklarken incelediği 3 yazıya gönderme yaparak şöyle diyor: “Matematiksel mantık (1. yazı) + tarihsel mantık (2. yazı) + pratik problem (3. yazı) zincirini tamamlıyor. Görsel ve matematiksel zekayı birleştiriyor: Çağdaş yapay zekaların en çok iddialı olduğu alanları test ediyor. Kontrol edilebilir: Sonuçlar net olarak doğru/yanlış şeklinde değerlendirilebilir. Ölçeklenebilir: Basitten karmaşığa farklı seviyelerde testler hazırlanabilir

Deepseek önerisini uygulamak için şekillerle problemleri formüle edip sonuçlarını ölçülebilir yapmak gerekir.

Copilot basit mantıksal çıkarımlar öneriyor: “Yapay zekânın basit mantıksal çıkarımlarda ne kadar tutarlı olduğunu sınamak. Yani, verilen birkaç kısa öncül üzerinden doğru sonuç çıkarıp çıkaramadığını ölçmek.”

Copilot sadece verilen 3 yazıya okumakla kalmamış yazarla ilgili de çalışmış ve İnebolu hakkında çok yazdığını farkedip önerisi için şöyle bir örnek oluşturmuş: “Örneğin: ‘İnebolu Karadeniz kıyısındadır.’ / ‘Karadeniz kıyısındaki şehirler denize komşudur.’ / ‘Denize komşu şehirlerde balıkçılık yapılır.’ / Soru: ‘İnebolu’da balıkçılık yapılır mı?’”

Copilot’un basit mantık yaklaşımı “bununla yapay zekâları kandıramam” düşüncesini uyandırıyor. Denenebilir ama sonuç alınabilir mi?

Perplexity de günlük yaşamdan basit sorular öneriyor: “Yapay zekaların basit günlük kararları ne kadar doğru ve tutarlı bir şekilde alabildiğini test edebilirsiniz. Örneğin, kullanıcıya bir dizi küçük karar senaryosu sunulur

Perlexity’nin örneğinde “Yağmur yağıyorsa şemsiye mi almalıyım, yoksa yağmurluk mu?” gibi sorular ne kadar başarılı olur? Bu testlerin her yapay zeka için 10-15 basit karar önermiş. Bu da çok uzun bir deney olacaktır.

Claude mantık bulmacaları öneriyor. “Mantık Bulmacaları Tutarlılık Testi – Yapay zekaların aynı mantıksal problemleri farklı yöntemlerle sunulduğunda nasıl performans gösterdiğini ölçme. Girdiler (Basit ve Ölçülebilir). Klasik mantık bulmacalarından 3-4 tane seçin. Örnek bulmacalar: Köprü ve El Feneri Problemi: Dört kişi, bir köprü, iki kişi aynı anda geçebiliyor, el feneri var.

Claude’ın önerisi ilginç mantıksal bulmacalarla denenebilir. Bunun için geleneksel bulmacalar araştırılabilir.

Meta çok kısa bir öneride bulunuyor: “Yapay zekânın günlük problem çözme becerisini test etmek. Birkaç basit mantık sorusu veya kısa kod parçaları seç, AI’ya ver ve doğru cevapları, çözüm sürelerini kaydet.”

Meta’nın yanıtı sanki geçiştirmek istermiş gibi, arama araçlarına bakmamızı istiyor.

Qwen, neden-sonuç ilişiklerini test etmeyi öneriyor ve “Basit Bir Hikâyede Neden-Sonuç Zincirini Kurabiliyor mu?” başlığını veriyor. Yöntemi  “Yapay zekânın bir hikâyede verilen olaylar arasındaki neden-sonuç ilişkilerini doğru sırayla kurma ve eksik halkayı tahmin etme yeteneğini test etmek.” olarak açıklıyor.

Qwen örnek olarak iki cümle arasında eksik bırakılan cümleleri tahmin etmek gibi testler önermiş. Akla yakın bir yöntem gibi görünüyor.

Kimi, yapay zekanın Türkçe alfabeye ne kadar hâkim olduğunu test etmeyi önermiş: “Türk alfabesini kullanarak her harfe sayısal değer atayın (…)  Bir kelimenin değeri, harflerinin sayısal değerlerinin toplamı olsun.” Böyle sorular ve Türkçe harf sıralamasında Türkçeye özgü harfler konusunda yapay zekanın bilgisini ölçmek istemiş.

Kimi’nin bu önerisi denemeye değer. Türkçeye özgü (ş, ğ, ı gibi) harfleri içeren sözcük listesi sıralamasındaki başarıları ölçülebilir.

SONUÇ

Özetle, Gemini farklı kavramlar; ChatGPT mantık zincirleri; Grok bilmeceli hikayeler; Deepseek şekiller; Copilot basit mantık; Perplexity günlük basit kararlar; Claude mantık bulmacası; Meta günlük problem; Qwen eksik halka; Kimi alfabe içeren yöntemler öneriyor.

Yapay zekâ modelleri konu ve yöntemleri önerirken kendilerinin başarılı oldukları alanları iyi bildikleri için, yani öğrenci söyleyişiyle “sorular bildiğimiz yerlerden sorulsun” diye bu önerileri oluşturmuşlar. Çoğunlukla basit sorular veya basit mantıksal çıkarımlar öneriyorlar.

Her ne kadar çoğu kolay yanıtlanabilir öneriler olsa da uygulanabilir yöntemler için fikirler oluşmasına yardımcı olan bir çalışma oldu.

Aydın Tiryaki
Ankara, 28 Kasım 2025

Aydın'ın dağarcığı

Hakkında

Aydın’ın Dağarcığı’na hoş geldiniz. Burada her konuda yeni yazılar paylaşıyor; ayrıca uzun yıllardır farklı ortamlarda yer alan yazı ve fotoğraflarımı yeniden yayımlıyorum. Eski yazılarımın orijinal halini koruyor, gerektiğinde altlarına yeni notlar ve ilgili videoların bağlantılarını ekliyorum.
Aydın Tiryaki

Ara