Yapay zeka, uzun süredir satrançtan, Go’ya kadar birçok farklı oyun aracılığıyla test ediliyor. Son dönemde araştırmacılar, AI’nin yeteneklerini ölçmek için daha dinamik ve hızlı refleks gerektiren oyunlara yöneliyor.

Yapay zeka, Super Mario Bros. ile sınanıyor

Hao AI Lab, 28 Şubat 2025 tarihinde gerçekleştirdiği deneylerde, farklı yapay zeka modellerini Super Mario Bros. oyunlarına dahil etti. Sonuçlar dikkat çekiciydi; Anthropic’in Claude 3.7 modeli en iyi performansı sergilerken, onu Claude 3.5 takip etti. Google’ın Gemini 1.5 Pro ve OpenAI’nin GPT-4o modelleri ise zorlandı.

Ancak test edilen versiyon, orijinal 1985 sürümü olan Super Mario Bros. değildi. Oyun, bir emülatör üzerinde çalıştırıldı ve Hao Lab’in özel olarak geliştirdiği GamingAgent adlı bir sisteme entegre edildi. GamingAgent, AI’ye belirli komutlar göndererek hareket etmesini sağladı, “Engel veya düşman yakındaysa, sola/sağa hareket et veya zıpla.” Yapay zeka, bu komutları değerlendirerek Mario’yu yönlendiren Python kodları üretti.

Hızlı düşünme mi, doğru düşünme mi?

Araştırmacılara göre, Super Mario Bros. gibi gerçek zamanlı oyunlar, AI’nin yalnızca planlama ve strateji oluşturma becerisini değil, aynı zamanda reflekslerini de test ediyor. Buradaki ilginç nokta, "mantık yürüten" modellerin başarısız olması. OpenAI’nin o1 modeli gibi aşamalı düşünerek karar veren sistemler, genel yapay zeka testlerinde başarılı olmasına rağmen Mario’da başarısız oldu. Çünkü bu tür modeller, karar almak için daha fazla zamana ihtiyaç duyuyor. Super Mario Bros.’ta ise zamanlama her şey. Bir saniyelik gecikme, bir engeli aşmak ile düşmek arasındaki farkı belirleyebilir.

Yapay zeka testleri ve gerçek dünya

Oyunlar, onlarca yıldır yapay zekayı test etmek için kullanılıyor. Ancak bazı uzmanlar, oyun dünyasındaki başarıların gerçek dünya problemleriyle ne kadar örtüştüğü konusunda şüpheli. Oyunlar, soyut ve genellikle basit yapıya sahip olduğundan, yapay zekaya sonsuz miktarda veri sağlanabilir. Gerçek dünyada ise belirsizlikler ve sınırlamalar var.

Son dönemde artan oyun temelli yapay zeka testleri, OpenAI’nin kurucu araştırmacılarından Andrej Karpathy’nin dikkat çektiği değerlendirme krizini gündeme getirdi. Karpathy, X platformunda yaptığı paylaşımda, günümüzde yapay zekayı hangi ölçütlerle değerlendirmek gerektiğini sorguladı:

“Şu an hangi AI metriklere bakmam gerektiğini gerçekten bilmiyorum. Özetle, bu modellerin ne kadar iyi olduğunu tam olarak değerlendiremiyorum.”

Eğlence mi, gerçek bir test mi?

Yapay zekanın oyunlarda test edilmesi eğlenceli ve ilgi çekici olabilir. Fakat bu testlerin, AI’nin gerçek dünya problemlerini ne kadar iyi çözebileceği konusunda tam anlamıyla sonuç verdiğini söylemek zor. Super Mario Bros. gibi platform oyunlarında performans göstermek, bir yapay zekanın karmaşık toplumsal sorunları çözebileceği anlamına gelmiyor. Yine de, AI’nin karar alma süreçlerini anlamak için ilginç bir pencere açıyor. Şimdilik, AI'nin Mario’yu nasıl oynadığını izleyerek keyif alabiliriz.

Bağlantı kopyalandı!