Yapay zeka modellerinin yeteneklerini ölçmek için farklı benchmark (kıyaslama) testleri kullanılırken, son dönemde yeni bir yaklaşım dikkat çekiyor: Super Mario Bros. oynatmak. Kaliforniya Üniversitesi’nde bir araştırma kuruluşu olan Hao AI Lab, popüler yapay zeka modellerini Super Mario Bros. oyununa sokarak test etti ve çarpıcı sonuçlar elde etti.
Yapılan deneyde, Anthropic’in Claude 3.7 modeli en iyi performansı sergilerken, onu Claude 3.5 takip etti. Google’ın Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise beklenenden düşük bir performans gösterdi.
Düşünen modeller fazla “düşünmenin” kurbanı oldu
Ancak bu test, 1985 yapımı klasik oyunun birebir aynısını kullanmıyordu. Emülatörde çalıştırılan ve GamingAgent adlı özel bir framework ile entegre edilen oyun, yapay zekalara Mario’yu kontrol etme imkanı sundu. Bu sistem, “engel veya düşmanlardan kaçınmak için zıpla” gibi basit komutlar ve ekran görüntüleri sağlayarak yapay zekaların hamle yapmasını sağladı. Modeller, Python kodları üreterek Mario’yu yönlendirdi.
Hao AI Lab’in araştırmacılarına göre bu test, yapay zekaların karmaşık manevraları planlama ve oyun stratejileri geliştirme yeteneğini test etmek için önemli. İlginç bir şekilde, adım adım mantık yürüten “düşünen” modellerin, sezgisel çalışan modellere kıyasla daha başarısız olduğu görüldü. OpenAI’ın o1 modeli, genellikle birçok kıyaslama testinde güçlü performans sergilese de, burada başarısız oldu.
Bunun temel nedeni, gerçek zamanlı oyunlarda karar verme sürecinin hızının kritik olması. o1 gibi yapay zeka modelleri, hamle yapmadan önce belirli bir süre boyunca “düşünmeye” ihtiyaç duyuyor. Ancak Super Mario Bros.’ta bir saniyelik gecikme bile karakterin ölümüyle sonuçlanabiliyor.
Öte yandan yapay zekalar onlarca yıldır oyunlar üzerinden test ediliyor. Ancak bazı uzmanlar, oyun becerilerinin yapay zekanın genel zekası veya teknolojik ilerlemesi hakkında doğru bir fikir verip vermediğini sorguluyor. Çünkü oyunlar genellikle gerçek dünyadan daha soyut, belirli kurallara dayalı ve teoride sonsuz miktarda veri sağlayan ortamlar sunuyor.
Bu haberi, mobil uygulamamızı kullanarak indirip,istediğiniz zaman (çevrim dışı bile) okuyabilirsiniz:

