Yapay Zekâ Modelleri, Harika Mario Bros.’ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

ABD’den araştırmacılar; Google, OpenAI, Anthropic şirketlerin yapay zekâ modellerini Harika Mario Bros. ile test etmeye başladı. İşte sonuçlar.

Yapay Zeka

05.03.2025 20:20

A⁺

A^-

Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.

Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli tertipten araştırmacılar, orijinal bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik imal Super Mario Bros. olarak karşımıza çıktı.

Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı

Testlerde Muhteşem Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.

Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en berbat performansı gösteren lisan modeli oldu.

Kullanılan Üstün Mario Bros. 1985’teki özgününden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıyeten GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından denetim edilmesini sağladı.

Oyunda her bir modelin nasıl reaksiyonlar vereceği, karışık hareketleri öğrenmeleri, oyun stratejileri geliştirmelerii şeyler test edildi. Daha da farklı olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.

Bu şekil modeller, sorunları adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu lakin Üstün Mario Bros.’ta bu olmadı. Bunun sebebi muhtemelen mantık modellerinin eylemleri için biraz mühlete ihtiyacı olması ve düşünmesi. Bu yüzden olağan lisan modelleri gibi gerçek vakitli olarak süratli aksiyon alamıyorlar.

ETİKETLER: Claude, Modeli, Oyun, Performans, Test

Yorumlar

[ Yoruma cevap yazmaktan vazgeç ]

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.