ABD’den araştırmacılar; Google, OpenAI, Anthropic şirketlerin yapay zekâ modellerini Harika Mario Bros. ile test etmeye başladı. İşte sonuçlar.

Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.
Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli tertipten araştırmacılar, orijinal bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik imal Super Mario Bros. olarak karşımıza çıktı.
Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı
Testlerde Muhteşem Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.
Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en berbat performansı gösteren lisan modeli oldu.
Kullanılan Üstün Mario Bros. 1985’teki özgününden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıyeten GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından denetim edilmesini sağladı.
Oyunda her bir modelin nasıl reaksiyonlar vereceği, karışık hareketleri öğrenmeleri, oyun stratejileri geliştirmelerii şeyler test edildi. Daha da farklı olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.
Bu şekil modeller, sorunları adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu lakin Üstün Mario Bros.’ta bu olmadı. Bunun sebebi muhtemelen mantık modellerinin eylemleri için biraz mühlete ihtiyacı olması ve düşünmesi. Bu yüzden olağan lisan modelleri gibi gerçek vakitli olarak süratli aksiyon alamıyorlar.