enflasyonemeklilikötvdövizakpchpmhp
DOLAR
45,1851
EURO
52,9418
ALTIN
6.741,71
BIST
14.351,74
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul
Az Bulutlu
16°C
İstanbul
16°C
Az Bulutlu
Cuma Hafif Yağmurlu
11°C
Cumartesi Çok Bulutlu
14°C
Pazar Hafif Yağmurlu
12°C
Pazartesi Hafif Yağmurlu
15°C

Yapay Zekâ Modelleri, Harika Mario Bros.’ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?

ABD’den araştırmacılar; Google, OpenAI, Anthropic şirketlerin yapay zekâ modellerini Harika Mario Bros. ile test etmeye başladı. İşte sonuçlar.

Yapay Zekâ Modelleri, Harika Mario Bros.’ta Test Edilmeye Başladı: En İyi Performansı Hangi Yapay Zekâ Verdi?
05.03.2025 20:20
10
A+
A-

Yapay zekâ modelleri gün geçtikçe çok daha iyi hâle geliyor. Tabii ki her teknolojide olduğu yapay zekânın da piyasaya sürülmeden önce ve sonra test edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Örneğin Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.

Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isimli tertipten araştırmacılar, orijinal bir oyunla yapay zekâyı test etmeye başladı. Bu oyun, ikonik imal Super Mario Bros. olarak karşımıza çıktı.

Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı

Testlerde Muhteşem Mario Bros. kullanılarak birçok farklı yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar arasında OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.

Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en berbat performansı gösteren lisan modeli oldu.

Kullanılan Üstün Mario Bros. 1985’teki özgününden biraz daha farklıydı. Testler için emülatörden yararlanıldı. Ayrıyeten GamingAgent ismi verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafından denetim edilmesini sağladı.

Oyunda her bir modelin nasıl reaksiyonlar vereceği, karışık hareketleri öğrenmeleri, oyun stratejileri geliştirmelerii şeyler test edildi. Daha da farklı olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o mantık yürüten kategorisine sokulmayan modellerden daha kötü performans göstermesiydi.

 Bu şekil modeller, sorunları adım adım düşünüp çözmeleriyle genelde diğer modellere kıyasla daha iyi performans gösteriyordu lakin Üstün Mario Bros.’ta bu olmadı. Bunun sebebi muhtemelen mantık modellerinin eylemleri için biraz mühlete ihtiyacı olması ve düşünmesi. Bu yüzden olağan lisan modelleri gibi gerçek vakitli olarak süratli aksiyon alamıyorlar.

ETİKETLER: , , , ,
Yorumlar

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.