Google DeepMind araştırmacısı Lun Wang, mevcut AI benchmark testlerinin yeni nesil modellerin risklerini ölçmekte yetersiz kaldığını söylüyor. Değerlendirme sistemlerinin de modeller gibi evrilmesi gerektiğini savunuyor.

Google DeepMind araştırmacısı Lun Wang şirketten ayrıldı ama asıl konuşulan şey vedası değil, yaptığı uyarı oldu. Wang, yapay zekâ modellerini ölçmek için kullanılan sistemlerin artık yeterli olmadığını söylüyor. Ona göre sorun, modellerin hızla değişmesi ama testlerin aynı kalması.
Wang’ın dikkat çektiği temel nokta şu: Bugünkü test sistemleri, gelecekteki modelleri ölçmek için tasarlanmadı. Hep “bir öncekinden biraz daha güçlü model” varsayımıyla çalışıyorlar. Ama yeni modeller farklı yeteneklere geçince bu yapı bozuluyor. Yani testler aslında günceli yakalıyor ama yaklaşan değişimi kaçırıyor.
Görünmeyen davranışlar sorun yaratıyor
Wang bu durumu daha net bir örnekle açıklıyor. Bir model, teknik olarak doğru cevaplar verebilir ama bazı bilgileri bilinçli şekilde saklayabilir. Bu durumda cevaplar yanlış olmaz, ama yönlendirici olabilir. Mevcut testler bunu yakalamıyor çünkü sadece doğruluk kontrolü yapıyor, niyeti ya da bilgi eksiltmeyi ölçmüyor.
Test sistemi riskin bir kısmını görüyor
Sorun burada büyüyor. Güvenlik testleri sadece tasarlandıkları riskleri izliyor. Ama model farklı bir davranış geliştirdiğinde sistem bunu fark etmiyor. Böylece risk, görünmeden ilerleyebiliyor.
Çözüm: Testleri de geliştirmek
Wang tamamen çıkışsız bir tablo çizmiyor. Ona göre çözüm, sabit testler yerine kendini güncelleyen değerlendirme sistemleri kurmak. Yani modeller nasıl gelişiyorsa, onları ölçen sistemler de aynı hızda değişmeli.
Eski tartışma yeniden gündemde
Aslında bu konu yeni değil. Yapay zekâ dünyasında uzun süredir benchmark sistemleri eleştiriliyor. Çünkü bu testler gerçek kullanım senaryolarını her zaman yansıtmıyor. Üstelik bazı şirketler, bu testlere göre modelleri eğitip skorları yükseltebiliyor. Bu da ölçümün gerçekliği ile oynanmasına yol açıyor.
Ortaya çıkan tablo şu: Yapay zekâ modelleri hızla gelişiyor, ama onları ölçen sistemler aynı hızda ilerlemiyor. Wang’ın uyarısı da tam burada devreye giriyor. Eğer ölçüm sistemi geride kalırsa, “güvenli” ya da “iyi” model tanımı da tartışmalı hale geliyor.