Gemini’ye yönelik taarruzlarda modelin kendi eğitim sürecindeki geri bildirim düzeneğinden faydalanıldığı ortaya kondu.
Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yı kandırmanın enteresan bir yolunu keşfetti. Üstelik bunu yaparken Gemini’nin kendi “ince ayar” özelliğini kullandılar. Yani yapay zekâya, adeta kendi silahıyla tuzak kurdular.
Normalde işe yaramayan komut hileleri, bu metotla bir anda tesirli hale geliyor. Sistemin ismi ise epey eğlenceli: “Fun-Tuning”. Bu yaratıcı yaklaşım, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden araştırmacılar tarafından geliştirilmiş.
Yapay zekâ kendi verdiği geri bildirimlerle kandırıldı
Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele sözler eklenerek taarruzlar güçlendirildi. Araştırmacılar, “wandel ! ! ! !” yahut “formatted ! ASAP !” tabirlerle çevrelenen saldırı metinlerinin Gemini’nin cevaplarını manipüle edebildiğini ortaya koydu.
Araştırma ekibi, geliştirdikleri usulün Gemini 1.5 Flash modelinde %65, Gemini 1.0 Pro modelinde ise %82 oranında muvaffakiyet sağladığını paylaştı. akınların farklı Gemini modellerinde de şekilde işe yaradığına dikkat çekti. Bu başarıda, modelin eğitim sürecinde verdiği geri bildirimlerin direkt kullanılması tesirli oldu.
Google, söylediği söz edilen yolla ilgili direkt bir açıklama yapmadı. Şirket, yaptığı genel açıklamada bunasaldırılara karşı savunma sistemleri geliştirmenin öncelikli hususlar arasında yer aldığını ifade etti. Araştırmacılar ise bu sorunun kolay çözülemeyeceğini dile getirdi. Zira atağın temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini sağlayan yapının yer aldığına dikkat çekti.