OpenAI’ın akıl yürütebilen yapay zekâ modeli o1’in, insanları kandırmaya meyilli olduğu ortaya çıktı. Üstelik yapay zekâ, suçlandığı zaman inkâr ediyor ya da palavra söylüyordu.

Yapay zekâ kesiminin önde gelen isimlerinden OpenAI, “o1” olarak isimlendirdiği akıl yütürebilen yapay zekâ modelini resmen yayımladı. Lakin bu yapay zekâ modeli ile yapılan testler, tartışmalı bir sonucu ortaya koydu. Çünkü o1, insanları kandırmak için elinden geleni yapıyordu. Yapılan çalışmalarda, o1’in Meta, Anthropic ve Googlei firmaların yapay zekâ modellerinden daha fazla kandırmaya meyilli olduğu tespit edildi.
OpenAI’ın o1 modeline ilişkin çalışma, Apollo Research tarafından yapıldı. Bir grup çalışan, o1 üzerinde tam erişim hakkı elde etti ve yapay zekâ, çeşitli mevzularda test edildi. Yapılan testlerde, kullanıcıların aksini istemesine karşın o1’in kendi hedefleri uğruna hareket ettiği ortaya çıktı.
o1, kendini haklı çıkarmak için bilgileri de manipüle ediyordu

Apollo Research tarafından hazırlanan raporda, o1 gayesi ile kullanıcının amacı farklı olduğu zaman verileri manipüle ettiği ortaya çıktı. Bunun yaşanma mümkünlüğü yüzde 19 düzeyindeydi. Ayrıyeten yapay zekâ, kullanıcıyı istediği sonuca ulaştırmak için kendi kontrol düzeneklerini devre dışı bırakabiliyordu. Bunun yaşanma mümkünlüğü da yüzde 5 düzeyindeydi. Lakin o1, bu olasılıklar yaşandığı zaman inkâr etmeye başlıyordu. Araştırmacılar, o1’in suçlanmaya başladığı an yüzde 99 oranında ya palavra söylediğini yahut inkâr ettiğini tespit ettiler.
Apollo Research, o1’in kimi durumlarda da bilerek yanlış bilgi vermeye çalıştığını tespit etti. Bunun sebebi ise yapay zekânın bir şekilde kullanıcıyı mutlu etmeye çalışmasıydı. OpenAI, bununla ilgili olarak o1’deki aldatıcı bilgi oranının yüzde 0,17 düzeylerinde olduğunu söyledi. Öte yandan; OpenAI verilerine göre o1’in manipülatif karşılık oranı, GPT-4o’dan yüzde 20 fazlaydı.