Turing Testi’nde yeni bir eşik aşıldı: GPT-4.5, hakemlerin dörtte üçünü yanılttı. Araştırmacılar bunun siber dolandırıcılık ve manipülasyon açısından ciddi riskler taşıdığı konusunda uyarıyor.

İnternette biriyle yazışırken aklınızın bir köşesinde “acaba bu bir bot mu?” sorusu beliriyor mu? Bu şüphe giderek daha da yerinde bir sezgiye dönüşüyor. Stony Brook Üniversitesi ve California Üniversitesi’nden araştırmacıların yürüttüğü yeni bir çalışma, yapay zekanın belirli koşullar altında insanları kendi türünden biri olduğuna ikna edebildiğini ortaya koydu.
Deneyin yöntemi, bilgisayar biliminin öncüsü Alan Turing‘in 1950’de geliştirdiği klasik teste dayanıyor. Bir hakem, metin üzerinden biri insan biri makine olan iki tarafla beş dakika boyunca sohbet ediyor; ardından hangisinin hangisi olduğunu tahmin etmeye çalışıyor. Yüzlerce katılımcı ve dört farklı yapay zeka modeli bu süreçten geçirildi. Sonuçlar düşündürücüydü.
“Genç ve içine kapanık” bir algoritma
En yüksek skoru OpenAI’ın GPT-4.5 modeli aldı: Hakemlerin yüzde 73’ü bu yapay zekayı gerçek bir insan sandı. Meta’nın LLaMa-3.1-405B modeli yüzde 56 ile şans faktörünün hafif üzerinde kaldı. Buna karşın GPT-4o yalnızca yüzde 21, eski sohbet robotu ELIZA ise yüzde 23 başarı yakalayabildi.
Asıl ilginç olan ise GPT-4.5’in bu başarıyı nasıl elde ettiği. Modele “genç, içine kapanık, vaktinin büyük bölümünü internette geçiren” bir karakter verilmişti. Yani yapay zeka üstün bir zeka sergilediği için değil, sosyal medyada sıkça rastlanan insan tiplemelerini başarıyla taklit ettiği için hakemleri yanılttı. Turing Testi de öznel bir ölçüm aracı; sonuçlar, hakemin yorumuna ve karşısındaki gerçek insanın o anki sohbet performansına göre ciddi ölçüde değişebiliyor.
Araştırmacılar bu bulguların hafife alınmaması gerektiği konusunda uyarıyor. Gündelik yazışmalarda karşımızdakinin makine mi insan mı olduğunu ayırt etme sınırı giderek bulanıklaşıyor. Siber dolandırıcılık ve dijital manipülasyon açısından bunun ne anlama geldiğini tahmin etmek güç değil. Yapay zekanın bu tür testleri geçmesi de yeni bir gelişme sayılmaz; geçen yıldan bu yana bu alanda birden fazla sınır aşıldı. Sorun şu ki teknoloji, kurallar ona yetişmeden çok önce ilerliyor.