enflasyonemeklilikötvdövizakpchpmhp
DOLAR
38,4492
EURO
43,7197
ALTIN
4.082,15
BIST
9.432,55
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul
Parçalı Bulutlu
15°C
İstanbul
15°C
Parçalı Bulutlu
Pazartesi Az Bulutlu
14°C
Salı Az Bulutlu
15°C
Çarşamba Çok Bulutlu
16°C
Perşembe Çok Bulutlu
18°C

Meta Hakkında Manipülasyon İddiaları Gündemde: Llama 4 Modeli Testte Farklı, Gerçekte Farklı!

Meta’nın Llama 4 modeliyle yaptığı testlerde kullanılan sürüm ile halka açık sürüm arasında fark olduğu ortaya çıktı.

Meta Hakkında Manipülasyon İddiaları Gündemde: Llama 4 Modeli Testte Farklı, Gerçekte Farklı!
09.04.2025 01:20
0
A+
A-

Meta, yeni yapay zekâ modellerini tanıttıfakat sonrasında işler biraz karıştı. Şirketin, modellerini rakiplerinden daha başarılı göstermek için test sonuçlarını biraz “kendi lehine” oynadığı iddia edildi. Velhasıl, Meta’nın yapay zekâsı daha zeki aynıi görünüyordu ama bunun arkasında küçük bir oyun varmış.

Şirketin Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına rağmen bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.

Testte görünen Maverick ile halka sunulan model aynı değil

Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni yapay zekâ modelini tanıttı. Scout ve Maverick isimli bu modellerden bilhassa Maverick’in, GPT-4o ve Gemini 2.0 Flash benzeri rakiplerini geçtiği belirtildi. LMArena isimli tanınan karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.

Ancak kısa süre sonra ortaya çıkan ayrıntılar, test edilen Maverick’in kamuya açık versiyondan farklı olduğunu gösterdi. Meta’nın evraklarında, LMArena’da kullanılan modelin “konuşma yetenekleri için özel olarak optimize edilmiş deneysel bir sürüm” olduğu belirtildi. Patform yöneticilerinin de tepkisini çekti ve kuralların güncelleneceği açıklandı.

Meta, bu özel sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi gereksinimlerine göre özelleştirebileceğini belirtti. Lakin test platformunda gösterilen performans ile halka sunulan modelin farklı olması, gerçek dünyada alınabilecek randımanın sorgulanmasına yol açtı. Şirketin modeli beklenen performansı gösteremediği için daha önce birkaç sefer ertelediği de biliniyor.

Yaşanan bu gelişme, yapay zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından kıymetini bir defa daha gündeme taşıdı. vakitte modellerin test şartları ile kullanıcıya sunulan hâli arasında fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.

ETİKETLER: , ,
Yorumlar

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.