Yeni bir araştırma, mevcut yapay zekâ araçlarının yazılım geliştirme ve yanılgı çözme bahislerinde gereğince iyi olmadığını ortaya çıkardı.
OpenAI, Anthropic vei yapay zekâ şirketlerinin geliştirdiği modeller artık yazılım geliştirme süreçlerinde kullanılmaya başlandı ama bu alanda hevesi olanlar için belirtmek gerek, görünüşe göre daha geliştirilmesi gereken çok şey var.
Google CEO’su Sundar Pichai, şirket içindeki yeni kodların %25’inin yapay zekâ tarafından üretildiğini belirtmişti. Meta CEO’su Mark Zuckerberg deplanlamaları olduğunu söylemişti.
Yapay zekâlar hâlâ yanlışları çözmekte başarısız
fakat Microsoft Research tarafından yapılan yeni bir araştırma, bu modellerin yazılım kusurlarını düzeltmede hâlâ yetersiz kaldığını ortaya koydu. SWE-bench Lite isimli testte, OpenAI’ın ve Anthropic’in ileri seviye modelleri, sunulan 300 yanılgı düzeltme görevinden birçoklarını çözemedi.
Claude 3.7 Sonnet en yüksek muvaffakiyet oranına sahip model olsa da başarı oranı sadece %48,4’te kaldı. OpenAI’ın o1 modeli %30,2; o3-mini ise %22,1 muvaffakiyet gösterdi.
Araştırmacılara göre bu düşük performansın temel sebepleri arasında modellerin yanılgı ayıklama araçlarını verimli kullanamaması ve eğitim datalarında gerçek insan kusur ayıklama süreçlerinden gereğince yararlanamamaları yatıyor.
Yapay zekâ ile ilgili diğer içeriklerimiz:
Peki siz yapay zekâyı kodlama işleriniz için kullandınız mı? Tecrübelerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.