Çin’in geliştirdiği DeepSeek yapay zekası, bir anda Dünya’yı karıştırdı. Uygulama mağazalarında 1 numaraya tırmandı, Nvidia benzeri şirketlerin paylarının çökmesine neden oldu. Pekala tüm bunlar nasıl oldu? DeepSeek’in ChatGPT ya da Gemini gibi dev rakiplerden ayıran şey neydi?
OpenAI, geçtiğimiz hafta ChatGPT için Operator AI aracısını yayınlayarak en azından demolar söylediği söz edilen olduğunda Google benzeri rakiplerine göre çok önde olduğunu gösterdi. Lakin dünyayı sarsan AI haberi ChatGPT, Operator ya da geçen hafta duyurulan devasa Stargate projesi değildi. DeepSeek AI, Çinli bir teşebbüsün OpenAI’nin ChatGPT o1’ine rakip olan R1 akıl yürütme modelini yayınlamasıyla AI dünyasında büyük dalgalar yarattı.
DeepSeek’i farklı kılan ne?
OpenAI o3’ü duyurmuşken diğer AI şirketlerinin o1’e rakip sistemler oluşturması zati beklenen bir şey olduğu için bu kısımda şaşırtan bir durum yok. Fakat DeepSeek’in sıra dışı yanı, Çinli şirketin modellerini açık kaynaklı hale getirerek herhangi bir şirket ya da geliştirici tarafından erişebilir ve incelenebilir kılmasıydı. Daha da ilgi cazibeli olan kısım ise, DeepSeek’in yayınladığı, son derece gelişmiş modelin OpenAI’nin o1’inin maliyetinin çok daha az bir kısmına eğitildiğini iddia eden R1 araştırma makalesiydi.
DeepSeek R1 eğitiminin, OpenAI’ın ChatGPT ile ilerleme için ihtiyaç duyduğu kaynakların sırf %3 ila %5’iyle mümkün olduğu haberi dünya çapında yankı uyandırdı. Pazartesi günü erken süreçlerde yapay zeka ile ilgili pay senetleri düştü, DeepSeek ise App Store’da ChatGPT’yi geride bırakarak 1 numaraya yükseldi.
Mevcut AI yazılımlarındaki sıkıntılardan biri, eseri geliştirme ve kullanma maliyetiyle ilgili. o1 gibi gelişmiş modellerin geliştirilmesi onlarca milyon dolara mal olabilir. İşlem, gerekli bilgi işlem gücünü ve enerji harcamalarını sağlayan üst seviye grafik kartları (GPU) gerektirir.
Bu yüzden ChatGPT o1 gibi bitmiş eserler sınırlamalar olmadan bedelsiz olarak sunulamıyor. OpenAIi şirketlerin maliyetleri karşılaması ve kar elde etmesi gerekir. Bu yüzden 500 milyar dolarlık devasa Stargate programı, bilhassa ABD ile Çin arasındaki kaçınılmaz AI silahlanma yarışı düşünüldüğünde, AI geliştirme için çok çok önemli bir karar.
ABD’nin Çin’e karşı uyguladığı ambargoya karşın…
Çin’in, ChatGPT o1 ürünlerinin geliştirilmesini mümkün kılan aynı üst seviye çiplere ve GPU’lara erişimini engelleyen ABD yaptırımları da düşünüldüğünde, ChatGPT, Gemini, Meta AI ve Claude’un Çin’den çok önemli bir rekabetle karşılaşmaması beklenebilirdi.
DeepSeek’in bu kadar şaşırtan olmasının bir nedeni de buydu. Çinli teşebbüs, yalnızca donanım gücüne güvenerek OpenAI ile rekabet edemeyeceğini biliyordu. OpenAI benzeri şirketlerin elinde tuttuğu sayıda GPU’ya erişemezdi. Bu nedenle, DeepSeek araştırmacıları R1 için farklı bir yaklaşım benimsedi ve aynı donanıma erişim olmadan gelişmiş bir mantık modeli eğitmenin yollarını buldu.
Ayrıca DeepSeek, R1’e erişimi OpenAI’nin ChatGPT’sinden çok daha ucuz hale getirdi. Bütün bunlara DeepSeek modellerinin açık kaynaklı tabiatını da eklerseniz, neden geliştiricilerin Çinli firmanın AI’sını test etmek için akın ettiğini ve DeepSeek’in App Store’da neden yükseldiğini tahmin etmek çok zor olmuyor.
Bir araştırmaya göre, Çinli teşebbüs, daha süratli ve daha ucuz sonuçlar üretmek için OpenAI’nin ChatGPT’yi eğitmek için kullandığı Gözetimli İnce Ayar (SFT) teknolojisi yerine Destekli Öğrenme (RL) kullandı. SFT, AI’ye çeşitli komutlara ne cins karşılıklar vereceğini bilmesi için verilere erişim sağlayarak problemleri çözmenin yollarını göstermeye dayanıyor. RL ise, AI modeline güvenir, ödül sistemiyle karşılıkları bulmaya çalışır ve akabinde AI’ya geri bildirim sağlar.
RL, DeepSeek’in R1’in muhakeme yeteneklerini geliştirmesine ve hesaplama eksikliğinin üstesinden gelmesine imkan sağladı. Lakin, VentureBeat’in belirttiği üzere, RL’ye geçmeden önce R1’in erken kademelerinde insanların AI’yı denetledikleri birtakım SFT eğitimleri gerekliydi.
Sadece 50.000 Nvidia GPU ile gelen başarı
DeepSeek’in bu başarıyı, ABD yaptırımlarından önce alınmış olan 50.000 Nvidia GPU ile başarmış olması, çok daha yeni 500000’den fazla GPU ile çalışan OpenAI, Google ve Anthropic gibi Batılı firmaların benzeyenyöntemler kullanarak yapabileceklerinin sorgulanmasına yol açıyor.
Çin’de High-Flyer Capital Management fonunun desteklediği şirketin DeepSeek-R1 modelinin, 2 bin Nvidia çipi kullanılarak ve yaklaşık 5,6 milyon dolar maliyetle geliştirildiği belirtiliyor.
DeepSeek’in Çin merkezli olması birtakım kuruluşlar ve şahıslar için bir tasa nedeni olacak olsa da, pek çok kişi bu daha ucuz hizmeti tercih edecektir. Bu yüzden batılı AI şirketlerinin de artık maliyetlerini azalmaları mecburî olabilir ve AI alanında yakında çok daha fazla atılım görebiliriz.