OpenAI, gerçek zamanlı sesli yapay zeka için GPT-Realtime-2, Translate ve Whisper modellerini duyurdu. Yeni sistemler konuşma, çeviri ve anlık transkripsiyonu tek akışta daha doğal hale getiriyor.

OpenAI, API tarafında üç yeni ses modelini kullanıma açtı. Amaç, geliştiricilerin gerçek zamanlı sesli uygulamalar kurmasını kolaylaştırmak. Yeni sistemler; konuşma, çeviri ve ses yazıya dökme işlerini ayrı ayrı ele alıyor.
Modellerin adı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper.
Şirket, bu hamleyi “sesli etkileşimi günlük yazılım kullanımına daha yakın hale getirme” hedefiyle açıklıyor.
Sesli yapay zekada yeni dönem
OpenAI, sesin artık yazıdan daha doğal bir etkileşim yolu haline geldiğini söylüyor. Bu modeller de buna göre tasarlandı.
Hedef kullanım senaryoları net:
araba kullanırken sesli komutlar
havaalanında yön bulma
müşteri hizmetleriyle yazmadan iletişim kurma
Yani sistem, ekran yerine konuşmaya odaklanıyor.
GPT-Realtime-2: En güçlü model
Yeni serinin ana modeli GPT-Realtime-2.
OpenAI bu modeli, “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlıyor. Model şunları yapabiliyor:
karmaşık soruları daha iyi çözme
konuşma sırasında bölünmelere uyum sağlama
sohbeti koparmadan devam ettirme
araç kullanımı ve canlı işlem
Model, konuşma sırasında dış araçlara bağlanabiliyor. Örneğin:
takvime bakabiliyor
arama yapabiliyor
sistem içi verilere ulaşabiliyor
Bunu yaparken kullanıcıya da açıklama veriyor: “takviminize bakıyorum” gibi.
Daha uzun konuşma hafızası
Bağlam penceresi 32K’dan 128K’ya çıkarıldı. Bu da:
daha uzun sohbet
daha fazla veri
daha az kopma
anlamına geliyor.
Teknik iyileştirmeler
OpenAI bazı performans verileri de paylaştı:
Big Bench Audio testinde %15,2 daha iyi sonuç
talimat takip testlerinde %13,8 artış
Ayrıca model:
hata sonrası daha iyi toparlanıyor
tıp ve özel alan terimlerini daha iyi anlıyor
Rekabet: Google Gemini Live
OpenAI bu alanda doğrudan Google Gemini Live ile rekabet ediyor.
Google tarafı genelde: daha hızlı yanıt ve daha geniş dil desteği sunuyor. OpenAI ise farklı bir noktaya oynuyor:
daha doğal sohbet akışı
uzun konuşmalarda kopmama
konuşma sırasında işlem yapabilme
Yani hızdan çok “konuşma hissi”ne odaklanıyor.
GPT-Realtime-Translate: Canlı çeviri
İkinci model GPT-Realtime-Translate. Bu model konuşmayı anlık çeviriyor:
70’ten fazla dili alıyor
13 dile anında çeviriyor
konuşma hızını bozmuyor
kullanım alanı
müşteri hizmetleri
seyahat
çok dilli iletişim sistemleri
Örnek olarak Deutsche Telekom, bu sistemi müşteri destek hatlarına entegre etmeye hazırlanıyor. Kullanıcı kendi dilinde konuşuyor, sistem anında çeviriyor.
GPT-Realtime-Whisper: Konuşmayı yazıya çevirme
Üçüncü model GPT-Realtime-Whisper. Bu model canlı konuşmayı metne çeviriyor. Yani: konuşurken yazı oluşturuyor, akış halinde transkripsiyon yapıyor.
OpenAI’nin genel hedefi artık sadece “konuşan asistan” değil. Şirket, bu modelleri şöyle tanımlıyor:
dinleyen
anlayan
çeviren
yazıya döken
işlem yapan
bir sistem yapısı. Örnek kullanım da var: Zillow benzeri sistemler, sesli komutla ev arayıp filtreleme yapabiliyor ve randevu ayarlayabiliyor.