enflasyonemeklilikötvdövizakpchpmhp
DOLAR
45,3532
EURO
53,5211
ALTIN
6.875,62
BIST
15.062,65
Adana Adıyaman Afyon Ağrı Aksaray Amasya Ankara Antalya Ardahan Artvin Aydın Balıkesir Bartın Batman Bayburt Bilecik Bingöl Bitlis Bolu Burdur Bursa Çanakkale Çankırı Çorum Denizli Diyarbakır Düzce Edirne Elazığ Erzincan Erzurum Eskişehir Gaziantep Giresun Gümüşhane Hakkari Hatay Iğdır Isparta İstanbul İzmir K.Maraş Karabük Karaman Kars Kastamonu Kayseri Kırıkkale Kırklareli Kırşehir Kilis Kocaeli Konya Kütahya Malatya Manisa Mardin Mersin Muğla Muş Nevşehir Niğde Ordu Osmaniye Rize Sakarya Samsun Siirt Sinop Sivas Şanlıurfa Şırnak Tekirdağ Tokat Trabzon Tunceli Uşak Van Yalova Yozgat Zonguldak
İstanbul
Az Bulutlu
22°C
İstanbul
22°C
Az Bulutlu
Pazar Çok Bulutlu
23°C
Pazartesi Az Bulutlu
25°C
Salı Az Bulutlu
25°C
Çarşamba Parçalı Bulutlu
21°C

OpenAI gerçek zamanlı ses için 3 yeni model duyurdu

OpenAI, gerçek zamanlı sesli yapay zeka için GPT-Realtime-2, Translate ve Whisper modellerini duyurdu. Yeni sistemler konuşma, çeviri ve anlık transkripsiyonu tek akışta daha doğal hale getiriyor.

OpenAI gerçek zamanlı ses için 3 yeni model duyurdu
09.05.2026 17:40
1
A+
A-

OpenAI, API tarafında üç yeni ses modelini kullanıma açtı. Amaç, geliştiricilerin gerçek zamanlı sesli uygulamalar kurmasını kolaylaştırmak. Yeni sistemler; konuşma, çeviri ve ses yazıya dökme işlerini ayrı ayrı ele alıyor.

Modellerin adı: GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper.

Şirket, bu hamleyi “sesli etkileşimi günlük yazılım kullanımına daha yakın hale getirme” hedefiyle açıklıyor.

Sesli yapay zekada yeni dönem

OpenAI, sesin artık yazıdan daha doğal bir etkileşim yolu haline geldiğini söylüyor. Bu modeller de buna göre tasarlandı.

Hedef kullanım senaryoları net:

  • araba kullanırken sesli komutlar

  • havaalanında yön bulma

  • müşteri hizmetleriyle yazmadan iletişim kurma

Yani sistem, ekran yerine konuşmaya odaklanıyor.

GPT-Realtime-2: En güçlü model

Yeni serinin ana modeli GPT-Realtime-2.

OpenAI bu modeli, “GPT-5 seviyesinde mantık kurabilen ilk ses modeli” olarak tanımlıyor. Model şunları yapabiliyor:

  • karmaşık soruları daha iyi çözme

  • konuşma sırasında bölünmelere uyum sağlama

  • sohbeti koparmadan devam ettirme

  • araç kullanımı ve canlı işlem

Model, konuşma sırasında dış araçlara bağlanabiliyor. Örneğin:

  • takvime bakabiliyor

  • arama yapabiliyor

  • sistem içi verilere ulaşabiliyor

Bunu yaparken kullanıcıya da açıklama veriyor: “takviminize bakıyorum” gibi.

Daha uzun konuşma hafızası

Bağlam penceresi 32K’dan 128K’ya çıkarıldı. Bu da:

  • daha uzun sohbet

  • daha fazla veri

  • daha az kopma

anlamına geliyor.

Teknik iyileştirmeler

OpenAI bazı performans verileri de paylaştı:

  • Big Bench Audio testinde %15,2 daha iyi sonuç

  • talimat takip testlerinde %13,8 artış

Ayrıca model:

hata sonrası daha iyi toparlanıyor

tıp ve özel alan terimlerini daha iyi anlıyor

Rekabet: Google Gemini Live

OpenAI bu alanda doğrudan Google Gemini Live ile rekabet ediyor.

Google tarafı genelde: daha hızlı yanıt ve daha geniş dil desteği sunuyor. OpenAI ise farklı bir noktaya oynuyor:

  • daha doğal sohbet akışı

  • uzun konuşmalarda kopmama

  • konuşma sırasında işlem yapabilme

Yani hızdan çok “konuşma hissi”ne odaklanıyor.

GPT-Realtime-Translate: Canlı çeviri

İkinci model GPT-Realtime-Translate. Bu model konuşmayı anlık çeviriyor:

  • 70’ten fazla dili alıyor

  • 13 dile anında çeviriyor

  • konuşma hızını bozmuyor

  • kullanım alanı

  • müşteri hizmetleri

  • seyahat

  • çok dilli iletişim sistemleri

Örnek olarak Deutsche Telekom, bu sistemi müşteri destek hatlarına entegre etmeye hazırlanıyor. Kullanıcı kendi dilinde konuşuyor, sistem anında çeviriyor.

GPT-Realtime-Whisper: Konuşmayı yazıya çevirme

Üçüncü model GPT-Realtime-Whisper. Bu model canlı konuşmayı metne çeviriyor. Yani: konuşurken yazı oluşturuyor, akış halinde transkripsiyon yapıyor.

OpenAI’nin genel hedefi artık sadece “konuşan asistan” değil. Şirket, bu modelleri şöyle tanımlıyor:

  • dinleyen

  • anlayan

  • çeviren

  • yazıya döken

  • işlem yapan

bir sistem yapısı. Örnek kullanım da var: Zillow benzeri sistemler, sesli komutla ev arayıp filtreleme yapabiliyor ve randevu ayarlayabiliyor.

ETİKETLER: , , , ,
Yorumlar

Henüz yorum yapılmamış. İlk yorumu yukarıdaki form aracılığıyla siz yapabilirsiniz.