
OpenAI gerçek zamanlı ses modelleri ailesini genişletti: GPT-Realtime-2, Translate ve Whisper geliştiricilere açıldı
OpenAI, 7 Mayıs 2026 tarihinde yaptığı açıklamayla API tarafında kullanıma sunduğu üç yeni gerçek zamanlı ses modelini duyurdu. GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper ismini taşıyan bu modeller, sesli yapay zekanın artık yalnızca soru-cevap yapan bir asistandan çok daha fazlası olacağını gösteriyor. Şirketin hedefi, konuşmayı yazılım kullanmanın en doğal yolu haline getirmek.
GPT-5 Seviyesinde Mantık Yürütebilen İlk Ses Modeli
Yeni serinin amiral gemisi olan GPT-Realtime-2, OpenAI tarafından “GPT-5 seviyesinde akıl yürütebilen ilk ses modeli” olarak tanımlanıyor. Modelin selefi GPT-Realtime-1.5‘e kıyasla en büyük farkı, karmaşık kullanıcı taleplerini çok daha iyi analiz edebilmesi ve sohbet akışını bozmadan işlem yapabilmesi. Kullanıcı konuşurken araya girse veya fikrini değiştirse bile model diyaloğu koparmadan devam ettirebiliyor. Daha da önemlisi, konuşma esnasında “takviminize bakıyorum” veya “hemen kontrol ediyorum” gibi doğal geri bildirimler vererek arka planda takvim, arama motoru ya da şirket içi sistemler gibi harici araçlara bağlanabiliyor.
Teknik tarafta da ciddi sıçramalar söz konusu. Modelin bağlam penceresi 32K‘dan 128K tokene çıkarıldı. Bu sayede bir buçuk saati aşan uzun konuşmalarda dahi bağlam korunabiliyor. Performans testlerinde ise Big Bench Audio kıyaslamasında bir önceki nesle göre %15,2, talimat takip testlerinde ise %13,8 daha yüksek skor elde edildi. Tıp ve teknik terminoloji gibi özel alan terimlerini anlama kabiliyeti de hissedilir biçimde artmış durumda.
70’ten Fazla Dili Anlayıp 13 Dile Anında Çeviri
İkinci model GPT-Realtime-Translate, canlı konuşmaları eş zamanlı olarak çevirmek için tasarlandı. Sistem 70‘in üzerinde giriş dilini algılayabiliyor ve bunları 13 çıkış diline, konuşmacının temposuna ayak uydurarak tercüme edebiliyor. Çeviri sırasında konuşmanın doğal akışı bozulmuyor; araya giren farklı dillerdeki konuşmacıları da aynı hassasiyetle işleyebiliyor. OpenAI bu modeli özellikle müşteri hizmetleri, sınır ötesi satış, eğitim, etkinlik ve içerik üreticisi platformları için konumlandırıyor.
Avrupa’nın dev telekom şirketlerinden Deutsche Telekom, çok dilli müşteri destek hatlarında bu modeli test etmeye şimdiden başladı. Benzer biçimde seyahat platformu Priceline, kullanıcıların uçuş ve otel rezervasyonlarını sesli komutlarla yönetebildiği bir sistemi deniyor.
Konuşma Anında Metne Dökme
Üçüncü model GPT-Realtime-Whisper ise düşük gecikmeli, akış halinde konuşma-metin dönüşümüne odaklanıyor. Konuşmacı daha cümlesini bitirmeden sistem metni oluşturmaya başlıyor. Canlı yayın altyazıları, toplantı notları ve iş akışı güncellemeleri gibi alanlarda bekleme süresini neredeyse ortadan kaldırıyor.
Fiyatlandırma ve Erişim
Her üç model de OpenAI‘ın Realtime API‘si üzerinden erişime açıldı. Fiyatlandırma şu şekilde:
-
GPT-Realtime-2: Ses girişi için milyon token başına 32 dolar, ses çıkışı için 64 dolar
-
GPT-Realtime-Translate: Dakika başına 0,034 dolar
-
GPT-Realtime-Whisper: Dakika başına 0,017 dolar
Google Gemini Live ile Rekabet Kızışıyor
Bu hamle, sesli yapay zeka alanında Google Gemini Live ile rekabeti yeni bir boyuta taşıyor. Google tarafı genellikle daha hızlı yanıt süreleri ve daha geniş dil desteğiyle öne çıkarken, OpenAI doğal konuşma akışına, uzun diyaloglarda kopmama becerisine ve konuşma sırasında işlem yapabilme yeteneğine yatırım yapıyor. Sesli etkileşimi “komut ver – yanıt al” döngüsünden çıkarıp, ekrana bakmadan iş tamamlayabilen bir arayüze dönüştürme stratejisi izleniyor.
Sektörden İlk Yansımalar
Yeni modelleri test eden şirketler arasında emlak devi Zillow ve çevrim içi seyahat platformu Priceline da var. Zillow, kullanıcıların “bütçeme uygun, yoğun caddelerden uzak evleri bul ve cumartesi için randevu ayarla” gibi karmaşık taleplerini sesle iletebildiği bir asistan inşa ediyor. Priceline ise seyahat planlarının tamamını sesli komutlarla yönetmeyi hedefliyor.
OpenAI‘ın bu atılımı, sesli yapay zekayı bilim kurgudan çıkarıp gündelik yazılım deneyiminin merkezine yerleştirme yolunda atılmış en somut adımlardan biri olarak değerlendiriliyor. hedefbilgitoplumu.com
