Teknoloji

OpenAI’nin yeni ses modeli ses döngüsünün içinde düşünüyor, yapay zekâyı ele veren o sessizlik kayboluyor

Susan Hill

Asıl ele veren şey o duraksamadır. Şimdiye kadar sesli yapay zekâ şöyle çalışıyordu — konuşmayı yazıya döker, metni bir dil modeline iletir, dönen yanıtı tekrar sese sentezlerdi. Her adım vakit yer. Kullanıcı sessizlik duyar, karşı tarafta bir şeyin işlendiğini anlar ve dikişi hisseder. OpenAI’nin yeni GPT-Realtime-2 modeli o pipeline’ın tamamını tek bir modele indirgiyor; akıl yürütme doğrudan ses döngüsünün içinde gerçekleşiyor ve dikiş kayboluyor.

OpenAI bu hafta Realtime API’sine üç yeni ses modeli koydu — GPT-Realtime-2, GPT-Realtime-Translate ve GPT-Realtime-Whisper. Manşeti taşıyan ilki. Şirket onu “GPT-5 sınıfı akıl yürütmeye” sahip ilk ses modeli olarak tarif ediyor; tek bir model hem giriş hem çıkış sesini yönetiyor, düşünme transkripsiyon ile sentez adımlarının arasına sıkışmak yerine konuşmanın içine dokunuyor. Bunu destekleyen sayılar somut. Big Bench Audio puanı bir önceki referans modele göre yüzde 81,4’ten yüzde 96,6’ya sıçradı. Audio MultiChallenge yüzde 34,7’den yüzde 48,5’e tırmandı. Bağlam penceresi 32.000 jetondan 128.000 jetona çıktı — tek bir görüşme süresince bir müşterinin geçmişinin tamamını taşıyacak kadar geniş bir alan.

Yapısal kayma benchmark’larda zor görünüyor. Üç yıldır üretime ses ajanı çıkarmak isteyen herkes stack’i elle dikmek zorundaydı — transkripsiyon için Whisper veya Deepgram, akıl yürütme için bir LLM, ses için ElevenLabs veya Cartesia, gecikmeyi maskelemek için prompt mühendisliği. Parçalar arasındaki her sıçrama milisaniye ve netlik götürüyordu. Kullanıcı önce bir senaryonun araya soktuğu “bir saniye, kontrol ediyorum”u, sonra modelin düşünmesi sırasındaki sessizliği, en sonunda da yanıtı duyardı. GPT-Realtime-2 bu iskeleyi yerel davranış olarak getiriyor. Önsözler ajanın araç çağrısı yaparken “bir saniye, kontrol ediyorum” demesine olanak tanıyor, böylece kullanıcı sessizlikte oturmuyor. Paralel araç çağrıları modelin aynı anda birden fazla arka uç isteği başlatmasına ve hangisinin halen koştuğunu konuşarak bildirmesine izin veriyor. Kurtarma davranışı hataları sohbeti dondurmak yerine yüzeye çıkarıyor.

Geliştiriciye açılan kontrol yüzeyi en ilgi çekici kısım. “Akıl yürütme yoğunluğu” artık yapılandırılabilir — minimal, low, medium, high ve xhigh — basit isteklerde gecikmeyi düşük tutmak için varsayılan low olarak ayarlandı. “Saat kaçta kapanıyorsunuz?” sorusunu yanıtlayan bir ajanın GPT-5 sınıfı akıl yürütmeye ihtiyacı yok. Bir müşteriye iade anlaşmazlığında eşlik eden bir ajanın var. Aynı modele her tur için ne kadar derin düşüneceği söylenebiliyor; bu, akıl yürütme derinliğinin sabit olduğu ve geliştiricinin dağıtım anında “hızlı mı, akıllı mı” arasında seçim yapmak zorunda kaldığı önceki modele göre gerçek bir değişim.

Şüphenin yeri var. “GPT-5 sınıfı akıl yürütme” pazarlama cümlesidir, doğrulanabilir bir iddia değil — gerçekçi diyaloğa karşı koşulan bağımsız benchmark’lar olmadığı sürece karşılaştırma içeride kalır. Sesli ajanların benchmark’ların kötü yakaladığı ayrı bir başarısızlık modu var — ajanın sakin, doğal bir sesle yanlış bir şeyi kararlı biçimde söylediği o an. Daha iyi akıl yürütme bunu hafifletir, ortadan kaldırmaz. Fiyat da yük taşıyor. GPT-Realtime-2 milyon ses giriş jetonu başına 32 dolara, milyon çıkış jetonu başına 64 dolara mal oluyor. GPT-Realtime-Translate dakika başına 0,034 dolar, GPT-Realtime-Whisper dakika başına 0,017 dolardan işliyor. Yüksek hacimli müşteri hizmetlerine yetecek kadar ucuz. Tüketici odaklı sohbet ürünlerine düşünmeden boşaltacak kadar ucuz değil — her oturumun süresini iyi tartmak gerekiyor.

Devreye alma bağlamı hikâyenin geri kalanını anlatıyor. Zillow aynı gün sesle ev arama özelliğini çalıştırdı. Deutsche Telekom on dört Avrupa pazarında canlı çeviri eşliğinde ses desteğini açtı. İkisi de tam olarak OpenAI’nin fiyatlamayı hedeflediği kullanım örneği — uzun, işlemsel, bağlam yoğun konuşmalar; kullanıcının yalnızca bilgi çekmek değil, gerçekten akıl yürüten bir ajandan kazanç sağlayacağı durumlar. Priceline yolcuların otel rezervasyonlarını ve uçuş gecikmelerini tamamen sesle yönetmesine olanak tanıyan sistemler kuruyor. OpenAI’nin önce verdiği müşteri isimlerinin altındaki örüntü açık — bunlar önceki ses sistemleri en kötü çalışanlar: çağrı merkezleri, destek hatları, işlem ağırlıklı seyahat hizmetleri. Yani kullanıcının bugün hâlâ telefona “operatör” diye bağırdığı yerler.

Modeller şu an Realtime API’de erişilebilir. ChatGPT’ye yönelik ses güncellemeleri hâlâ yolda — “Bizi takipte kalın, pişiriyoruz”, dedi OpenAI. Sam Altman lansmanı bir davranış kayması etrafında çerçeveledi — kullanıcılar yapay zekâ ile çok fazla bağlam “boşaltmak” istediklerinde sese giderek daha fazla başvuruyor. Bu örüntü tutarsa sesli yapay zekâ ile metinli yapay zekâ arasındaki açık kapanmaya başlıyor — ve telefonda yapay zekâyı ele veren o dikiş, duyulması giderek zorlaşan bir şeye dönüşüyor.

Tartışma

S kadar yorum var.