Teknoloji

Opus 4.6’nın iki puan gerisinde, beş kat ucuz: Gemini 3.5 Flash hesabı baştan yazıyor

Susan Hill

Google, Gemini 3.5 Flash’ı pazartesi günü milyon girdi token’ı başına 1,50 dolar ve milyon çıktı token’ı başına 9 dolar fiyatla piyasaya verdi. Yeni model saniyede 280’in üzerinde çıktı token’ı sürdürüyor, öncekiyle aynı bir milyon token’lık bağlam penceresini koruyor ve Artificial Analysis Intelligence Index’e 55 puanla, Gemini 3 Flash’ın dokuz puan üzerinde yerleşiyor. Salı sabahına kadar r/Anthropic’te bir başlık grafiği Claude Opus 4.6’nın yanına çoktan yapıştırmış ve piyasanın altı aydır etrafında döndüğü soruyu sormuştu: bir benchmark’taki iki puanlık fark hangi noktada beş katlık etiketi hak etmemeye başlar?

Intelligence Index, akıl yürütme, bilgi, kodlama, matematik ve agent görevlerinin tamamlanması üzerine bir dizi açık değerlendirmeyi 1 ile 100 arasında tek bir nota indirir. Claude Opus 4.6, uyarlamalı akıl yürütme modunda 57’de duruyor. 19 Mayıs’ta çıkan Gemini 3.5 Flash 55’te duruyor. Sürümler arasındaki dokuz puanlık atlayış, Flash’ın tek bir nesilde kaydettiği en büyük adım — yeni modelin Anthropic’in önceki Sonnet’iyle ham zekâda eşitlenmesine yetecek kadar, Sonnet’in maliyetinin bir kısmıyla.

Reddit başlığının kullandığı «daha akıllı» çerçevesi, açığı Flash lehine abartıyor. Çıplak Intelligence Index’te Opus 4.6 hâlâ iki puan önde. Başlığı patlatan grafik, Intelligence Index’in tek başına değil. Maliyete karşı zekâ-verimliliği görünümü; eksen orada başka bir iş yapıyor ve orada Flash 3.5 Opus 4.6’yı sadece geçmiyor. Yakınında kimsenin olmadığı bir sınıfta oturuyor.

Opus 4.6, milyon girdi token’ı başına yaklaşık 6,25 dolar, milyon çıktı başına 25 dolar alıyor. Flash 1,50 ve 9 alıyor. Çıktı lehine iki-bir ağırlıklı bir sohbet yüküne göre etkili oran, başlığın yuvarladığı «beş kat»dan çok 4,5x’e daha yakın oturuyor. Yuvarlama dürüst. Hız, amiral gemisi için tabloyu kötüleştiriyor: Flash 3.5 saniyede 280’i aşan çıktı token’ı sürdürürken Opus 4.6, maksimum çabayla akıl yürütme modunda aynı test setinde bu tempoyun yaklaşık onda biriyle ilerliyor. Bir kullanıcının imlece baktığı ürünlerde — kodlama asistanları, destek agentları, herhangi bir etkileşimli akış — gecikme, fiyatın geri satın alamayacağı bir özellik.

Bir yıl önce en pahalı modeli almanın gerekçesi tek satıra sığıyordu. Bir sonraki kademeye yapılan kalite sıçraması, fiyat farkının teslim edilen değere kıyasla bir yuvarlama hatası kalmasını sağlayacak kadar büyüktü. Başlığın yapıştırdığı grafik başka bir grafik. Son iki zekâ puanının marjinal maliyeti, üretim yükleri için tüm fiyat kararına dönüştü ve yuvarlama hatası şimdi harcanan her altı dolardan 4,75 dolara daha yakın bir yere düşüyor.

Opus 4.6’yı stack’te tutmak için temiz bir gerekçe var. Yüzlerce sayfa üzerinde uzun bağlamlı akıl yürütme, adım adım hataların biriktiği agent döngüleri, bir araç notunda iki puanlık farkın çok daha büyük göreve özgü üstünlükleri sakladığı doküman analizi. Opus, hata modu «cevap yanlıştı» olduğunda, «cevap geç geldi» olmadığında bir mühendisin başvurduğu model olmayı sürdürüyor. Buna benzeyen üretim yüklerinin payı küçülüyor. Sıfır değil ve milyon başına 25 doların maaşını çıkardığı tam da o şerit.

Faturalanabilir token’ların büyük kısmını hareket ettiren sohbet tur’ları — taslak, özet, sınıflandırma, çeviri, kod tamamlama, müşteriye dönük akıl yürütme — hepsi Flash’ın menzilinde. Mühendislik ekiplerinin her üç ayda bir sorduğu soru artık «hangi model en iyisi» değil. «Kabul edilebilir gecikmede dolar başına en çok hangi model veriyor». O ikinci soruyu Flash, yorumlamayı incelik gerektirmeyen bir farkla şimdi kazanıyor.

Başlığın ikincil çerçevesi, yani «her yerde fikir birliği Opus 4.6’nın 4.7’den iyi olduğu», daha yumuşak bir ele alış hak ediyor. Anekdotik. Anthropic’in iki son Opus sürümü, kod değerlendirmelerinde ve araç kullanım titizliğinde bölünmüş görüşler aldı: bazı ekipler 4.7’de uzun agent döngülerinde gerilemeler bildiriyor, başkaları aynı yüklerde temiz galibiyetler bildiriyor. Davranış küçük sürümler arasında pek çok eksende ince ayarlandığında her iki gözlem aynı anda doğru olabilir. İki model ayrıca kamuya açık indeksinde birbirinden bir puandan az farkla duruyor, dolayısıyla topluluğun bölünmesi yetenek değil zevk tartışmasına daha yakın görünüyor. Tartışılmayan şey, iki Opus’tan herhangi birinin fiyatının yerinden kıpırdamaması.

Reddit konuşmasındaki daha derin sinyal, kullanıcıların ne tartışmadığı. Hiç kimse başlıkta Opus fiyatını ilkesel olarak savunmadı. Çıkan savunmalar yüke özgüydü. «Opus bu agent döngümde hâlâ kazanıyor». «Opus doküman inceleme pipeline’ımızda kalıyor». Gerçek, ama bunlar yük savunmaları, amiral gemisi savunması değil. Bir amiral gemisi, belli bir şeritte değil, yelpaze üzerinde kazanmak zorundadır.

İki puan zekâ açığı. Beş katı fiyat. Diğer yöne altı katı hız avantajı. Bir milyon token’lık bağlam penceresi, milyon girdi başına 1,50 dolar. Multimodal girdi, agent görevlerinde 1650’nin üzerinde Elo, önbelleğe alınmış girdide yüzde doksan indirim. Anthropic’in önümüzdeki çeyrekteki yanıtı kendi öyküsünü anlatacak. Yazımı daha zor olan, Mayıs 2026’da, bir satıcının bir müşteri toplantısına taşımak zorunda kaldığı argüman.

Tartışma

S kadar yorum var.