Teknoloji

Claude Opus 4.8 kendi kod hatalarının dört katını yakalıyor

Susan Hill

Anthropic en yetenekli modelini Claude Opus 4.8’e yükseltti ve asıl değişiklik daha büyük bir beyin değil, daha temkinli bir beyin. Şirket, modelin kendi yazdığı koddaki kusurları yorumsuz geçirme olasılığının selefine göre yaklaşık dört kat daha düşük olduğunu ve emin olmadığı görev parçalarını daha gönüllü biçimde işaret ettiğini söylüyor. Gerçek işi bir yapay zekâya devreden biri için, ister kod yazmak, ister bir analiz yürütmek, ister bir bilgisayarı kullanmak olsun, asıl önemli özellik bu güvenilirlik.

Bugünün yapay zekâ ajanlarının zayıf noktası aptallık değil, özgüven. Bitmiş görünen ve akıcı okunan çıktılar üretirken sessizce hatalar taşırlar ve kendi başına çalışan bir sistem, bir sonraki adımı bir önceki hatanın üzerine kurmaya eğilimlidir. Bir ajana çok adımlı bir görev verin; baştaki tek bir yanlış varsayım, ardından gelen her şeye yayılabilir, böylece iş tamamlanmış gibi gelir ve fark edilmeden bozuk çıkar. Kendi şüphelerini gizlemek yerine gösteren bir modeli denetlemek daha kolaydır, çünkü insan nereye bakacağını bilir.

En net kanıt kodda. Anthropic, Opus 4.8’in ürettiği koddaki kusurların çok daha azını işaretlemeden geçirdiğini bildiriyor; bu, incelemede değil üretimde ortaya çıkan o sessiz hata. İlk test edenlerden yatırım şirketi Bridgewater Associates, modelin bir analizin hem girdilerindeki hem de çıktılarındaki sorunları kendiliğinden işaret ettiğini, bunun ise diğer sistemlerin sıklıkla kaçırdığı bir şey olduğunu söyledi. Bilgi işinde ve finansta tehlikeli hata, tam da kimsenin vaktinde yakalayamadığıdır.

Benchmark rakamları çerçeveyi destekliyor ama özü değil. Opus 4.8’in, gerçek yazılım mühendisliği görevlerinden kurulu bir test olan SWE-Bench Pro’da yüzde 69,2 aldığı bildiriliyor; bu da onu OpenAI’nin GPT-5.5’i ve Google’ın Gemini 3.1 Pro’sunun önüne koyuyor. Anthropic’in kendi ölçümlerinde bir kodlama testinde her çaba düzeyinde önceki tüm Opus modellerini geçiyor ve şirketin hukuki muhakeme sınavında kaydettiği en yüksek sonucu kurdu. Üstünlükler gerçek ama dar ve benchmark zaferleri, bir modelin gün boyu sıradan iş yaparken nasıl davranacağını kötü öngörür.

Modelle birlikte yeni araçlar geliyor. Claude Code içinde dynamic workflows adlı, araştırma ön izlemesindeki bir özellik, Opus’un büyük bir işi planlayıp ardından tek bir oturumda yüzlerce alt ajanı paralel çalıştırmasına olanak veriyor; yüz binlerce satır kodu kapsayan göçler için tasarlandı ve ölçüt olarak projenin mevcut test takımını alıyor. Ayrıca Claude.ai ve şirketin Cowork ortamındaki yeni bir denetim, modelin bir yanıta ne kadar çaba ve kaç token harcayacağını ayarlamaya izin veriyor.

Çekinceler vaatlere bitişik duruyor. Güvenilirlik kazanımları büyük ölçüde Anthropic’in kendi testlerine dayanıyor ve dört kat daha düşük gibi bir rakam, bağımsız denetlenmiş değil, şirket içi bir ölçüm. Dürüstlüğü de dışarıdan doğrulamak zor, çünkü bir model belirsizliğini ilan edip yine de yanılabilir ya da yanlış yere bayrak dikebilir. Dynamic workflows yalnızca ön izleme olarak geliyor, bitmiş bir özellik olarak değil ve hız anlatısı kulağa geldiğinden daha cömert değil, zira hızlı kip standart ücretin iki katına mal oluyor ve yalnızca eski premium fiyatlara kıyasla daha ucuz deniyor.

Maliyete bakanlar için standart erişim milyon girdi token’ı başına beş dolar ve milyon çıktı başına yirmi beş dolarda kalıyor, önceki Opus ile aynı. Hızlı kip milyon başına on ve elli dolara yaklaşık iki buçuk kat hızla çalışıyor, bu da yeni çaba denetimini bir kalite düğmesi kadar bir bütçe aracı yapıyor. Claude Opus 4.8 şu andan itibaren Anthropic’in geliştirici API’si üzerinden claude-opus-4-8 adıyla erişilebilir ve şirket onu aynı gün her yere açtığını söylüyor. Perşembe günü geldi, Opus 4.7’den yaklaşık altı hafta sonra; bu, o sürüme gösterilen ılık ilgiyi ve OpenAI ile Google’dan gelen bir dizi rakip lansmanı izleyen, alışılmadık derecede kısa bir aralık. Asıl sınav, kendinden kuşku duymaya eğitilmiş bir modelin günlük işte, bir sıralamada parlamaya eğitilmiş bir modelden daha yararlı çıkıp çıkmayacağı ve bu kararı insanların gerçekten çalışmasına izin verdiği ajanlar verecek.

Tartışma

S kadar yorum var.