4 Kat Daha Dürüst Yapay Zekâ: Claude Opus 4.8 Duyuruldu

Webtekno'yu Google'a ekleyin Webtekno'yu Google'da tercih edilen kaynak olarak ekleyin

Anthropic, yeni yapay zekâ modeli Claude Opus 4.8’i duyurdu. Model; kodlama, akıl yürütme ve ajan görevlerinde daha iyi sonuçlar sunarken, şirketin açıklamasına göre önceki sürüme kıyasla hataları fark etme ve belirsizlikleri belirtme konusunda çok daha başarılı.

4 Kat Daha Dürüst Yapay Zekâ: Claude Opus 4.8 Duyuruldu

Anthropic, Claude ailesinin yeni güçlü modeli Claude Opus 4.8’i resmen kullanıma sundu. Şirketin açıklamasına göre yeni model, Opus 4.7’nin üzerine inşa edildi ve özellikle yazılım geliştirme, ajan tabanlı görevler, bilgi işleri ve çok adımlı akıl yürütme konularında daha iyi sonuçlar veriyor. Üstelik standart kullanım fiyatı da değişmedi.

Ancak Claude Opus 4.8’i asıl dikkat çekici yapan şey yalnızca daha güçlü olması değil. Anthropic, yeni modelin belirsiz olduğu durumları daha açık şekilde ifade ettiğini, yeterli kanıt yokken “eminmiş gibi” konuşma ihtimalinin azaldığını söylüyor. Şirketin değerlendirmelerine göre model, yazdığı koddaki hataları fark etmeden geçme konusunda selefine kıyasla yaklaşık 4 kat daha düşük risk taşıyor.

Claude Opus 4.8, Daha Az “Uyduran” Bir Yapay Zekâ Olmayı Hedefliyor

a9007019094f217e98cb8261a2765d7646c01708-2600x1392

Yapay zekâ modellerinde en çok eleştirilen konulardan biri, yanlış bilgiyi kendinden emin şekilde sunmaları. Anthropic’in Opus 4.8 ile çözmeye çalıştığı sorun da tam olarak bu. Model, yaptığı işte emin değilse bunu kullanıcıya daha net söylüyor ve eksik kanıtla kesin sonuçlara varma eğilimini azaltıyor.

Anthropic’in güvenlik testlerine göre Opus 4.8, aldatıcı davranış, kötüye kullanımla iş birliği ve kullanıcıyı yanlış yönlendirme gibi konularda Opus 4.7’ye göre daha düşük skorlar aldı. Hatta şirket, bu modelin uyumlu davranış tarafında en iyi modellerinden biri olan Claude Mythos Preview’a yakın sonuçlar verdiğini belirtiyor.

Kodlama ve Ajan Görevlerinde de Performans Artışı Var

40343dc40c700814e02f0ed90a7b513eca85039c-3840x2160

Paylaşılan benchmark sonuçlarına göre Claude Opus 4.8, SWE-Bench Pro kodlama testinde %69,2 başarı oranına ulaştı. Ayrıca çok disiplinli akıl yürütme, bilgisayar kullanımı, finansal analiz ve bilgi işleri gibi alanlarda da Opus 4.7’ye kıyasla daha iyi sonuçlar elde etti.

Yeni modelle birlikte Claude Code tarafına Dynamic Workflows isimli yeni bir özellik de eklendi. Bu özellik sayesinde Claude, büyük ölçekli yazılım projelerinde işi planlayabiliyor, yüzlerce alt ajanı aynı oturumda çalıştırabiliyor ve çıktıları kontrol ederek kullanıcıya sunabiliyor. Anthropic’e göre bu sistem, yüz binlerce satırlık kod tabanlarında büyük dönüşüm işlemlerini mümkün hâle getiriyor.

Claude’un Ne Kadar “Düşüneceğini” Artık Kullanıcı Seçebilecek

Claude Opus 4.8 ile gelen bir diğer önemli yenilik ise Effort Control oldu. Bu özellik, Claude’un bir göreve ne kadar çaba harcayacağını seçmenizi sağlıyor. Daha yüksek ayarlarda model daha fazla düşünerek daha kaliteli yanıtlar üretirken, düşük ayarlarda daha hızlı ve daha az kaynak tüketen cevaplar verebiliyor.

Anthropic ayrıca Opus 4.8’in hızlı çalışma modunun önceki modellere göre daha ucuz hâle geldiğini açıkladı. Şirket, Opus seviyesindeki yetenekleri daha düşük maliyetle sunacak yeni modeller üzerinde çalıştığını da belirtiyor. Bunun yanında daha gelişmiş bir model sınıfı olarak tanımlanan Claude Mythos Preview da önümüzdeki haftalarda daha geniş kullanıcı kitlesine açılabilir.