Tümü Webekno

Kategoriler

Hakkımızda Yazarlar Ödüllerimiz Künye Gizlilik İletişim
  1. Webtekno
  2. Yapay Zekâ Haberleri ve İçerikleri

DeepSeek'ten 2026'nın İlk Büyük Hamlesi: Dev Yapay Zekâ Modellerini Ucuza Eğitmenin Formülü Bulundu!

Çinli yapay zekâ devi DeepSeek, 2026 yılına mHC adını verdiği yeni bir teknik makale ile girdi. Kurucu Liang Wenfeng imzalı çalışma, devasa modelleri çok daha düşük maliyet ve yüksek verimlilikle eğitmeyi vadeden "Manifold-Constrained Hyper-Connections" mimarisini tüm dünyaya duyurdu.

DeepSeek'ten 2026'nın İlk Büyük Hamlesi: Dev Yapay Zekâ Modellerini Ucuza Eğitmenin Formülü Bulundu!

Yapay zekâ dünyası 2026'ya oldukça hızlı bir giriş yaptı. Çinli yapay zekâ devi DeepSeek, yayımladığı yeni teknik makale ile temel yapay zekâ modellerinin eğitiminde kullanılan mimariyi kökten değiştireceğini ileri sürdü. Şirketin kurucusu Liang Wenfeng'in de aralarında bulunduğu 19 kişilik ekip, modelleri daha uygun maliyetli hâle getirmeyi amaçlıyor.

Bu yeni yöntem, özellikle kısıtlı işlem gücüyle ABD'li rakiplerine karşı yarışan şirketler için can suyu niteliğinde olabilir. "Manifold-Constrained Hyper-Connections" (mHC) olarak adlandırılan teknik, modellerin ölçeklenebilirliğini artırırken hesaplama yükünü neredeyse hiç artırmıyor.

Manifold-Constrained Hyper-Connections (mHC) nedir ve neyi değiştiriyor?

Başlıksız-1

DeepSeek'in önerdiği mHC mimarisi, aslında ByteDance tarafından 2024'te önerilen Hyper-Connections (HC) çözümünün geliştirilmiş bir versiyonu. Araştırmacılar; bu tekniği 3 milyar, 9 milyar ve 27 milyar parametreli modellerde test ederek sistemin başarısını kanıtladı. Sonuçlar, mHC'nin geleneksel yöntemlere göre çok daha kararlı bir büyük ölçekli eğitim sunduğunu gösteriyor.

Mevcut sistemlerde kullanılan ResNet mimarisi, derin ağlarda bilgi akışını stabilize etse de bazı sinyal sorunları yaşatabiliyordu . mHC ise bu süreci belirli bir "manifold" ile kısıtlayarak bellek maliyetlerini kontrol altında tutuyor ve verimliliği maksimize ediyor. Bu durum, gelecek nesil temel modellerin evrimi için yeni bir yol aydınlatabilir.

Başlıksız-1

DeepSeek'in bu teknik makaleyi bizzat CEO Liang Wenfeng aracılığıyla arXiv'e yüklemesi, sektör analistleri tarafından önemli bir sinyal olarak görülüyor. Genellikle bu tarz derin teknik paylaşımlar, şirketin bir sonraki büyük modelinin ayak sesleri olarak kabul ediliyor.

Şirket, geçtiğimiz yıl çığır açan R1 modelini Çin'in ulusal tatili arifesinde yayımlamıştı. Bu yıl da benzer bir stratejiyle, Şubat ortasındaki "Bahar Festivali" döneminde yeni bir modelin piyasaya sürülmesi bekleniyor. Yapay zekâ eğitiminde maliyetlerin bu denli düşmesi, sektördeki dengeleri tamamen değiştirebilir.

YORUMLAR

(0)
Yorumunuz minimum 30 karakter olmalıdır. (0)
Henüz yorum yok. İlk yorumu sen yaz!