DeepSeek-V3 yeni teknik raporla düşük maliyetli büyük model eğitiminde donanım odaklı yaklaşımı anlattı
DeepSeek-V3 yeni teknik raporla düşük maliyetli büyük model eğitiminde donanım odaklı yaklaşımı anlattı

DeepSeek-V3 ekibinin paylaştığı 14 sayfalık teknik rapor, büyük dil modellerini ucuzlatan yaklaşımın sadece “daha büyük model” değil, donanım ile mimarinin birlikte tasarlanması olduğunu anlatıyor.

Odak noktası: Bellek, hesap verimi ve bağlantı bant genişliği

Rapora göre büyük modeller büyüdükçe üç temel darboğaz öne çıkıyor. Yüksek hızlı bellek kapasitesi baskısı artıyor. Token başına hesap maliyeti maliyetleri yukarı çekiyor. GPU’lar arası iletişim ise ölçek büyüdükçe toplam süreyi belirleyebiliyor.

Bu çerçevede DeepSeek-V3, 2048 adet NVIDIA H800 GPU ile eğitilen bir örnek çalışma olarak konumlandırılıyor. Ekip, mimari kararların doğrudan donanım sınırlamalarıyla şekillendiğini vurguluyor.

DeepSeek-V3 teknik rapor görseli 1

MLA ile KV cache yükünü düşürme

Raporda bellek tarafındaki en kritik kalemlerden biri olarak KV cache gösteriliyor. DeepSeek-V3 tarafında Multi-head Latent Attention (MLA) yaklaşımıyla, çoklu attention head’lerin key-value temsilleri daha küçük bir “latent” vektöre sıkıştırılıyor.

Çıkarım sırasında tam KV yerine bu sıkıştırılmış latent vektörün önbelleğe alınması hedefleniyor. Raporda yer alan kıyaslamada token başına KV cache ayak izi DeepSeek-V3 için yaklaşık 70 KB olarak veriliyor. Aynı tabloda bazı büyük GQA tabanlı modellerin yüzlerce KB seviyesine çıktığı belirtiliyor.

DeepSeek-V3 teknik rapor görseli 2

DeepSeekMoE ile seyrek hesaplama ve maliyet dengesi

Raporda DeepSeek-V3’ün DeepSeekMoE mimarisi üzerinden, toplam parametre sayısını büyütürken token başına etkin hesaplamayı sınırlama yaklaşımı anlatılıyor. Paylaşılan değerlerde modelin toplam boyutu 671B parametre seviyesinde verilirken, token başına etkinleştirilen parametre miktarı 37B olarak aktarılıyor.

Bu yaklaşım, dense modellere göre token başına hesap maliyetini düşürmeyi hedefliyor. Rapordaki karşılaştırma tablosunda DeepSeek-V3 MoE için token başına eğitim hesap maliyeti 250 GFLOPS seviyesinde paylaşılırken, örnek bir 72B dense model için daha yüksek bir değer veriliyor.

DeepSeek-V3 teknik rapor görseli 3

FP8 karma hassasiyet: Eğitimde verimlilik arayışı

Teknik rapor, düşük hassasiyetli hesaplamanın sadece çıkarımda değil eğitimde de kritik hale geldiğini anlatıyor. DeepSeek-V3 tarafında FP8 karma hassasiyet kullanımıyla donanımın etkin değerlendirilmesi hedefleniyor.

İletişim tarafında da veri hacmini azaltan yaklaşımlara değiniliyor. Raporda EP (expert parallelism) gibi all-to-all iletişimin yoğun olduğu adımlarda, düşük hassasiyetli formatlarla transfer yükünü düşürmeye dönük teknikler ele alınıyor.

DeepSeek-V3 teknik rapor görseli 4

H800 düğüm tasarımı: NVLink ve NIC mimarisi aynı resimde

Rapor, eğitim kümesinde kullanılan H800 düğüm içi bağlantı düzenine de yer veriyor. NVLink ile düğüm içi trafik taşınırken, düğümler arası iletişimde InfiniBand sınıfı NIC’lerin rolü vurgulanıyor.

Bu ayrımın önemi, MoE gibi iletişim yoğun iş yüklerinde daha net ortaya çıkıyor. Ekip, ölçek büyüdükçe iletişim maliyetini düşürmenin performans için belirleyici olduğunu ifade ediyor.

DeepSeek-V3 teknik rapor görseli 5

Çok düzlemli ağ topolojisi: MPFT yaklaşımı

Raporun altyapı tarafındaki önemli başlıklarından biri Multi-Plane Fat-Tree (MPFT) ağ tasarımı. Yaklaşım, trafiği birden fazla ağ düzlemine ayırarak küme düzeyindeki ağ yükünü düşürmeyi hedefliyor.

Raporda, çok düzlemli ağın, aynı ölçek sınıfında kullanılan alternatif yaklaşımlarla kıyaslandığı performans ölçümlerine de yer veriliyor. Paylaşılan grafiklerde all-to-all bant genişliği ve gecikme ölçümlerinin yakın seyrettiği görülüyor.

DeepSeek-V3 teknik rapor görseli 6
DeepSeek-V3 teknik rapor görseli 7
DeepSeek-V3 teknik rapor görseli 8

Eğitim metriği ve gecikme ölçümleri raporda nasıl sunuluyor?

Raporda, MPFT ve alternatif ağ yaklaşımının eğitim metriği karşılaştırması da bulunuyor. Tabloya göre günlük token üretimi 272.80B ve 272.52B seviyelerinde birbirine yakın veriliyor. Zaman/step, 1F, 1B ve MFU gibi metriklerde de farkların sınırlı kaldığı aktarılıyor.

Ayrıca CPU tarafı uçtan uca gecikme ölçümlerinde RoCE ve InfiniBand kıyası gibi sonuçlar bulunuyor. Bu bölüm, büyük ölçekli iletişimde gecikmenin nasıl kritik hale geldiğine işaret ediyor.

DeepSeek-V3 teknik rapor görseli 9
DeepSeek-V3 teknik rapor görseli 10

Teknik rapor, DeepSeek-V3 örneğinden hareketle bellek verimliliği, seyrek hesaplama, düşük hassasiyetli eğitim ve ağ topolojisinin tek tek değil, birlikte ele alındığında maliyeti aşağı çekebildiğini savunuyor. Ekip, model gereksinimleri arttıkça donanım tarafında da yeni yönelimlerin gündeme geleceğini vurguluyor.