
DeepSeek-V3 ekibinin paylaştığı 14 sayfalık teknik rapor, büyük dil modellerini ucuzlatan yaklaşımın sadece “daha büyük model” değil, donanım ile mimarinin birlikte tasarlanması olduğunu anlatıyor.
Odak noktası: Bellek, hesap verimi ve bağlantı bant genişliği
Rapora göre büyük modeller büyüdükçe üç temel darboğaz öne çıkıyor. Yüksek hızlı bellek kapasitesi baskısı artıyor. Token başına hesap maliyeti maliyetleri yukarı çekiyor. GPU’lar arası iletişim ise ölçek büyüdükçe toplam süreyi belirleyebiliyor.
Bu çerçevede DeepSeek-V3, 2048 adet NVIDIA H800 GPU ile eğitilen bir örnek çalışma olarak konumlandırılıyor. Ekip, mimari kararların doğrudan donanım sınırlamalarıyla şekillendiğini vurguluyor.
MLA ile KV cache yükünü düşürme
Raporda bellek tarafındaki en kritik kalemlerden biri olarak KV cache gösteriliyor. DeepSeek-V3 tarafında Multi-head Latent Attention (MLA) yaklaşımıyla, çoklu attention head’lerin key-value temsilleri daha küçük bir “latent” vektöre sıkıştırılıyor.
Çıkarım sırasında tam KV yerine bu sıkıştırılmış latent vektörün önbelleğe alınması hedefleniyor. Raporda yer alan kıyaslamada token başına KV cache ayak izi DeepSeek-V3 için yaklaşık 70 KB olarak veriliyor. Aynı tabloda bazı büyük GQA tabanlı modellerin yüzlerce KB seviyesine çıktığı belirtiliyor.
DeepSeekMoE ile seyrek hesaplama ve maliyet dengesi
Raporda DeepSeek-V3’ün DeepSeekMoE mimarisi üzerinden, toplam parametre sayısını büyütürken token başına etkin hesaplamayı sınırlama yaklaşımı anlatılıyor. Paylaşılan değerlerde modelin toplam boyutu 671B parametre seviyesinde verilirken, token başına etkinleştirilen parametre miktarı 37B olarak aktarılıyor.
Bu yaklaşım, dense modellere göre token başına hesap maliyetini düşürmeyi hedefliyor. Rapordaki karşılaştırma tablosunda DeepSeek-V3 MoE için token başına eğitim hesap maliyeti 250 GFLOPS seviyesinde paylaşılırken, örnek bir 72B dense model için daha yüksek bir değer veriliyor.
FP8 karma hassasiyet: Eğitimde verimlilik arayışı
Teknik rapor, düşük hassasiyetli hesaplamanın sadece çıkarımda değil eğitimde de kritik hale geldiğini anlatıyor. DeepSeek-V3 tarafında FP8 karma hassasiyet kullanımıyla donanımın etkin değerlendirilmesi hedefleniyor.
İletişim tarafında da veri hacmini azaltan yaklaşımlara değiniliyor. Raporda EP (expert parallelism) gibi all-to-all iletişimin yoğun olduğu adımlarda, düşük hassasiyetli formatlarla transfer yükünü düşürmeye dönük teknikler ele alınıyor.
H800 düğüm tasarımı: NVLink ve NIC mimarisi aynı resimde
Rapor, eğitim kümesinde kullanılan H800 düğüm içi bağlantı düzenine de yer veriyor. NVLink ile düğüm içi trafik taşınırken, düğümler arası iletişimde InfiniBand sınıfı NIC’lerin rolü vurgulanıyor.
Bu ayrımın önemi, MoE gibi iletişim yoğun iş yüklerinde daha net ortaya çıkıyor. Ekip, ölçek büyüdükçe iletişim maliyetini düşürmenin performans için belirleyici olduğunu ifade ediyor.
Çok düzlemli ağ topolojisi: MPFT yaklaşımı
Raporun altyapı tarafındaki önemli başlıklarından biri Multi-Plane Fat-Tree (MPFT) ağ tasarımı. Yaklaşım, trafiği birden fazla ağ düzlemine ayırarak küme düzeyindeki ağ yükünü düşürmeyi hedefliyor.
Raporda, çok düzlemli ağın, aynı ölçek sınıfında kullanılan alternatif yaklaşımlarla kıyaslandığı performans ölçümlerine de yer veriliyor. Paylaşılan grafiklerde all-to-all bant genişliği ve gecikme ölçümlerinin yakın seyrettiği görülüyor.
Eğitim metriği ve gecikme ölçümleri raporda nasıl sunuluyor?
Raporda, MPFT ve alternatif ağ yaklaşımının eğitim metriği karşılaştırması da bulunuyor. Tabloya göre günlük token üretimi 272.80B ve 272.52B seviyelerinde birbirine yakın veriliyor. Zaman/step, 1F, 1B ve MFU gibi metriklerde de farkların sınırlı kaldığı aktarılıyor.
Ayrıca CPU tarafı uçtan uca gecikme ölçümlerinde RoCE ve InfiniBand kıyası gibi sonuçlar bulunuyor. Bu bölüm, büyük ölçekli iletişimde gecikmenin nasıl kritik hale geldiğine işaret ediyor.
Teknik rapor, DeepSeek-V3 örneğinden hareketle bellek verimliliği, seyrek hesaplama, düşük hassasiyetli eğitim ve ağ topolojisinin tek tek değil, birlikte ele alındığında maliyeti aşağı çekebildiğini savunuyor. Ekip, model gereksinimleri arttıkça donanım tarafında da yeni yönelimlerin gündeme geleceğini vurguluyor.
