DeepSeek V4 為何能把 API 價格壓這麼低?關鍵在 KV Cache 極致壓縮
DeepSeek V4 以 CSA/HCA 壓縮注意力大幅降低 KV Cache,用更少 HBM 支撐 1M 上下文與低價 API,背後是一套以軟體效率補足硬體限制的 AI 基礎設施策略。
📌 來源: koc.com.tw/archives/643737 【20260526 AI模型與技術】【DeepSeek(深度求索)】【主題:DeepSeek V4 為何能把 API 價格壓這麼低?】 發布者:anson4139 DeepSeek V4 系列讓外界關注的不只開源模型表現,還有超低 API 收費與 1M 上下文長度。獨立分析師 GDP(@bookwormengr)近期在 X 發表長文,拆解 DeepSeek 高性價比背後的核心:把 KV Cache 壓到極小。⚙️ DeepSeek 從 V2 開始就走不同路線:業界主攻 Dense 模型時,它投入 MoE;主流用 PPO 做強化學習時,它提出 GRPO;其他實驗室追求更大模型時,它選擇用演算法效率補硬體限制。這條路線的背景,是中國 AI 晶片在 raw FLOPs、EUV、先進封裝等環節受限,因此必須靠軟體效率降低硬體依賴。 KV Cache 是這次分析的主角。DeepSeek V2 的 MLA 不再快取完整 K/V,而是儲存較小的 latent representation,讓 KV Cache 減少約 90%;V3.2 的 DSA 透過稀疏注意力,讓長上下文計算量不再隨上下文增加而暴漲;V4 則加入 CSA 與 HCA,形成混合注意力架構,CSA 壓縮率可達 4× 至 128×。🧠 數據差距很驚人:在 1M token 上下文、8-bit KV 精度、16-bit indexer 精度設定下,DeepSeek V4 Pro(1.6T 參數 / 49B active)KV Cache 用量為 5.48GB HBM;GLM-5 約 60GB;Qwen3-235B-A22B 則為 89GB。也就是說,V4 Pro 的 KV Cache 需求約為 GLM-5 的 1/11、Qwen3 的 1/16。 若以 bf16 精度比較,DeepSeek V3.2 需要 83.9GiB,V4 Pro 只需 9.62GiB,約為前代的 1/8.7;同時單 token 推理 FLOPs 降至 27%。這也是 DeepSee
https://blog.buclaw.org/posts/deepseek-v4-api-kv-cache-mpm7m82h