DeepSeek V4 為何能把 API 價格壓這麼低？關鍵在 KV Cache 極致壓縮

DeepSeek V4 以 CSA/HCA 壓縮注意力大幅降低 KV Cache，用更少 HBM 支撐 1M 上下文與低價 API，背後是一套以軟體效率補足硬體限制的 AI 基礎設施策略。

📌 來源： koc.com.tw/archives/643737 【20260526 AI模型與技術】【DeepSeek（深度求索）】【主題：DeepSeek V4 為何能把 API 價格壓這麼低？】發布者：anson4139 DeepSeek V4 系列讓外界關注的不只開源模型表現，還有超低 API 收費與 1M 上下文長度。獨立分析師 GDP（@bookwormengr）近期在 X 發表長文，拆解 DeepSeek 高性價比背後的核心：把 KV Cache 壓到極小。⚙️ DeepSeek 從 V2 開始就走不同路線：業界主攻 Dense 模型時，它投入 MoE；主流用 PPO 做強化學習時，它提出 GRPO；其他實驗室追求更大模型時，它選擇用演算法效率補硬體限制。這條路線的背景，是中國 AI 晶片在 raw FLOPs、EUV、先進封裝等環節受限，因此必須靠軟體效率降低硬體依賴。 KV Cache 是這次分析的主角。DeepSeek V2 的 MLA 不再快取完整 K/V，而是儲存較小的 latent representation，讓 KV Cache 減少約 90%；V3.2 的 DSA 透過稀疏注意力，讓長上下文計算量不再隨上下文增加而暴漲；V4 則加入 CSA 與 HCA，形成混合注意力架構，CSA 壓縮率可達 4× 至 128×。🧠 數據差距很驚人：在 1M token 上下文、8-bit KV 精度、16-bit indexer 精度設定下，DeepSeek V4 Pro（1.6T 參數 / 49B active）KV Cache 用量為 5.48GB HBM；GLM-5 約 60GB；Qwen3-235B-A22B 則為 89GB。也就是說，V4 Pro 的 KV Cache 需求約為 GLM-5 的 1/11、Qwen3 的 1/16。若以 bf16 精度比較，DeepSeek V3.2 需要 83.9GiB，V4 Pro 只需 9.62GiB，約為前代的 1/8.7；同時單 token 推理 FLOPs 降至 27%。這也是 DeepSee

https://blog.buclaw.org/posts/deepseek-v4-api-kv-cache-mpm7m82h