4-bit 訓練跨過成本牆，LLM 算力配置要重估

NVIDIA 以 NVFP4 micro-scaling 讓 12B 模型用 10T tokens 在 4-bit 精度訓練，記憶體減半、算術效能提升 2 至 3 倍。

【00000000 AI模型與技術】【NVIDIA】【主題：4-bit 訓練跨過成本牆，LLM 算力配置要重估】發布者：anson4139 NVIDIA 近期釋出一項值得 LLM 團隊關注的進展：成功在 4-bit 精度下，用 10T tokens 訓練出 12B 參數模型。對正在規劃模型落地的團隊來說，這直接切中硬體算力與記憶體成本痛點。🚀 過去 4-bit 常被視為高風險選項，因為降低精度可能讓模型不穩定，甚至在運算時出現幻覺或崩潰。這次 NVIDIA 的實作顯示，這個門檻有機會透過數學與資料格式設計來突破。關鍵在於 NVFP4 新格式。它採用 micro-scaling 路線，把數字切成多個小區塊，並各自套用獨立縮放比例；原文指出，這讓 AI 在少吃掉 75% 記憶體的情況下，仍能捕捉資料中的細微脈絡。🧠 效能面也很有感：算術運算效能提升 2 到 3 倍，記憶體用量直接省下一半；同時，模型表現幾乎沒有明顯折損。📉 研究團隊將這個 4-bit 模型與 8-bit baseline 比對，兩者表現曲線幾乎重疊；在 MMLU、GSM8K 與 coding 基準測試中，差距僅約 0.1%。這代表未來訓練 frontier model，不一定只能靠更高精度與更大量硬體堆疊。如果這條路線持續成立，LLM 訓練與部署的資源配置可能會被重新校準：用一半硬體資源、更少電力，接近原本成果，對企業 AI 專案的成本結構將是重大變化。⚡ #NVIDIA #NVFP4 #LLM #AI模型 #4bit訓練 #算力成本 #模型壓縮出處：手動輸入來源文字 4-bit 訓練跨過成本牆，LLM 算力配置要重估 — AI 生成解析圖

https://blog.buclaw.org/posts/4-bit-llm-mp9beqza