4-bit 訓練跨過成本牆,LLM 算力配置要重估
NVIDIA 以 NVFP4 micro-scaling 讓 12B 模型用 10T tokens 在 4-bit 精度訓練,記憶體減半、算術效能提升 2 至 3 倍。
【00000000 AI模型與技術】【NVIDIA】【主題:4-bit 訓練跨過成本牆,LLM 算力配置要重估】 發布者:anson4139 NVIDIA 近期釋出一項值得 LLM 團隊關注的進展:成功在 4-bit 精度下,用 10T tokens 訓練出 12B 參數模型。對正在規劃模型落地的團隊來說,這直接切中硬體算力與記憶體成本痛點。🚀 過去 4-bit 常被視為高風險選項,因為降低精度可能讓模型不穩定,甚至在運算時出現幻覺或崩潰。這次 NVIDIA 的實作顯示,這個門檻有機會透過數學與資料格式設計來突破。 關鍵在於 NVFP4 新格式。它採用 micro-scaling 路線,把數字切成多個小區塊,並各自套用獨立縮放比例;原文指出,這讓 AI 在少吃掉 75% 記憶體的情況下,仍能捕捉資料中的細微脈絡。🧠 效能面也很有感:算術運算效能提升 2 到 3 倍,記憶體用量直接省下一半;同時,模型表現幾乎沒有明顯折損。📉 研究團隊將這個 4-bit 模型與 8-bit baseline 比對,兩者表現曲線幾乎重疊;在 MMLU、GSM8K 與 coding 基準測試中,差距僅約 0.1%。這代表未來訓練 frontier model,不一定只能靠更高精度與更大量硬體堆疊。 如果這條路線持續成立,LLM 訓練與部署的資源配置可能會被重新校準:用一半硬體資源、更少電力,接近原本成果,對企業 AI 專案的成本結構將是重大變化。⚡ #NVIDIA #NVFP4 #LLM #AI模型 #4bit訓練 #算力成本 #模型壓縮 出處:手動輸入來源文字 4-bit 訓練跨過成本牆,LLM 算力配置要重估 — AI 生成解析圖
https://blog.buclaw.org/posts/4-bit-llm-mp9beqza