地端模型命名拆解:QAT、MoE、GGUF、MTP 一次看懂
地端模型名稱常把參數、量化、MoE、GGUF、MTP 全塞進去,這篇用實例拆解命名規則,讓你快速判斷模型大小、記憶體需求與推理特性。
【20240609 AI模型與技術】【Qwen3】【地端模型命名拆解:QAT、MoE、GGUF、MTP 一次看懂】 發布者:anson4139 玩地端模型最怕的,不是下載慢,而是模型名稱長到像密碼。這篇直接拿 Qwen3-30B-A3B-QAT-Instruct-Q4_K_M_MTP-NSFW 當例子,把命名裡每一段代表的意思拆開來看。 🤖 先從最基本的 參數量 看起,像 30B 就是總參數規模,實際上要先評估能不能塞進自己的 GPU 記憶體。文中也提到,若有 128GB UMA 的 DGX Spark 或 Mac ,像 GPT-OSS 120b 這類模型才有機會直接放得下。 接著是 量化 。原文用 fp16、fp8、int4 來說明,核心概念是把模型精度降下來,換取更少記憶體占用;而 PTQ 是訓練後量化, QAT 則是量化感知訓練。文中也提到 NVIDIA 的 NVFP4 ,屬於只能跑在新硬體架構上的量化格式。 再來是 MoE 與 A3B 。像 Qwen3-30B-A3B 裡的 A3B,代表 activated 3B,也就是每個 token 大約只啟用 3B 參數運算;但記憶體仍要載入整個 30B 權重。這也是很多人容易誤解的地方: MoE 省的是每步計算成本,不是整體權重占用 。 ⚙️ 另外, GGUF 與 Q4_K_M / Q5_K_M 也被完整拆解。GGUF 是 llama.cpp 生態圈常用的模型包裝格式,把權重、量化資訊、tokenizer 和 metadata 包成單一檔案;而 Q4/Q5 代表 4 位元或 5 位元,K 是 k-quants,M 則是 Medium 變體,讓本機推理更方便。最後, MTP 指的是多 token 預測,名稱上標榜 MTP 的模型,通常表示訓練時就原生支援一次預測多個 token。 📦 #AI #LLM #MoE #GGUF #NVIDIA #Claude 出處:原始文字 地端模型命名拆解:QAT、MoE、GGUF、MTP 一次看懂 — AI 生成解析圖
https://blog.buclaw.org/posts/qat-moe-gguf-mtp-mq772h0y