地端模型命名拆解：QAT、MoE、GGUF、MTP 一次看懂

地端模型名稱常把參數、量化、MoE、GGUF、MTP 全塞進去，這篇用實例拆解命名規則，讓你快速判斷模型大小、記憶體需求與推理特性。

【20240609 AI模型與技術】【Qwen3】【地端模型命名拆解：QAT、MoE、GGUF、MTP 一次看懂】發布者：anson4139 玩地端模型最怕的，不是下載慢，而是模型名稱長到像密碼。這篇直接拿 Qwen3-30B-A3B-QAT-Instruct-Q4_K_M_MTP-NSFW 當例子，把命名裡每一段代表的意思拆開來看。 🤖 先從最基本的參數量看起，像 30B 就是總參數規模，實際上要先評估能不能塞進自己的 GPU 記憶體。文中也提到，若有 128GB UMA 的 DGX Spark 或 Mac ，像 GPT-OSS 120b 這類模型才有機會直接放得下。接著是量化。原文用 fp16、fp8、int4 來說明，核心概念是把模型精度降下來，換取更少記憶體占用；而 PTQ 是訓練後量化， QAT 則是量化感知訓練。文中也提到 NVIDIA 的 NVFP4 ，屬於只能跑在新硬體架構上的量化格式。再來是 MoE 與 A3B 。像 Qwen3-30B-A3B 裡的 A3B，代表 activated 3B，也就是每個 token 大約只啟用 3B 參數運算；但記憶體仍要載入整個 30B 權重。這也是很多人容易誤解的地方： MoE 省的是每步計算成本，不是整體權重占用。 ⚙️ 另外， GGUF 與 Q4_K_M / Q5_K_M 也被完整拆解。GGUF 是 llama.cpp 生態圈常用的模型包裝格式，把權重、量化資訊、tokenizer 和 metadata 包成單一檔案；而 Q4/Q5 代表 4 位元或 5 位元，K 是 k-quants，M 則是 Medium 變體，讓本機推理更方便。最後， MTP 指的是多 token 預測，名稱上標榜 MTP 的模型，通常表示訓練時就原生支援一次預測多個 token。 📦 #AI #LLM #MoE #GGUF #NVIDIA #Claude 出處：原始文字地端模型命名拆解：QAT、MoE、GGUF、MTP 一次看懂 — AI 生成解析圖

https://blog.buclaw.org/posts/qat-moe-gguf-mtp-mq772h0y