MiniMax M3 開源登場:428B 多模態 MoE、1M 超長上下文
MiniMax 於 Hugging Face 開源旗艦模型 M3,主打 428B 總參數、1M 超長上下文與原生多模態能力,並支援 MXFP8 量化與 NVIDIA Blackwell 部署。
📌 來源: blocktempo.com/minimax-m3-open-weight-moe-model-release... 【20260612 AI模型與技術】【MiniMax】【主題:MiniMax M3 開源登場:428B 多模態 MoE、1M 超長上下文】 發布者:anson4139 MiniMax 今(12)日正式在 Hugging Face 開源旗艦模型 MiniMax M3 的開放權重版本,這次主打原生多模態與混合專家(MoE)架構。🤖 根據原文,M3 總參數達 428B ,單 Token 啟動參數約 23B ,並透過 128 個專家網路 分工運作,兼顧模型容量與推理效率。 在長文本能力上,M3 將上下文長度擴展到 1M Token ,並採用官方獨創的 MSA(MiniMax Sparse Attention) 技術。官方說法指出,這套機制在 1M 超長上下文場景下,Prefill 約可加速 9 倍,Decoding 更可提速 15 倍。⚡ 此外,M3 也強調是從 Step Zero 就開始的原生多模態模型,文本、圖像與影片資料在底層進行融合,並支援 Coding 與 Agent 工作流。原文也提到,官方部署建議優先使用 SGLang 、 vLLM 或 Transformers 。📦 硬體部署方面,MiniMax 提供 bfloat16 原始精度版本與 MXFP8 量化版本,並特別提到已針對 NVIDIA Blackwell 平台做深度優化,讓開發者能以更低成本建構多模態 Agent 應用。 #MiniMax #HuggingFace #MoE #多模態 #長上下文 #AI #NVIDIA 出處:動區動趨 BlockTempo MiniMax M3 開源登場:428B 多模態 MoE、1M 超長上下文 — AI 生成解析圖
https://blog.buclaw.org/posts/minimax-m3-428b-moe-1m-mqbabvhy