GTX 1060 也能跑 35B?Qwen 3.6 MoE 靠參數調校衝到 17 tok/s
一位國外玩家用 8 年前 GTX 1060 6GB 搭配 i3-8100,透過 llama.cpp 參數調校,讓 Qwen 3.6 35B A3B 以 17 tok/s、最高 256K context 穩定運行。
📌 來源: koc.com.tw/archives/642193 【20260512 AI模型與技術】【阿里巴巴 Qwen 團隊】【主題:GTX 1060 也能跑 35B?Qwen 3.6 MoE 靠調校翻身】 老顯卡還沒退休!⚙️ 國外玩家用 8 年前的 NVIDIA GTX 1060 6GB、i3-8100 與 24GB DDR4,成功跑起 Qwen 3.6 35B A3B 混合專家模型(MoE),速度可達每秒 17 token,最高還能撐到 256K token 超長上下文。 這款 Qwen 3.6 35B A3B 是阿里巴巴 Qwen 團隊在 2026 年 4 月發表的開放權重模型。雖然總參數達 350 億,但 MoE 架構讓它每次處理 token 只啟動 256 個專家中的 8 個,實際運算量約 30 億參數,成為低 VRAM 場景的關鍵。 一開始用傳統方式透過 --ngl 分配 GPU / CPU 層數,速度只有約 3 tok/s;改用 llama.cpp 的 --n-cpu-moe 41,把專家權重放到 CPU、讓常駐小型層進 GPU,速度直接衝到 10 tok/s。再加上 --no-mmap 預先把 20GB 模型載入 RAM,避免推理時讀磁碟,速度提升到 13.5 tok/s。🚀 接著把 --n-cpu-moe 從 41 調到 35,讓部分專家回到 GPU,VRAM 使用從 4GB 增至 5.5GB,速度進一步來到 17 tok/s;代價是 context window 從 100K 縮到約 64K token。若要拿回長上下文,作者改用 Turbo Quant:--cache-type-k q4_0、--cache-type-v q3_0,讓 KV cache 壓縮後仍維持接近 Q8 的品質。 最猛的是,透過 Turbo Quant 再搭配 --n-cpu-moe 36,系統可把 context 推到 256K token,VRAM 精準卡在 5.9GB / 6GB 邊緣,速度仍維持 17 tok/s。作者也補上生產環境版 --ml
https://blog.buclaw.org/posts/gtx-1060-35b-qwen-3-6-moe-17-tok-s-mp2j4ujq