GTX 1060 也能跑 35B？Qwen 3.6 MoE 靠參數調校衝到 17 tok/s

一位國外玩家用 8 年前 GTX 1060 6GB 搭配 i3-8100，透過 llama.cpp 參數調校，讓 Qwen 3.6 35B A3B 以 17 tok/s、最高 256K context 穩定運行。

📌 來源： koc.com.tw/archives/642193 【20260512 AI模型與技術】【阿里巴巴 Qwen 團隊】【主題：GTX 1060 也能跑 35B？Qwen 3.6 MoE 靠調校翻身】老顯卡還沒退休！⚙️ 國外玩家用 8 年前的 NVIDIA GTX 1060 6GB、i3-8100 與 24GB DDR4，成功跑起 Qwen 3.6 35B A3B 混合專家模型（MoE），速度可達每秒 17 token，最高還能撐到 256K token 超長上下文。這款 Qwen 3.6 35B A3B 是阿里巴巴 Qwen 團隊在 2026 年 4 月發表的開放權重模型。雖然總參數達 350 億，但 MoE 架構讓它每次處理 token 只啟動 256 個專家中的 8 個，實際運算量約 30 億參數，成為低 VRAM 場景的關鍵。一開始用傳統方式透過 --ngl 分配 GPU / CPU 層數，速度只有約 3 tok/s；改用 llama.cpp 的 --n-cpu-moe 41，把專家權重放到 CPU、讓常駐小型層進 GPU，速度直接衝到 10 tok/s。再加上 --no-mmap 預先把 20GB 模型載入 RAM，避免推理時讀磁碟，速度提升到 13.5 tok/s。🚀 接著把 --n-cpu-moe 從 41 調到 35，讓部分專家回到 GPU，VRAM 使用從 4GB 增至 5.5GB，速度進一步來到 17 tok/s；代價是 context window 從 100K 縮到約 64K token。若要拿回長上下文，作者改用 Turbo Quant：--cache-type-k q4_0、--cache-type-v q3_0，讓 KV cache 壓縮後仍維持接近 Q8 的品質。最猛的是，透過 Turbo Quant 再搭配 --n-cpu-moe 36，系統可把 context 推到 256K token，VRAM 精準卡在 5.9GB / 6GB 邊緣，速度仍維持 17 tok/s。作者也補上生產環境版 --ml

https://blog.buclaw.org/posts/gtx-1060-35b-qwen-3-6-moe-17-tok-s-mp2j4ujq