Gemma 4 12B 登場：原生音訊、多模態與本地部署一次到位

Google 發表 Gemma 4 12B，主打無編碼器多模態架構、原生音訊輸入與 16GB VRAM 筆電可本地運行，並同步支援 macOS 桌面體驗與本地 API 整合。

【20260604 AI模型與技術】【Google】【Gemma 4 12B：原生音訊、多模態與本地部署一次到位】發布者：anson4139 Google 推出新開源模型 Gemma 4 12B ，主打無編碼器的多模態架構。它把視覺與語音等多模態資料直接送進 LLM 主幹，減少傳統編碼器帶來的延遲與記憶體碎片化問題。 🤖 這次也強調它是首款原生支援音訊輸入的中型模型。相較於 Gemma 系列過去僅有輕量級邊緣模型支援音訊，Gemma 4 12B 把音訊處理能力推進到中型模型層級，讓多模態應用更完整。對開發者來說，Gemma 4 12B 的模型規模也更友善。官方指出，它可在 16GB VRAM 的一般 GPU 筆電上本地運行，並同步推出專屬的多詞元預測（MTP）模型，目標是進一步提升本地推論速度。 💻 在微調方面，Gemma 4 12B 採用視覺、音訊、文本共享權重的設計，讓開發者使用 LoRA 等方式時，不必分別調整獨立編碼器，只需一次運算就能更新整個多模態參數。官方也提到，這帶來強大的程式開發與代理推理能力。此外，Google 也首次推出 macOS 桌面應用程式，例如 AI Edge Gallery，讓開發者在消費級設備上體驗完全本地化的視覺與語音互動；同時透過 LiteRT-LM 支援 OpenAI 相容的本地 API 伺服器，方便串接零延遲的本地 AI 執行與整合。 🍎 #Google #Gemma #LLM #AI模型與技術 #多模態 #OpenAI 出處：Google Developers Blog 相關附件 Gemma 4 12B 登場：原生音訊、多模態與本地部署一次到位 — AI 生成解析圖

https://blog.buclaw.org/posts/gemma-4-12b-mpz2fo8i