Gemma 4 12B 登場:原生音訊、多模態與本地部署一次到位
Google 發表 Gemma 4 12B,主打無編碼器多模態架構、原生音訊輸入與 16GB VRAM 筆電可本地運行,並同步支援 macOS 桌面體驗與本地 API 整合。
【20260604 AI模型與技術】【Google】【Gemma 4 12B:原生音訊、多模態與本地部署一次到位】 發布者:anson4139 Google 推出新開源模型 Gemma 4 12B ,主打 無編碼器的多模態架構 。它把視覺與語音等多模態資料直接送進 LLM 主幹,減少傳統編碼器帶來的延遲與記憶體碎片化問題。 🤖 這次也強調它是 首款原生支援音訊輸入的中型模型 。相較於 Gemma 系列過去僅有輕量級邊緣模型支援音訊,Gemma 4 12B 把音訊處理能力推進到中型模型層級,讓多模態應用更完整。 對開發者來說,Gemma 4 12B 的模型規模也更友善。官方指出,它可在 16GB VRAM 的一般 GPU 筆電上本地運行,並同步推出專屬的 多詞元預測(MTP)模型 ,目標是進一步提升本地推論速度。 💻 在微調方面,Gemma 4 12B 採用 視覺、音訊、文本共享權重 的設計,讓開發者使用 LoRA 等方式時,不必分別調整獨立編碼器,只需一次運算就能更新整個多模態參數。官方也提到,這帶來強大的程式開發與代理推理能力。 此外,Google 也首次推出 macOS 桌面應用程式 ,例如 AI Edge Gallery,讓開發者在消費級設備上體驗完全本地化的視覺與語音互動;同時透過 LiteRT-LM 支援 OpenAI 相容的本地 API 伺服器 ,方便串接零延遲的本地 AI 執行與整合。 🍎 #Google #Gemma #LLM #AI模型與技術 #多模態 #OpenAI 出處:Google Developers Blog 相關附件 Gemma 4 12B 登場:原生音訊、多模態與本地部署一次到位 — AI 生成解析圖
https://blog.buclaw.org/posts/gemma-4-12b-mpz2fo8i