Google 於 2026 年 4 月 2 日正式發布 Gemma 4,作為迄今為止最強大的開源模型之一,Gemma 4 在原生函數調用、代理工作流程、多模態感知方面實現重大突破,並採用商業友好的 Apache 2.0 授權,為全球開發者與企業帶來前所未有的自由度與靈活性。
Gemma 4 是什麼?核心特色一次看
Gemma 4 是 Google DeepMind 推出的開源大型語言模型系列,與 Gemini 系列模型共享技術。核心亮點包括:
進階推理能力:支援多步驟規劃與深層邏輯推理,在數學與指令遵循基準測試上大幅超越同級開源模型。
原生代理工作流:內建函數調用、結構化 JSON 輸出與系統指令支援,可直接驅動自主 AI 代理與多步驟任務執行。
本地端部署:E2B、E4B 版本專為手機等各設備優化,可完全離線運行。
全面多模態支援:所有版本原生支援圖片與影片輸入;E2B、E4B 額外支援原生音訊輸入。
超長上下文視窗:邊緣模型支援 128K token,較大模型最高達 256K token,可在單次提示中傳入整個程式碼庫或長篇文件。
高品質程式碼生成:支援離線程式碼編寫,可將個人工作站打造為本地優先的 AI 程式設計助手。
140+ 語言原生訓練:支援全球超過 140 種語言,助力開發者打造服務國際用戶的多語系應用。
四種模型,最大化支援所有應用場景
Gemma 4 共推出四種版本,針對不同硬體環境與應用場景進行優化:
Effective 2B(E2B):專為行動裝置與 IoT 設計,支援 128K 上下文視窗、原生音訊輸入,可完全離線運行於 Android 手機、Raspberry Pi 等邊緣設備。
Effective 4B(E4B):同樣針對邊緣端優化,具備多模態能力,在推理效能與記憶體佔用之間取得出色平衡。
26B 混合專家(MoE):推理時僅激活 38 億參數,以極低延遲實現高速推理,適合注重吞吐量的本地工作站部署。
31B Dense:旗艦版本,在 Arena AI 文字排行榜上排名第三,提供最高品質的輸出,並可在單張 80GB NVIDIA H100 GPU 上完整運行。
26B MoE 與 31B Dense 的量化版本更能在消費級顯示卡上原生執行,讓強大的 AI 推理能力真正普及到個人開發者的桌面。
本地端推理的重大突破:告別 API 依賴
Gemma 4 最受矚目的特點之一,在於強調「本地端(On-device)推理」能力。E2B 與 E4B 模型專為最大化運算效率與記憶體效率而設計,可在手機、Raspberry Pi、NVIDIA Jetson Orin Nano 等邊緣設備上以近乎零延遲的運行。
這對開發者影響甚大,過去調用雲端 AI API 需要承擔每次請求的費用,且存在網路延遲與資料隱私風險。而 Gemma 4 的本地端推理能力,讓開發者能在自有硬體上運行模型,大幅降低 API 調用成本,同時享有完整的資料主權與離線可用性。
Google 更與 Pixel 團隊及高通、聯發科等行動硬體夥伴緊密合作,確保 E2B/E4B 在主流 Android 裝置上達到最佳效能,並為 Android 開發者開放 AICore Developer Preview,以便為整合 Gemini Nano 4 進行開發。
強化 AI 代理工作流,原生函數調用提高效率
Gemma 4 在代理工作流(Agentic Workflows)方面也實現了原生支援,這是與上一代最顯著的功能躍升之一。該模型支援:
原生函數調用(Function Calling):模型可直接調用外部工具與 API,執行實際操作,例如查詢資料庫、呼叫第三方服務等。
結構化 JSON 輸出:確保模型輸出符合特定格式,便於與後端系統無縫整合。
原生系統指令(System Instructions):開發者可在系統層級設定模型行為,讓 AI 代理的角色設定更加穩定一致。
這些能力讓 Gemma 4 得以成為一個全能的自主 AI 代理,不僅能回答問題,更能主動與工具互動、自動執行多步驟工作流程。
多模態全面升級:視覺、音訊、長文一應俱全
Gemma 4 全系列模型均具備原生多模態能力,大幅擴展了可處理的任務類型。
圖片與影片
在視覺理解方面,所有模型均支援圖片與影片的原生處理,支援可變解析度,在 OCR(光學字元辨識)與圖表理解等視覺任務上表現突出。
音訊輸入
在音訊方面,E2B 與 E4B 邊緣模型額外支援原生音訊輸入,可直接進行語音辨識與理解,無需額外的語音轉文字步驟。
超長上下文
在文件方面,邊緣模型支援 128K token 上下文視窗,較大模型更提供高達 256K token,讓開發者能在單次提示中傳入整個程式碼庫或長篇文件。
離線程式碼生成
支援高品質離線程式碼編寫,可將個人工作站化身為本地優先的 AI 程式設計助手。
140+ 語言支援
原生訓練超過 140 種語言,助力開發者打造服務全球用戶的應用。
Apache 2.0 授權:開源生態里程碑
Gemma 4 採用 Apache 2.0 授權發布,這是開源社群中商業友好度最高的授權之一。開發者與企業可自由使用、修改、分發模型,無論是部署在私有基礎設施、混合雲環境,還是嵌入商業產品中,均不受額外限制。
豐富的生態系統支援
Gemma 4 同時獲得業界主要工具的全面支援,包括 Hugging Face(Transformers、TRL、Transformers.js)、Ollama、vLLM、llama.cpp、MLX、LM Studio、NVIDIA NIM 與 NeMo、Keras、Vertex AI 等。
開發者可透過 Hugging Face、Kaggle 或 Ollama 直接下載模型權重,並在 Google AI Studio 中線上體驗 31B 與 26B MoE 版本,或透過 Google AI Edge Gallery 試用 E2B 與 E4B 版本。
對於需要大規模部署的企業,Google Cloud 提供完整的雲端解決方案,涵蓋 Vertex AI、Cloud Run、GKE、Sovereign Cloud 以及 TPU 加速推理服務,消除本地算力的上限限制。
降低成本但不犧牲能力:Gemma 4 成開發者新選擇
Gemma 4 的發布是開源 AI 模型的一個里程碑,作為具備生產部署能力的企業級工具,它能夠在手機上離線運行、調用外部工具自主完成任務、處理冗長文件與多模態輸入,同時讓所有人得以自由使用。
對於想要在降低 API 調用成本的同時保有 AI 能力的開發者與企業來說,Gemma 4 提供了一條極具吸引力的路徑。
這篇文章 Google 推出 Gemma 4 開源模型:「本地端推理」強化 AI 代理工作流效率 最早出現於 鏈新聞 ABMedia。