Google 於 4 月 2 日發布的開源模型 Gemma 4 已可在 iPhone 上執行完整本地推理,無需連網、不經雲端;用戶下載 Google AI Edge Gallery 選擇模型就可快速啟動。
(前情提要:Google 發布最聰明開放模型 Gemma 4!全面改採 Apache 2.0 授權,效能直逼大型閉源 AI)
(背景補充:Google 上架免費 AI 聽寫「Edge Eloquent」:採用 Gemma 手機端運作無需連網,iOS 首發)
邊緣 AI 作為產業話題已被討論數年,但多數產品仍停留在有限功能的展示層。Google 這次選擇直接跳過「路線圖」,把 Gemma 4 的完整推理能力落地到消費者手上。
現在用戶直接從 App Store 下載 Google AI Edge Gallery,選擇模型變體,啟動、結束。整個流程不需要開發者帳號,不需要 API 金鑰,不需要網路連線。
架構選擇背後的邏輯
Gemma 4 採 Apache 2.0 授權,發布四個開放權重模型變體。在 iPhone 端,推理路徑選擇走 GPU 而非 Apple Neural Engine。Neural Engine 針對固定模式運算(如 Face ID 的人臉辨識)做了專項最佳化,但 LLM 推理需要更高靈活度的浮點運算,GPU 反而是更直接的路徑。
Google AI Edge Gallery 提供的不只是文字介面:影象辨識、語音互動、可擴充套件的 Skills 框架都整合在同一個 app 內,定位更接近開發實驗平台,而非單一功能展示。
引數規模不是主角
31B 旗艦版的基準測試成績與 Qwen 3.5 的 27B 版本接近,Gemma 帶著約 40 億額外引數換來的是「大致相當」的結果,在特定任務上各有優劣,沒有全面壓制。不過這個比較本身的意義有限,畢竟旗艦版不是這次部署策略的核心。
Google 官方 app 預設引導使用者選擇 E2B 變體,理由很務實:記憶體佔用更低、熱功耗更小,在行動裝置的實際限制條件下表現更穩定。
E2B 與 E4B 兩個變體從設計之初就針對行動端離線環境做了最佳化,效能換取的是可持續使用的實用性,而非跑分頁面上的數字。
建議硬體門檻為 iPhone 15 Pro 或更新機型(這個條件圈定了初期受眾,目前仍屬早期採用者市場)。
離線能力的實質含義
低延遲的本地推理改變的不只是使用者體驗,而是特定場景的可行性邊界。醫療機構的病患資料、現場勘查的影像紀錄、企業內部的機密檔案…這些場景的共同特點是資料不能離開本地環境。雲端 AI 在這裡的問題不是速度,而是合規性。
在這個框架下,Gemma 4 的離線推理能力提供的是一條繞過資料傳輸限制的路徑,而不是對現有雲端方案的效能競爭。兩者服務的使用者需求並不完全重疊。
值得保留的冷靜態度是:目前的實際應用案例仍多為技術驗證,從「可以跑」到「被大規模採用」之間,還有安全稽核、管理工具、整合成本等一連串工程問題需要解決。
📍相關報導📍
Google 發布最聰明開放模型 Gemma 4!全面改採 Apache 2.0 授權,效能直逼大型閉源 AI
Google 上架免費 AI 聽寫「Edge Eloquent」:採用 Gemma 手機端運作無需連網,iOS 首發
打破輝達壟斷? Google地表最強AI模型「Gemma 3」用1顆H100,擊敗DeepSeek、OpenAI

