Gemma 4 可在 iPhone 完全離線推理，下載 Google AI Edge Gallery 一鍵啟用邊緣 AI 成真

Google 於 4 月 2 日發布的開源模型 Gemma 4 已可在 iPhone 上執行完整本地推理，無需連網、不經雲端；用戶下載 Google AI Edge Gallery 選擇模型就可快速啟動。
（前情提要：Google 發布最聰明開放模型 Gemma 4！全面改採 Apache 2.0 授權，效能直逼大型閉源 AI）
（背景補充：Google 上架免費 AI 聽寫「Edge Eloquent」：採用 Gemma 手機端運作無需連網，iOS 首發）

本文目錄

邊緣 AI 作為產業話題已被討論數年，但多數產品仍停留在有限功能的展示層。Google 這次選擇直接跳過「路線圖」，把 Gemma 4 的完整推理能力落地到消費者手上。

現在用戶直接從 App Store 下載 Google AI Edge Gallery，選擇模型變體，啟動、結束。整個流程不需要開發者帳號，不需要 API 金鑰，不需要網路連線。

架構選擇背後的邏輯

Gemma 4 採 Apache 2.0 授權，發布四個開放權重模型變體。在 iPhone 端，推理路徑選擇走 GPU 而非 Apple Neural Engine。Neural Engine 針對固定模式運算（如 Face ID 的人臉辨識）做了專項最佳化，但 LLM 推理需要更高靈活度的浮點運算，GPU 反而是更直接的路徑。

Google AI Edge Gallery 提供的不只是文字介面：影象辨識、語音互動、可擴充套件的 Skills 框架都整合在同一個 app 內，定位更接近開發實驗平台，而非單一功能展示。

引數規模不是主角

31B 旗艦版的基準測試成績與 Qwen 3.5 的 27B 版本接近，Gemma 帶著約 40 億額外引數換來的是「大致相當」的結果，在特定任務上各有優劣，沒有全面壓制。不過這個比較本身的意義有限，畢竟旗艦版不是這次部署策略的核心。

Google 官方 app 預設引導使用者選擇 E2B 變體，理由很務實：記憶體佔用更低、熱功耗更小，在行動裝置的實際限制條件下表現更穩定。

E2B 與 E4B 兩個變體從設計之初就針對行動端離線環境做了最佳化，效能換取的是可持續使用的實用性，而非跑分頁面上的數字。

建議硬體門檻為 iPhone 15 Pro 或更新機型（這個條件圈定了初期受眾，目前仍屬早期採用者市場）。

離線能力的實質含義

低延遲的本地推理改變的不只是使用者體驗，而是特定場景的可行性邊界。醫療機構的病患資料、現場勘查的影像紀錄、企業內部的機密檔案…這些場景的共同特點是資料不能離開本地環境。雲端 AI 在這裡的問題不是速度，而是合規性。

在這個框架下，Gemma 4 的離線推理能力提供的是一條繞過資料傳輸限制的路徑，而不是對現有雲端方案的效能競爭。兩者服務的使用者需求並不完全重疊。

值得保留的冷靜態度是：目前的實際應用案例仍多為技術驗證，從「可以跑」到「被大規模採用」之間，還有安全稽核、管理工具、整合成本等一連串工程問題需要解決。

Google 上架免費 AI 聽寫「Edge Eloquent」：採用 Gemma 手機端運作無需連網，iOS 首發

打破輝達壟斷? Google地表最強AI模型「Gemma 3」用1顆H100，擊敗DeepSeek、OpenAI

完全指南：AI+NFT能碰撞出怎樣的火花？演演算法整理、生成方式教學..

灰度報告：為什麼加密貨幣能幫助 AI 人工智慧走上對的道路？

Tags: Apple Gemma 4 Google iPhone

Gemma 4 可在 iPhone 完全離線推理，下載 Google AI Edge Gallery 一鍵啟用邊緣 AI 成真

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Gemma 4 可在 iPhone 完全離線推理，下載 Google AI Edge Gallery 一鍵啟用邊緣 AI 成真

架構選擇背後的邏輯

引數規模不是主角

離線能力的實質含義

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類