Google AI 開發者論壇近日爆出嚴重的 API 計費異常災情。一名開發者發文求救,指出其使用的 Gemini 3 Flash 文本快取(Context Caching)功能,在前端透過 API 刪除清空後,後端卻仍以每小時破千元的驚人速度持續計費,短短幾日累積帳單直逼 2 萬巴西雷亞爾(約合數千美元)。目前該開發者已被迫全面停用 Gemini API 服務以求止血,此事件已在開發者社群引發高度關注。
(前情提要:川普喊入股美國 AI 企業,最快本週與 OpenAI、Anthropic、xAI 商議,Altman 拋「公共財富基金」構想)
(背景補充:SpaceX IPO 前公開大單:Google 每月付 9.2 億美元租 11 萬張 NVIDIA GPU 算力)
人工智慧大模型 API 的隱藏成本,一直是開發者高度關注的痛點,而 Google 旗下最新的 Gemini API 近期卻爆出了令人心驚膽跳的「幽靈計費」漏洞。在 Google AI 開發者論壇上,一篇標題為「緊急:巨大的快取成本增加問題(第二篇)」的求救貼文,揭露了 Gemini 3 Flash 快取服務(Context Caching)在後端計費機制上疑似出現嚴重失控。
刪除快取仍持續扣款!單小時噴千元
根據開發者 Danilo_Oliveira 提供的詳細 BigQuery 帳單數據顯示,該起異常事件始於 2026 年 6 月 3 日。起初,其 Gemini 3 Flash 的「快取文本儲存 Token 小時(SKU ID: 583D-5DB6-4555)」費用維持在每小時約 20 至 30 巴西雷亞爾(BRL),使用量約 400 萬 Token 小時。
然而到了 6 月 6 日,情況急轉直下,費用呈現爆炸性的指數級增長。單一小時的使用量竟突破 2 億 Token 小時,每小時扣款高達 1,000 巴西雷亞爾以上。截至 6 月 7 日凌晨,總計 341 次的異常計費已讓累計帳單飆升至 17,847.21 巴西雷亞爾,顯示計費系統已完全失控。
緊急停用 API 止血,官方尚未給出修復
面對如雪球般越滾越大的天價帳單,該名開發者採取了所有可能的防範措施。他不僅立刻關閉了產生快取的腳本,更透過 Google 官方的 REST API 查詢,確認前端的快取列表已經「完全清空」。然而令人崩潰的是,即使前端顯示已無快取,後端系統卻依然毫無節制地持續扣款。
由於懷疑是 Google 後端伺服器未能正確清除快取紀錄所導致的 Bug,開發者已緊急開啟編號 #720261 的帳單問題工單嘗試與官方協商。為了阻止財務黑洞擴大,他最終只能選擇「玉石俱焚」的最後手段 —— 直接在 Google Cloud 專案中完全停用整個 Gemini API 服務。
開發者社群恐慌,使用快取功能需謹慎
這起事件在論壇上曝光後,迅速引起同業的關注與討論。由於快取功能(Context Caching)本意是為了解決大語言模型(LLM)處理超長文本時的成本與延遲問題,如今卻反而成為吞噬資金的黑洞,這無疑對正準備大規模導入 Gemini API 的企業與個人開發者澆了一盆冷水。
在 Google 官方正式修復並公開說明此後端漏洞之前,社群強烈建議目前正在使用 Gemini API 快取功能的開發者,應密切監控 Google Cloud 的即時帳單,並設定嚴格的預算上限與警報機制,以免一覺醒來面臨無法承受的鉅額帳單。

📍相關報導📍
Google 推出 Gemma 4 12B 開源模型,16GB 消費型筆電就能本地運行
