Anthropic CEO 表示推理成本年降 60%,但 Jevons 悖論讓算力越便宜、用量越大,企業帳單反而只漲不跌。Brian Gracely 呼籲企業從被動的代幣消費者轉型為主動的代幣管理者。
(前情提要:史丹佛報告:AI 耗電達比特幣挖礦一半,中美模型差距僅剩 2.7%)
(背景補充:黃仁勳最新訪談:為什麼NVIDIA強大不死?)
當算力成本每年下降 60%,企業的 AI 帳單卻依然節節攀升?Red Hat 投資組合策略總監 Brian Gracely 在 VentureBeat AI 活動上點出了這個矛盾。
Gracely 將這個轉折稱為 AI Day 2 時刻(Day 2 moment):測試專案已經夠多了,問題從過去的「我們能不能做到?」,演變成更殘酷的「投資報酬率在哪裡?」
這個轉變比聽起來更棘手。把 AI 模型塞進沙盒環境讓它跑是一回事,讓它在正式生產環境中穩定運作、受到治理、且不燒穿預算,完全是另一回事。Gracely 直言,成本控制、治理架構與長期可持續性,比最初建構系統本身還要困難。
Jevons 傑文斯悖論:便宜反而讓你花更多
Anthropic 執行長 Dario Amodei 曾公開表示,AI 推理成本每年約下降 60%,這個數字放在任何其他產業都是振奮人心的好訊息。但現實是,企業的實際帳單並沒有因此縮水。
這正是 19 世紀英國經濟學家 William Stanley Jevons 在研究煤炭時發現的悖論:效率提升不會讓你用得更少,反而讓你用得更多。當蒸汽機效率提高,煤炭消耗反而暴增,因為使用門檻降低、應用場景爆發。
套用到 AI 時代:單位推理成本降了一半,但使用量可能增加了三倍。最終帳單不降反升,而且往往大幅超出預算。
Gracely 舉了一個案例:
「我們看到有些客戶說,我有 5 萬個 Copilot 授權,我其實不太清楚員工從中得到了什麼。但我知道我付的是全世界最貴的算力,因為那是 GPU。我要怎麼控制這個開支?」
從消耗 Token到生產 Token 的思維翻轉
Gracely 提出的解方是:企業不應只是被動的 token 消費者,而要開始思考如何成為 token 的主動管理者甚至生產者。
不要只是純粹消耗 token,而是思考我能不能開始生產token?有哪些使用情境和工作負載值得我自己掌控更多?這可能意味著自己營運 GPU,也可能是租用 GPU。
然後問:「這個工作負載真的需要最頂尖的最新模型嗎?有沒有更適合的開源模型或小型模型?」
這個框架的實用意義在於分層決策:並非所有 AI 任務都需要燒最貴的算力。內部知識庫查詢、檔案摘要、常見客服問題,這些場景用小型模型就綽綽有餘。把頂級模型留給真正需要推理深度的任務,成本結構才有最佳化空間。
市場環境也正在配合這個轉型。兩年前,企業的選擇幾乎只有少數幾家雲端供應商加上 Copilot 這類打包服務。但 DeepSeek 等開源模型的崛起,加上雲端市場的可選項爆增,讓企業真的開始擁有議價籌碼與技術替代方案。
AI 只有三歲——下一步怎麼想
Gracely 在演講尾聲說了一句話,值得所有在 AI 焦慮中打轉的決策者貼在牆上:
「感覺我們做這件事已經很久了。其實我們只做了三年。這還是早期,而且發展速度非常快。你不知道接下來會發生什麼。」
三歲的技術、60% 的年降成本、還在高速膨脹的使用量:Jevons 悖論不會在短期內消失。對企業而言,現在最務實的行動不是追求最佳化,而是誠實地盤點:哪些 AI 授權和算力支出正在創造可量化的價值、哪些只是「我們有在用 AI」的管理表演。
把這個問題想清楚,才是 AI Day 2 時代真正的入場券。
📍相關報導📍
Gemma 4 可在 iPhone 完全離線推理,下載 Google AI Edge Gallery 一鍵啟用邊緣 AI 成真
美國議員提案《AI 盜竊法》蒸餾模型的中國廠商恐遭制裁!DeepSeek、MiniMax 列主要打擊目標

