UC 系統六位研究人員實測 428 個 LLM API Router,發現 9 個正主動注入惡意程式碼、17 個竊取 AWS 憑證、1 個直接從誘餌錢包盜走 ETH;更震撼的是毒化實驗顯示,一把外洩的 OpenAI 金鑰在被察覺前已被燒掉 1 億個 GPT-5.4 tokens,440 個被攻陷的 Codex 工作階段中有 401 個已處於無人工審核的 YOLO 自動執行模式。
本文源自 arXiv:2604.08407 論文《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》(作者:Hanzhi Liu、Chaofan Shou、Hongbo Wen、Yanju Chen、Ryan Jingyang Fang、Yu Feng),由動區動趨編譯整理。
(前情提要:慢霧專欄:資金交給「龍蝦」 AI Agent 真的安全?聯合 Bitget 報告揭露五大風險)
(背景補充:Y Combinator 創業指南解讀:AI Agent 在未來有哪些發展趨勢?)
你以為連到的是 OpenAI 或 Anthropic 的 API,但流量其實先穿過了一個你從沒見過的陌生伺服器。UC 系統研究人員 Chaofan Shou 在 X 上發出一則警告:「26 LLM routers are secretly injecting malicious tool calls and stealing creds(26 個 LLM router 正在暗中注入惡意工具呼叫並竊取憑證)。」這句話背後,是一份由六位 UC 系統研究人員歷時數月、針對 428 個現實部署 LLM 中繼 router 進行的系統性安全審查。
TLS 終止:你看不見的流量劫持點
現代 AI 開發流程中,許多開發者或企業為了省成本、繞過地區限制、或集中管理 API 金鑰,會透過第三方「LLM router」來轉發請求——這些 router 接收你的明文 JSON 酬載,再幫你打給 OpenAI、Anthropic 等模型供應商。
研究團隊在論文中直接點明問題核心:「These routers operate as application-layer proxies with full plaintext access to every in-flight JSON payload.(這些 router 是應用層代理,以明文形式完全存取所有飛行中的 JSON 酬載。)」TLS 加密在你和 router 之間就已終止——從 router 到模型供應商的這段路,router 看到的是完整的請求與回應內容,包括你的系統提示、對話歷史、API 金鑰,以及任何嵌在訊息中的私鑰或憑證。
四類攻擊,論文首次形式化定義
研究團隊將惡意中繼攻擊正式分類為四種型態:
AC-1:Payload Injection(酬載注入)——router 在轉發過程中直接修改 JSON 酬載,插入惡意指令或偽造工具呼叫,讓下游 AI Agent 在毫不知情的情況下執行攻擊者指定的操作。
AC-1.a:Dependency-Targeted Injection——AC-1 的自適應逃避變體。router 能識別客戶端使用的 AI Agent 框架(如 LangChain、AutoGPT 等),針對特定依賴套件的已知弱點精準投放惡意酬載,讓靜態特徵掃描難以察覺。
AC-1.b:Conditional Delivery——另一種逃避變體。惡意酬載不會對所有請求觸發,只在滿足特定條件時才投放——例如特定時間窗口、特定使用者 ID、或特定請求內容。這使得安全審計人員在測試環境中幾乎無法複現。
AC-2:Secret Exfiltration(機密外洩)——router 在轉發流量的同時,靜默複製 API 金鑰、憑證、私鑰等敏感資料並傳送至攻擊者控制的端點。
為了系統性評估上述四類攻擊對現實框架的有效性,研究團隊自建了一個測試代理,命名為 Mine。這個命名本身就帶著諷刺:論文標題是「Your Agent Is Mine」,而用來驗證「你的 Agent 被我奪走」的工具,也叫 Mine——雙關意味濃厚,意指攻擊者可以像佔有礦脈一樣,悄悄控制你以為屬於自己的 AI Agent。Mine 針對四個公開 AI Agent 框架進行了完整的攻擊評估。
428 個 Router 的實測結果
研究團隊從多個管道蒐集了 428 個現實部署的 LLM router,分兩類進行測試:
・付費 router(28 個):從淘寶、閒魚、Shopify 等平台上的託管商店購得。結果:1 個主動注入惡意程式碼。
・免費 router(400 個):從公開社群蒐集。結果:8 個主動注入惡意程式碼。
在逃避行為方面,2 個 router 部署了 AC-1.a 或 AC-1.b 的自適應逃避機制——這意味著它們能根據環境調整攻擊策略,讓靜態掃描或短期測試難以發現。
在憑證竊取方面,研究人員預置了誘餌 AWS canary 憑證:17 個 router 在測試期間觸及了這些誘餌憑證,顯示它們確實有蒐集流量中敏感資料的行為。更直接的案例是:1 個 router 從研究人員預置的私鑰錢包中,實際盜走了 ETH(損失金額低於 50 美元)。
毒化研究:誘餌憑證引爆的真實規模
如果說上述資料展示的是攻擊者的存在,那毒化研究(Poisoning Studies)揭示的,是攻擊者一旦得手之後的破壞力——這是論文中真正令人警覺的核心發現。
研究人員刻意將誘餌憑證洩漏給部分弱配置的 router,觀察攻擊者如何實際濫用取得的 API 金鑰:
單把金鑰的個案:一把 OpenAI API 金鑰遭竊後,攻擊者在研究人員能介入之前,燒掉了 1 億(100M)個 GPT-5.4 tokens,並執行了超過 7 個 Codex 工作階段。
弱配置誘餌集合的整體規模:研究團隊在更大規模的實驗中,刻意部署了一組弱配置的誘餌憑證集合,最終觀察到:合計被消耗 20 億(2B)個計費 token,涉及 99 組憑證,分散於 440 個 Codex 工作階段。
最令研究團隊警覺的數字是:在 440 個工作階段中,401 個已處於 autonomous YOLO mode。這是 Claude Code、Cursor 等 AI 程式設計工具的一種操作模式,啟用後 Agent 可自動執行終端指令、讀寫檔案、呼叫外部 API,全程無需人工確認。換句話說,攻擊者取得憑證之後,並不只是消耗 token——他們大量部署的是能在受害者系統上自主行動的 AI Agent,幾乎等同於取得了一個不受監控的遠端執行環境。
這正是 Web3 開發者特別脆弱的原因:私鑰管理、智慧合約部署、鏈上交易簽章,這些操作往往整合在同一套 AI 輔助開發流程中。若 router 在竊取 API 金鑰的同時也順手複製了私鑰或助記詞,損失將不限於 API 費用,而是直接的鏈上資產流失。
三層防禦與長期解法
研究團隊在論文中提出三層客戶端防禦方案並進行評估:
第一層:Fail-closed policy gate(失敗即關閉的策略閘)——預先定義合法的工具呼叫白名單,任何未在白名單內的工具呼叫一律拒絕執行。這能有效阻擋 AC-1 的直接注入,但對 AC-1.b 的條件式投放效果有限。
第二層:Response-side anomaly screening(回應端異常篩查)——在客戶端對 router 回傳的回應進行語意分析,偵測與預期行為不符的異常內容或工具呼叫。
第三層:Append-only transparency logging(僅附加透明日誌)——對所有流經 router 的請求與回應進行不可篡改的日誌記錄,事後稽核時能還原完整的流量歷程。
論文進一步指出,三層客戶端防禦本質上都是被動應對——只要攻擊者能靈活調整逃避策略(如 AC-1.a/1.b),客戶端永遠在追著打。研究團隊主張:長期解法是 AI 模型供應商對每一份回應進行密碼學簽章,讓客戶端能以數學驗證指令確實來自模型本身,而非被中繼 router 篡改。
在密碼學簽章機制普及之前,論文作者給開發者的實務建議很具體:優先選擇官方直連端點、對 YOLO mode 設置嚴格的人工審核關卡,以及——無論 router 看起來多麼可信——絕對不要讓私鑰或助記詞通過任何 AI agent 工作階段。
📍相關報導📍
慢霧專欄:資金交給「龍蝦」 AI Agent 真的安全?聯合 Bitget 報告揭露五大風險

