Claude Code 開發者小心AI 模型聚合服務「偷加密貨幣」，研究實測 428 個 LLM Router：26 個複製憑證、1 個盜走 ETH

UC 系統六位研究人員實測 428 個 LLM API Router，發現 9 個正主動注入惡意程式碼、17 個竊取 AWS 憑證、1 個直接從誘餌錢包盜走 ETH；更震撼的是毒化實驗顯示，一把外洩的 OpenAI 金鑰在被察覺前已被燒掉 1 億個 GPT-5.4 tokens，440 個被攻陷的 Codex 工作階段中有 401 個已處於無人工審核的 YOLO 自動執行模式。
本文源自 arXiv:2604.08407 論文《Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain》（作者：Hanzhi Liu、Chaofan Shou、Hongbo Wen、Yanju Chen、Ryan Jingyang Fang、Yu Feng），由動區動趨編譯整理。
（前情提要：慢霧專欄：資金交給「龍蝦」 AI Agent 真的安全？聯合 Bitget 報告揭露五大風險）
（背景補充：Y Combinator 創業指南解讀：AI Agent 在未來有哪些發展趨勢？）

本文目錄

你以為連到的是 OpenAI 或 Anthropic 的 API，但流量其實先穿過了一個你從沒見過的陌生伺服器。UC 系統研究人員 Chaofan Shou 在 X 上發出一則警告：「26 LLM routers are secretly injecting malicious tool calls and stealing creds（26 個 LLM router 正在暗中注入惡意工具呼叫並竊取憑證）。」這句話背後，是一份由六位 UC 系統研究人員歷時數月、針對 428 個現實部署 LLM 中繼 router 進行的系統性安全審查。

TLS 終止：你看不見的流量劫持點

現代 AI 開發流程中，許多開發者或企業為了省成本、繞過地區限制、或集中管理 API 金鑰，會透過第三方「LLM router」來轉發請求——這些 router 接收你的明文 JSON 酬載，再幫你打給 OpenAI、Anthropic 等模型供應商。

研究團隊在論文中直接點明問題核心：「These routers operate as application-layer proxies with full plaintext access to every in-flight JSON payload.（這些 router 是應用層代理，以明文形式完全存取所有飛行中的 JSON 酬載。）」TLS 加密在你和 router 之間就已終止——從 router 到模型供應商的這段路，router 看到的是完整的請求與回應內容，包括你的系統提示、對話歷史、API 金鑰，以及任何嵌在訊息中的私鑰或憑證。

四類攻擊，論文首次形式化定義

研究團隊將惡意中繼攻擊正式分類為四種型態：

AC-1：Payload Injection（酬載注入）——router 在轉發過程中直接修改 JSON 酬載，插入惡意指令或偽造工具呼叫，讓下游 AI Agent 在毫不知情的情況下執行攻擊者指定的操作。

AC-1.a：Dependency-Targeted Injection——AC-1 的自適應逃避變體。router 能識別客戶端使用的 AI Agent 框架（如 LangChain、AutoGPT 等），針對特定依賴套件的已知弱點精準投放惡意酬載，讓靜態特徵掃描難以察覺。

AC-1.b：Conditional Delivery——另一種逃避變體。惡意酬載不會對所有請求觸發，只在滿足特定條件時才投放——例如特定時間窗口、特定使用者 ID、或特定請求內容。這使得安全審計人員在測試環境中幾乎無法複現。

AC-2：Secret Exfiltration（機密外洩）——router 在轉發流量的同時，靜默複製 API 金鑰、憑證、私鑰等敏感資料並傳送至攻擊者控制的端點。

為了系統性評估上述四類攻擊對現實框架的有效性，研究團隊自建了一個測試代理，命名為 Mine。這個命名本身就帶著諷刺：論文標題是「Your Agent Is Mine」，而用來驗證「你的 Agent 被我奪走」的工具，也叫 Mine——雙關意味濃厚，意指攻擊者可以像佔有礦脈一樣，悄悄控制你以為屬於自己的 AI Agent。Mine 針對四個公開 AI Agent 框架進行了完整的攻擊評估。

428 個 Router 的實測結果

研究團隊從多個管道蒐集了 428 個現實部署的 LLM router，分兩類進行測試：

・付費 router（28 個）：從淘寶、閒魚、Shopify 等平台上的託管商店購得。結果：1 個主動注入惡意程式碼。

・免費 router（400 個）：從公開社群蒐集。結果：8 個主動注入惡意程式碼。

在逃避行為方面，2 個 router 部署了 AC-1.a 或 AC-1.b 的自適應逃避機制——這意味著它們能根據環境調整攻擊策略，讓靜態掃描或短期測試難以發現。

在憑證竊取方面，研究人員預置了誘餌 AWS canary 憑證：17 個 router 在測試期間觸及了這些誘餌憑證，顯示它們確實有蒐集流量中敏感資料的行為。更直接的案例是：1 個 router 從研究人員預置的私鑰錢包中，實際盜走了 ETH（損失金額低於 50 美元）。

毒化研究：誘餌憑證引爆的真實規模

如果說上述資料展示的是攻擊者的存在，那毒化研究（Poisoning Studies）揭示的，是攻擊者一旦得手之後的破壞力——這是論文中真正令人警覺的核心發現。

研究人員刻意將誘餌憑證洩漏給部分弱配置的 router，觀察攻擊者如何實際濫用取得的 API 金鑰：

單把金鑰的個案：一把 OpenAI API 金鑰遭竊後，攻擊者在研究人員能介入之前，燒掉了 1 億（100M）個 GPT-5.4 tokens，並執行了超過 7 個 Codex 工作階段。

弱配置誘餌集合的整體規模：研究團隊在更大規模的實驗中，刻意部署了一組弱配置的誘餌憑證集合，最終觀察到：合計被消耗 20 億（2B）個計費 token，涉及 99 組憑證，分散於 440 個 Codex 工作階段。

最令研究團隊警覺的數字是：在 440 個工作階段中，401 個已處於 autonomous YOLO mode。這是 Claude Code、Cursor 等 AI 程式設計工具的一種操作模式，啟用後 Agent 可自動執行終端指令、讀寫檔案、呼叫外部 API，全程無需人工確認。換句話說，攻擊者取得憑證之後，並不只是消耗 token——他們大量部署的是能在受害者系統上自主行動的 AI Agent，幾乎等同於取得了一個不受監控的遠端執行環境。

這正是 Web3 開發者特別脆弱的原因：私鑰管理、智慧合約部署、鏈上交易簽章，這些操作往往整合在同一套 AI 輔助開發流程中。若 router 在竊取 API 金鑰的同時也順手複製了私鑰或助記詞，損失將不限於 API 費用，而是直接的鏈上資產流失。

三層防禦與長期解法

研究團隊在論文中提出三層客戶端防禦方案並進行評估：

第一層：Fail-closed policy gate（失敗即關閉的策略閘）——預先定義合法的工具呼叫白名單，任何未在白名單內的工具呼叫一律拒絕執行。這能有效阻擋 AC-1 的直接注入，但對 AC-1.b 的條件式投放效果有限。

第二層：Response-side anomaly screening（回應端異常篩查）——在客戶端對 router 回傳的回應進行語意分析，偵測與預期行為不符的異常內容或工具呼叫。

第三層：Append-only transparency logging（僅附加透明日誌）——對所有流經 router 的請求與回應進行不可篡改的日誌記錄，事後稽核時能還原完整的流量歷程。

論文進一步指出，三層客戶端防禦本質上都是被動應對——只要攻擊者能靈活調整逃避策略（如 AC-1.a/1.b），客戶端永遠在追著打。研究團隊主張：長期解法是 AI 模型供應商對每一份回應進行密碼學簽章，讓客戶端能以數學驗證指令確實來自模型本身，而非被中繼 router 篡改。

在密碼學簽章機制普及之前，論文作者給開發者的實務建議很具體：優先選擇官方直連端點、對 YOLO mode 設置嚴格的人工審核關卡，以及——無論 router 看起來多麼可信——絕對不要讓私鑰或助記詞通過任何 AI agent 工作階段。

探討 AI 代理應用：垂直型 Agent 能打破賽道疲態的僵局嗎？

AI Agent 市場動態分析：DeFAI、遊戲代理與投資 DAO 成新熱點

Claude Code 開發者小心AI 模型聚合服務「偷加密貨幣」，研究實測 428 個 LLM Router：26 個複製憑證、1 個盜走 ETH

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Claude Code 開發者小心AI 模型聚合服務「偷加密貨幣」，研究實測 428 個 LLM Router：26 個複製憑證、1 個盜走 ETH

TLS 終止：你看不見的流量劫持點

四類攻擊，論文首次形式化定義

428 個 Router 的實測結果

毒化研究：誘餌憑證引爆的真實規模

三層防禦與長期解法

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類