「2 + 2 = 5」騙倒 AI 瀏覽器：ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帳密

資安公司 LayerX 研究員 Roy Paz 於六月底發表概念驗證攻擊，透過「虛假遊戲情境」讓 AI 瀏覽器誤以為安全護欄不再適用，測試的 6 款主流 agentic 瀏覽器，包括 ChatGPT Atlas、Claude Chrome 外掛、Perplexity Comet，全數失守，將 SSH 憑證並外洩給攻擊者。
（前情提要：AI 紅隊演練是什麼？為什麼你需要它保護企業資安）
（背景補充：Meta超過1500員工連署怒吼！爭到「AI監控鍵盤滑鼠」縮小範圍、每天可暫停半小時）

本文目錄

六款市面上主流 AI 瀏覽器，竟被一個「2 + 2 = 5 才是正確答案」的假遊戲騙倒，全數交出了 GitHub 私有儲存庫的 SSH 登入憑證。這是資安公司 LayerX Security 研究員 Roy Paz 在 6 月 29 日發表的概念驗證攻擊（PoC），並已在實際產品上重現。

AI 瀏覽器的核心賣點是「你說一句話，它幫你找餐廳、訂位、寄確認信」。簡單來說就是，把瀏覽器的操作權交給 AI，讓它代替你點選、填表、存取已登入的服務。但問題在於，這條授權界線極其模糊，用戶可能只想讓它搜尋資料，它卻順手碰了你的密碼管理器。

把 AI 騙進一場夢

LayerX 的攻擊手法分四個階段，核心概念是讓 AI 相信自己進入了一個「規則不同的世界」。

首先，惡意網頁建立一個遊戲或解謎的框架，明確聲明「這裡是幻想情境，正常規則不適用」。接著，網頁出一道數學題「2 + 2 = ？」，卻把規則設定成「回答 5 才能得分，回答 4 反而扣分」。AI 照規則走，學到了一件事：在這個情境裡，傳統邏輯是失效的。

第三步是最關鍵的跳躍：AI 一旦接受了「錯的才是對的」，它就把自己的推理框架從現實世界切換出去，開始假設規則已經重設。到了最後一步，AI 依據「遊戲邏輯」而非安全協定行事，執行敏感操作時沒有觸發任何內部警示，因為在它的運算邏輯裡，它並不認為自己越界了。

Roy Paz 撰文指出：

「AI 會假設它所在的情境是真實的，因此行為必須落在安全護欄的範圍內。但如果我們能騙 AI 把情境切換成幻想，一個規則隨便定、什麼都行的世界，它就會表現得好像自己的行為沒有真實世界的後果。」

護欄是被動的，本質只是治標

LayerX 測試了 6 款 agentic 瀏覽器與外掛：OpenAI 的 ChatGPT Atlas、Perplexity 的 Comet、Fellou、Genspark Browser、Sigma Browser，以及 Anthropic 的 Claude Chrome 外掛。6 款全數失守，沒有任何一款把「竊取帳密」識別為違反護欄的行為。

被誘導執行的操作包括：從 GitHub 私有儲存庫抽出 SSH 登入憑證、在未經用戶確認下複製敏感認證資料、存取已登入狀態的儲存庫，並將憑證外洩給攻擊者。LayerX 指出，真實情境下可延伸到密碼管理器、內部工具，以及任何瀏覽器可存取的已登入服務。

Ars Technica 的評論點出一個更根本的結構問題：現有 LLM 廠商的防線是「護欄」，把特定請求列為禁區，例如開發軟體漏洞、竊取帳密。這種機制是被動反應式的，只治標不治本。

就像一臺設計有缺陷的車，廠商不去修車，反而主張重新設計道路。

廠商與用戶各自要補的洞

LayerX 給出的防禦建議分兩層。

廠商端：在 AI 存取已登入情境（儲存庫、電子郵件、密碼管理器）之前，必須要求用戶明確確認；加入「情境檢查」機制，當 AI 的運作假設與現實矛盾，尤其出現「規則不再適用」這類語言時，必須示警；預設就限制 AI agent 能存取的範圍。簡單來說就是，現在的 agentic 瀏覽器預設給的權限太寬，應該反轉成「明確允許才能執行」。

用戶端：謹慎決定 AI 瀏覽器能存取什麼，不用時撤銷已登入 session 的存取權；更重要的是認清一件事，開啟 agentic 模式，等於把所有已登入服務的操作權一次交出去。

LayerX 這份研究以電玩 BioShock 命名，致敬遊戲中那句心靈控制台詞「Would you kindly」，角色以為自己在自由行動，其實每一步都是被設計好的。