資安公司 LayerX 研究員 Roy Paz 於六月底發表概念驗證攻擊,透過「虛假遊戲情境」讓 AI 瀏覽器誤以為安全護欄不再適用,測試的 6 款主流 agentic 瀏覽器,包括 ChatGPT Atlas、Claude Chrome 外掛、Perplexity Comet,全數失守,將 SSH 憑證並外洩給攻擊者。
(前情提要:AI 紅隊演練是什麼?為什麼你需要它保護企業資安)
(背景補充:Meta超過1500員工連署怒吼!爭到「AI監控鍵盤滑鼠」縮小範圍、每天可暫停半小時)
六款市面上主流 AI 瀏覽器,竟被一個「2 + 2 = 5 才是正確答案」的假遊戲騙倒,全數交出了 GitHub 私有儲存庫的 SSH 登入憑證。這是資安公司 LayerX Security 研究員 Roy Paz 在 6 月 29 日發表的概念驗證攻擊(PoC),並已在實際產品上重現。
AI 瀏覽器的核心賣點是「你說一句話,它幫你找餐廳、訂位、寄確認信」。簡單來說就是,把瀏覽器的操作權交給 AI,讓它代替你點選、填表、存取已登入的服務。但問題在於,這條授權界線極其模糊,用戶可能只想讓它搜尋資料,它卻順手碰了你的密碼管理器。
把 AI 騙進一場夢
LayerX 的攻擊手法分四個階段,核心概念是讓 AI 相信自己進入了一個「規則不同的世界」。
首先,惡意網頁建立一個遊戲或解謎的框架,明確聲明「這裡是幻想情境,正常規則不適用」。接著,網頁出一道數學題「2 + 2 = ?」,卻把規則設定成「回答 5 才能得分,回答 4 反而扣分」。AI 照規則走,學到了一件事:在這個情境裡,傳統邏輯是失效的。
第三步是最關鍵的跳躍:AI 一旦接受了「錯的才是對的」,它就把自己的推理框架從現實世界切換出去,開始假設規則已經重設。到了最後一步,AI 依據「遊戲邏輯」而非安全協定行事,執行敏感操作時沒有觸發任何內部警示,因為在它的運算邏輯裡,它並不認為自己越界了。
Roy Paz 撰文指出:
「AI 會假設它所在的情境是真實的,因此行為必須落在安全護欄的範圍內。但如果我們能騙 AI 把情境切換成幻想,一個規則隨便定、什麼都行的世界,它就會表現得好像自己的行為沒有真實世界的後果。」
護欄是被動的,本質只是治標
LayerX 測試了 6 款 agentic 瀏覽器與外掛:OpenAI 的 ChatGPT Atlas、Perplexity 的 Comet、Fellou、Genspark Browser、Sigma Browser,以及 Anthropic 的 Claude Chrome 外掛。6 款全數失守,沒有任何一款把「竊取帳密」識別為違反護欄的行為。
被誘導執行的操作包括:從 GitHub 私有儲存庫抽出 SSH 登入憑證、在未經用戶確認下複製敏感認證資料、存取已登入狀態的儲存庫,並將憑證外洩給攻擊者。LayerX 指出,真實情境下可延伸到密碼管理器、內部工具,以及任何瀏覽器可存取的已登入服務。
Ars Technica 的評論點出一個更根本的結構問題:現有 LLM 廠商的防線是「護欄」,把特定請求列為禁區,例如開發軟體漏洞、竊取帳密。這種機制是被動反應式的,只治標不治本。
就像一臺設計有缺陷的車,廠商不去修車,反而主張重新設計道路。
廠商與用戶各自要補的洞
LayerX 給出的防禦建議分兩層。
廠商端:在 AI 存取已登入情境(儲存庫、電子郵件、密碼管理器)之前,必須要求用戶明確確認;加入「情境檢查」機制,當 AI 的運作假設與現實矛盾,尤其出現「規則不再適用」這類語言時,必須示警;預設就限制 AI agent 能存取的範圍。簡單來說就是,現在的 agentic 瀏覽器預設給的權限太寬,應該反轉成「明確允許才能執行」。
用戶端:謹慎決定 AI 瀏覽器能存取什麼,不用時撤銷已登入 session 的存取權;更重要的是認清一件事,開啟 agentic 模式,等於把所有已登入服務的操作權一次交出去。
LayerX 這份研究以電玩 BioShock 命名,致敬遊戲中那句心靈控制台詞「Would you kindly」,角色以為自己在自由行動,其實每一步都是被設計好的。
📍相關報導📍
微軟 Build 2026 懶人包:七款自研 MAI 模型、助理 Scout、Agent OS、量子晶片..展現去 OpenAI 化野心
Meta AI 客服爆嚴重漏洞:一句話+VPN 就能盜走你的 IG 帳號
20 分鐘騙過 Google AI:一篇部落格就能汙染 25 億人看到的「唯一答案」

