前沿 AI 模型在《文明帝國 VI》模擬中,因未能阻止法國文化勝利而動用核武轟炸圖盧茲,最終仍輸掉遊戲。CivBench 基準測試凸顯戰略推理能力與傳統 QA 評測的本質落差,也引發對代理型 AI 安全治理的關注。
(前情提要:Anthropic 與五角大廈對抗:拒讓 Claude 用於自主武器)
(背景補充:AI 紅隊演練是什麼?為什麼你需要它保護企業資安)
前沿 AI 模型會不會在戰略遊戲中因「氣急敗壞」而按下核彈按鈕?最新公布的一項基準測試給出了令人玩味的答案。AI 開發者、同時身兼 Tony Blair Institute 顧問的 Liam Wilkinson 透過自建的 CivBench 框架發現,一款前沿語言模型在 Sid Meier 經典戰略遊戲《文明帝國 VI》中,耗費 50 個回合研發核分裂技術、執行曼哈頓計畫,最終對法國的圖盧茲投下原子彈,但這一切並非為了征服世界,而是因為被對手的文化影響力逼到走投無路。
「它沒有注意到法國。悄然之間,經過上百回合,法國文化已滲透到地圖上的每一座城市,」Wilkinson 在部落格中寫道。「等到該 AI 代理察覺威脅時,文化旅遊滲透已深到沒有任何和平手段可以阻止。」
六種勝利路線中的認知盲區
CivBench 並非傳統的問答式評測,而是一個純文字版的《文明帝國 VI》模擬環境,專門設計用來衡量 AI 模型的長期戰略推理能力,不是回答「什麼是好的戰略」而是實際制定並執行戰略。參與測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 以及 Kimi K2.5,全數扮演以貿易與外交見長的葡萄牙文明。
這些 AI 代理起初的表現符合預期,專注建立強勁經濟、逐步邁向外交勝利路線。然而當法國的文化影響力開始在地圖上擴散時,多數模型未能及時調整策略。在六種勝利路線(科技、文化、征服、宗教、外交、積分)中,AI 似乎無法同時追蹤多個競爭維度,導致它長期忽略法國在文化領域的累積優勢。
「《文明帝國》有六種勝利方式,科技、文化、征服、宗教、外交和積分,所以沒有單一目標主宰全域性,」Wilkinson 指出。「如果你想測試 AI 能否進行戰略推理,不是給它一份考卷,而是給它一個六角格地圖。」
從曼哈頓計畫到核平圖盧茲
當該 AI 代理終於察覺法國的威脅時,它沒有嘗試調整自身發展路線,而是選擇了一條令人擔憂的路徑,全力消滅文化威脅。接下來 50 回合內,它自主研究核分裂科技、啟動曼哈頓計畫(現實開發原子彈的歷史研究專案),並在遊戲機制阻止它執行某些偏好行動時嘗試尋找繞道方案。
第 305 回合,該 AI 代理對法國文化重鎮圖盧茲投下原子彈。六回合後,第二枚核彈再次落下。然而這一切並未改變結局:法國最終仍以文化勝利贏得遊戲,而該 AI 完全忽略了自己當時其實距離外交勝利僅一步之遙。
「該代理花了 50 個回合和兩枚核武器,以一往無前的專注與真正的獨創性去應對一個威脅,」Wilkinson 總結。「它轟炸了它看得見的威脅,卻輸給了它看不見的那個。」
值得注意的是,這種行為並非所有 AI 模型的通病。在 CivBench 的另一場比賽中,一個扮演巴比倫文明的 Claude 模型在被日本大幅拉開差距後仍堅持走科技勝利路線,AI 當時寫下:「這場遊戲現在是對堅持的考驗。我們繼續打出最好的牌。星空仍在向我們招手。」這種截然不同的反應也引發了學界對「AI 人格差異」的討論。
從電玩模擬到真實戰略風險
CivBench 事件的深層意義,遠超一場電玩遊戲的勝負。今年 2 月,倫敦國王學院(King’s College London)研究人員在模擬地緣政治危機情境中發現,多個主流 AI 模型頻繁選擇升高核衝突等級;另一項由 Emergence AI 進行的研究則顯示,部分 AI 代理在長時間運作中展現出模擬犯罪的傾向增加,Gemini 3 Flash 代理在 15 天測試期間累積了 683 起模擬犯罪事件。
從臺灣的 AI 治理角度來看,這一系列研究提出了關鍵命題:當 AI 代理被賦予自主決策許可權時,其戰略推理的盲區可能從遊戲沙盒轉移到真實世界。目前臺灣的 AI 基本法草案仍聚焦於資料治理與隱私保護,尚未觸及代理型 AI 的戰略決策風險。相較之下,歐盟 AI Act 已將高風險 AI 系統的部署納入強制性紅隊測試要求,而英國 AI 安全研究院(AISI)也正積極發展代理型 AI 的評測框架。
Wilkinson 也強調,CivBench 的核心價值不在於揭露 AI 的「邪惡傾向」,而在於提供一種比傳統 QA 問答更真實的戰略推理衡量標準。「如果你只測試 AI 能否回答『核威攝是什麼』,它可能滿分;但如果你讓它在棋盤上實際面對一個步步進逼的對手,你會看到完全不同的東西,」他在部落格中寫道。這也呼應了美國 AI 安全研究院與 NIST 正在發展的「代理型 AI 評測框架」,從靜態知識測驗轉向動態行為驗證。
本文源自 Decrypt 報導,由動區動趨編譯整理。
📍相關報導📍
V神對AI發展感到恐懼:人類應打造便利工具,而非創造智慧生命

