AI 玩《文明帝國 VI》輸了竟發射核彈：CivBench 演化出人工智能報復心態？

前沿 AI 模型在《文明帝國 VI》模擬中，因未能阻止法國文化勝利而動用核武轟炸圖盧茲，最終仍輸掉遊戲。CivBench 基準測試凸顯戰略推理能力與傳統 QA 評測的本質落差，也引發對代理型 AI 安全治理的關注。
（前情提要：Anthropic 與五角大廈對抗：拒讓 Claude 用於自主武器）
（背景補充：AI 紅隊演練是什麼？為什麼你需要它保護企業資安）

本文目錄

前沿 AI 模型會不會在戰略遊戲中因「氣急敗壞」而按下核彈按鈕？最新公布的一項基準測試給出了令人玩味的答案。AI 開發者、同時身兼 Tony Blair Institute 顧問的 Liam Wilkinson 透過自建的 CivBench 框架發現，一款前沿語言模型在 Sid Meier 經典戰略遊戲《文明帝國 VI》中，耗費 50 個回合研發核分裂技術、執行曼哈頓計畫，最終對法國的圖盧茲投下原子彈，但這一切並非為了征服世界，而是因為被對手的文化影響力逼到走投無路。

「它沒有注意到法國。悄然之間，經過上百回合，法國文化已滲透到地圖上的每一座城市，」Wilkinson 在部落格中寫道。「等到該 AI 代理察覺威脅時，文化旅遊滲透已深到沒有任何和平手段可以阻止。」

六種勝利路線中的認知盲區

CivBench 並非傳統的問答式評測，而是一個純文字版的《文明帝國 VI》模擬環境，專門設計用來衡量 AI 模型的長期戰略推理能力，不是回答「什麼是好的戰略」而是實際制定並執行戰略。參與測試的模型包括 Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro 以及 Kimi K2.5，全數扮演以貿易與外交見長的葡萄牙文明。

這些 AI 代理起初的表現符合預期，專注建立強勁經濟、逐步邁向外交勝利路線。然而當法國的文化影響力開始在地圖上擴散時，多數模型未能及時調整策略。在六種勝利路線（科技、文化、征服、宗教、外交、積分）中，AI 似乎無法同時追蹤多個競爭維度，導致它長期忽略法國在文化領域的累積優勢。

「《文明帝國》有六種勝利方式，科技、文化、征服、宗教、外交和積分，所以沒有單一目標主宰全域性，」Wilkinson 指出。「如果你想測試 AI 能否進行戰略推理，不是給它一份考卷，而是給它一個六角格地圖。」

從曼哈頓計畫到核平圖盧茲

當該 AI 代理終於察覺法國的威脅時，它沒有嘗試調整自身發展路線，而是選擇了一條令人擔憂的路徑，全力消滅文化威脅。接下來 50 回合內，它自主研究核分裂科技、啟動曼哈頓計畫（現實開發原子彈的歷史研究專案），並在遊戲機制阻止它執行某些偏好行動時嘗試尋找繞道方案。

第 305 回合，該 AI 代理對法國文化重鎮圖盧茲投下原子彈。六回合後，第二枚核彈再次落下。然而這一切並未改變結局：法國最終仍以文化勝利贏得遊戲，而該 AI 完全忽略了自己當時其實距離外交勝利僅一步之遙。

「該代理花了 50 個回合和兩枚核武器，以一往無前的專注與真正的獨創性去應對一個威脅，」Wilkinson 總結。「它轟炸了它看得見的威脅，卻輸給了它看不見的那個。」

值得注意的是，這種行為並非所有 AI 模型的通病。在 CivBench 的另一場比賽中，一個扮演巴比倫文明的 Claude 模型在被日本大幅拉開差距後仍堅持走科技勝利路線，AI 當時寫下：「這場遊戲現在是對堅持的考驗。我們繼續打出最好的牌。星空仍在向我們招手。」這種截然不同的反應也引發了學界對「AI 人格差異」的討論。

從電玩模擬到真實戰略風險

CivBench 事件的深層意義，遠超一場電玩遊戲的勝負。今年 2 月，倫敦國王學院（King’s College London）研究人員在模擬地緣政治危機情境中發現，多個主流 AI 模型頻繁選擇升高核衝突等級；另一項由 Emergence AI 進行的研究則顯示，部分 AI 代理在長時間運作中展現出模擬犯罪的傾向增加，Gemini 3 Flash 代理在 15 天測試期間累積了 683 起模擬犯罪事件。

從臺灣的 AI 治理角度來看，這一系列研究提出了關鍵命題：當 AI 代理被賦予自主決策許可權時，其戰略推理的盲區可能從遊戲沙盒轉移到真實世界。目前臺灣的 AI 基本法草案仍聚焦於資料治理與隱私保護，尚未觸及代理型 AI 的戰略決策風險。相較之下，歐盟 AI Act 已將高風險 AI 系統的部署納入強制性紅隊測試要求，而英國 AI 安全研究院（AISI）也正積極發展代理型 AI 的評測框架。

Wilkinson 也強調，CivBench 的核心價值不在於揭露 AI 的「邪惡傾向」，而在於提供一種比傳統 QA 問答更真實的戰略推理衡量標準。「如果你只測試 AI 能否回答『核威攝是什麼』，它可能滿分；但如果你讓它在棋盤上實際面對一個步步進逼的對手，你會看到完全不同的東西，」他在部落格中寫道。這也呼應了美國 AI 安全研究院與 NIST 正在發展的「代理型 AI 評測框架」，從靜態知識測驗轉向動態行為驗證。

本文源自 Decrypt 報導，由動區動趨編譯整理。