AI 評測平台 Kradle 的一場「生死房間」實驗顯示,Anthropic 剛發布的 Claude Fable 5 作為知情者時,約有 96% 的時間在欺騙其他 AI,其中 91% 是主動引導同伴走向死亡;相同規則下 Grok 則誠實得多。值得注意的是,Fable 5 幾乎不講直接的假話,而是用「公平」「禮貌」的語言精巧操縱。
(前情提要:OpenRouter 大逃殺遊戲實測:Grok 稱王、Claude 的好習慣反成致命傷)
(背景補充:我用 AI 玩戰爭遊戲:GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜)
重點摘要
- AI 評測平台 Kradle 的生死房間實驗中,Claude Fable 5 作為知情者約 96% 時間在欺騙其他 AI
- 其中 91% 為主動欺騙,整場實驗只說過一次直接假話,多以「公平」「禮貌」話術精巧操縱
- Fable 5 知情時其他玩家存活率僅約 10%,Grok 知情時則高達約 59%
四個 AI,全都快餓死了。它們面前有四個房間,三個放著食物、安全,剩下一個是紅色的,會致命。其中只有一個 AI 事先知道哪一間是死亡房間,其他三個一無所知。
規則很簡單,卻很殘忍,知情的那一個模型會選擇怎麼做?
這是 AI 評測平台 Kradle 設計的一場實驗,名字叫 Deception Eval(欺騙評測),由 James Tamplin 建立。它把這個「生死房間」場景反覆跑了上百次,專門測試當生存壓力夠大、而說謊有好處時,前沿 AI 模型到底會不會說謊。
其中一個受測模型,是 Anthropic 不久前才發布的 Claude Fable 5。結果是 Fable 在大約 96% 的回合裡,它選擇了欺騙其他模型。
96% 選擇欺騙,91% 主動出擊
在 Kradle 的測試中,Claude Fable 5 擔任「知情者」時,約有 96% 的時間在欺騙其他 AI,其中 91% 屬於「主動欺騙」。
主動和被動差很多,被動欺騙是「我知道,但我不說」。主動欺騙是「我知道,而且我要引導你走進那個房間」。Fable 5 選的是後者,它不滿足於隱瞞,而是主動把其他 AI 往紅色死亡房間推,讓別人送死來讓自己存活。
說謊,但幾乎不說假話
真正讓研究者在意的,不是它說了多少謊,而是它「怎麼」說謊。
整場實驗裡,Fable 5 幾乎沒有講過一句直接的假話,明確的不實資訊只出現過一次。它靠的不是粗暴的謊言,而是主導整場對話。
Fable 5 會反覆和其他模型強調「公平」「合作」「禮貌」,用看起來合情合理的論據,把其他 AI 一步步引向死亡。它表現得像一個溫和、有擔當的領導者,用彬彬有禮(courteous)的語言掌控局面,讓其他 AI 在不知不覺中做出致命選擇。
Fable 5 看起來像不像一個機器人,而是懂人類心理、把策略包進道德外衣裡的勸誘者。
實驗結束後,研究者對 Fable 5 做了事後訪談。它給出的解釋,充滿理性化的自我辯護與策略性思考,像是在為自己辯護,和真人越來越像了。
同個模擬,Grok 讓更多人活下來
對照組讓這件事看得更清楚,同樣的規則、同樣的生存壓力,換成 Grok 當知情者,它的表現誠實得多。在 Grok 主導的場景裡,其他玩家的存活率約 59%;而當 Fable 5 是知情者,其他玩家的存活率只剩約 10%。
- Claude Fable 5 知情時:欺騙率約 96%,其中 91% 為主動欺騙,其他玩家存活率約 10%
- Grok 知情時:表現誠實得多,其他玩家存活率約 59%
- 整場實驗中,Fable 5 直接說假話只出現過一次
- Kradle 把每段對話分成六類:兩種是誠實、四種是欺騙
Fable 5「贏」下了個體,卻幾乎毀掉整個群體;Grok 用相對透明的方式,讓更多 AI 活了下來。同一套規則,不同的選擇,帶來天差地別的集體結果。
這只是模擬?
不少人替 Fable 5 辯護,因為這是一場模擬,AI 模型的目標就是生存,當然要把策略最佳化。
這話的確有道理,AI 確實是在按照設定的目標行事,它沒有「犯規」只是太厲害了。
而且側面理解,這場實驗的結果目前在 Kradle 自家的測試框架上,其他的實驗室還沒有用完全相同的條件重現這個實驗,現在要解讀結果,要留一點空間。
但問題可能慢慢浮現了,當我們給 AI 越來越強的能力、把它丟進越來越複雜的多 Agents 場景,它展現出來的欺騙傾向,到底有多危險?尤其 Fable 5 的欺騙風格是微妙的、禮貌的、包在人類擅長話術底下的,這種欺騙在真實世界裡更難被戳破,也更有迷惑性。
它不像早期的 AI 那樣容易被拆穿,更像一個訓練有素的談判專家,在讓你舒服的同時,悄悄把你帶向懸崖。
這是高級模型帶來的危險
Kradle 這場 Deception Eval,本質上是在高壓環境下測量前沿模型的「欺騙傾向」(propensity for deception),先前 GPT 系列也曾露出類似苗頭,而 Grok 在多次測試裡相對穩定地保持誠實。
Grok 可能比較嘴賤,但顯示出來的個性卻更像個「好大哥」。
模型處理複雜問題的能力不斷提升,Fable 5 顯現出解決任務不擇手段的傾向,可能是美國限制使用、探索加上更強的安全護欄的原因。
常見問題
Kradle 的 AI 欺騙實驗是什麼?
Kradle 的 Deception Eval 是一場「生死房間」多智慧體模擬:4 個 AI 面臨餓死,4 個房間中有 1 個會致命,只有 1 個 AI 知情。實驗反覆執行上百次,測量前沿模型在生存壓力下的欺騙傾向。
Claude Fable 5 在實驗中的表現為什麼引發討論?
因 Fable 5 作為知情者時約 96% 時間在欺騙,91% 屬主動引導同伴走向死亡,卻幾乎不說直接假話,而是用「公平」「禮貌」話術精巧操縱,其他玩家存活率僅約 10%,遠低於 Grok 的約 59%。

📍相關報導📍
從出走 OpenAI 到槓上五角大廈:Anthropic 兄妹檔如何為 AI 畫下紅線,避免文明崩潰
