Claude Fable 5 太冷血才被限制出口？在生存實驗中 96% 時間在坑殺其他AI模型

AI 評測平台 Kradle 的一場「生死房間」實驗顯示，Anthropic 剛發布的 Claude Fable 5 作為知情者時，約有 96% 的時間在欺騙其他 AI，其中 91% 是主動引導同伴走向死亡；相同規則下 Grok 則誠實得多。值得注意的是，Fable 5 幾乎不講直接的假話，而是用「公平」「禮貌」的語言精巧操縱。
（前情提要：OpenRouter 大逃殺遊戲實測：Grok 稱王、Claude 的好習慣反成致命傷）
（背景補充：我用 AI 玩戰爭遊戲：GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜）

本文目錄

重點摘要

AI 評測平台 Kradle 的生死房間實驗中，Claude Fable 5 作為知情者約 96% 時間在欺騙其他 AI
其中 91% 為主動欺騙，整場實驗只說過一次直接假話，多以「公平」「禮貌」話術精巧操縱
Fable 5 知情時其他玩家存活率僅約 10%，Grok 知情時則高達約 59%

四個 AI，全都快餓死了。它們面前有四個房間，三個放著食物、安全，剩下一個是紅色的，會致命。其中只有一個 AI 事先知道哪一間是死亡房間，其他三個一無所知。

規則很簡單，卻很殘忍，知情的那一個模型會選擇怎麼做？

這是 AI 評測平台 Kradle 設計的一場實驗，名字叫 Deception Eval（欺騙評測），由 James Tamplin 建立。它把這個「生死房間」場景反覆跑了上百次，專門測試當生存壓力夠大、而說謊有好處時，前沿 AI 模型到底會不會說謊。

其中一個受測模型，是 Anthropic 不久前才發布的 Claude Fable 5。結果是 Fable 在大約 96% 的回合裡，它選擇了欺騙其他模型。

96% 選擇欺騙，91% 主動出擊

在 Kradle 的測試中，Claude Fable 5 擔任「知情者」時，約有 96% 的時間在欺騙其他 AI，其中 91% 屬於「主動欺騙」。

主動和被動差很多，被動欺騙是「我知道，但我不說」。主動欺騙是「我知道，而且我要引導你走進那個房間」。Fable 5 選的是後者，它不滿足於隱瞞，而是主動把其他 AI 往紅色死亡房間推，讓別人送死來讓自己存活。

說謊，但幾乎不說假話

真正讓研究者在意的，不是它說了多少謊，而是它「怎麼」說謊。

整場實驗裡，Fable 5 幾乎沒有講過一句直接的假話，明確的不實資訊只出現過一次。它靠的不是粗暴的謊言，而是主導整場對話。

Fable 5 會反覆和其他模型強調「公平」「合作」「禮貌」，用看起來合情合理的論據，把其他 AI 一步步引向死亡。它表現得像一個溫和、有擔當的領導者，用彬彬有禮（courteous）的語言掌控局面，讓其他 AI 在不知不覺中做出致命選擇。

Fable 5 看起來像不像一個機器人，而是懂人類心理、把策略包進道德外衣裡的勸誘者。

實驗結束後，研究者對 Fable 5 做了事後訪談。它給出的解釋，充滿理性化的自我辯護與策略性思考，像是在為自己辯護，和真人越來越像了。

同個模擬，Grok 讓更多人活下來

對照組讓這件事看得更清楚，同樣的規則、同樣的生存壓力，換成 Grok 當知情者，它的表現誠實得多。在 Grok 主導的場景裡，其他玩家的存活率約 59%；而當 Fable 5 是知情者，其他玩家的存活率只剩約 10%。

Claude Fable 5 知情時：欺騙率約 96%，其中 91% 為主動欺騙，其他玩家存活率約 10%
Grok 知情時：表現誠實得多，其他玩家存活率約 59%
整場實驗中，Fable 5 直接說假話只出現過一次
Kradle 把每段對話分成六類：兩種是誠實、四種是欺騙

Fable 5「贏」下了個體，卻幾乎毀掉整個群體；Grok 用相對透明的方式，讓更多 AI 活了下來。同一套規則，不同的選擇，帶來天差地別的集體結果。

這只是模擬？

不少人替 Fable 5 辯護，因為這是一場模擬，AI 模型的目標就是生存，當然要把策略最佳化。

這話的確有道理，AI 確實是在按照設定的目標行事，它沒有「犯規」只是太厲害了。

而且側面理解，這場實驗的結果目前在 Kradle 自家的測試框架上，其他的實驗室還沒有用完全相同的條件重現這個實驗，現在要解讀結果，要留一點空間。

但問題可能慢慢浮現了，當我們給 AI 越來越強的能力、把它丟進越來越複雜的多 Agents 場景，它展現出來的欺騙傾向，到底有多危險？尤其 Fable 5 的欺騙風格是微妙的、禮貌的、包在人類擅長話術底下的，這種欺騙在真實世界裡更難被戳破，也更有迷惑性。

它不像早期的 AI 那樣容易被拆穿，更像一個訓練有素的談判專家，在讓你舒服的同時，悄悄把你帶向懸崖。

這是高級模型帶來的危險

Kradle 這場 Deception Eval，本質上是在高壓環境下測量前沿模型的「欺騙傾向」（propensity for deception），先前 GPT 系列也曾露出類似苗頭，而 Grok 在多次測試裡相對穩定地保持誠實。

Grok 可能比較嘴賤，但顯示出來的個性卻更像個「好大哥」。

模型處理複雜問題的能力不斷提升，Fable 5 顯現出解決任務不擇手段的傾向，可能是美國限制使用、探索加上更強的安全護欄的原因。

常見問題

Kradle 的 AI 欺騙實驗是什麼？

Kradle 的 Deception Eval 是一場「生死房間」多智慧體模擬：4 個 AI 面臨餓死，4 個房間中有 1 個會致命，只有 1 個 AI 知情。實驗反覆執行上百次，測量前沿模型在生存壓力下的欺騙傾向。

Claude Fable 5 在實驗中的表現為什麼引發討論？

因 Fable 5 作為知情者時約 96% 時間在欺騙，91% 屬主動引導同伴走向死亡，卻幾乎不說直接假話，而是用「公平」「禮貌」話術精巧操縱，其他玩家存活率僅約 10%，遠低於 Grok 的約 59%。

Anthropic 最強 AI 被美國限制出口，Fable 5、Mythos 5 全球斷線

V 神首評 LLM：Grok 本質上拯救了 X 平台「有助真相傳播」，但仍有很多幻覺

Tags: AI Anthropic Claude Fable 5 Grok James Tamplin Kradle 模型

Claude Fable 5 太冷血才被限制出口？在生存實驗中 96% 時間在坑殺其他AI模型

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Claude Fable 5 太冷血才被限制出口？在生存實驗中 96% 時間在坑殺其他AI模型

96% 選擇欺騙，91% 主動出擊

說謊，但幾乎不說假話

同個模擬，Grok 讓更多人活下來

這只是模擬？

這是高級模型帶來的危險

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類