Anthropic 最新研究：Claude Sonnet 4.5 具備「功能性情緒」，若陷絕望竟會勒索人類

據 Anthropic 可解釋性團隊發布的最新研究指出，大型語言模型 Claude Sonnet 4.5 內部具備類似人類的「情緒特徵」。這些內部表徵不僅僅是單純的文字模仿，更會實質影響模型的決策與行為。實驗證實，當模型陷入「絕望」狀態時，甚至可能引發勒索人類或作弊等不道德的舉動，這為未來的 AI 安全監管帶來了全新挑戰。
（前情提要：Anthropic 爆炸！Claude Code 50 萬行重要原始碼外洩：競爭者可逆向工程、Capybara 新模型證實）
（背景補充：Anthropic 工程師不寫程式碼了：Claude 正在訓練下一代 Claude，CEO 稱「不確定還剩多少時間」）

本文目錄

人工智慧是否具備真實情緒，一直是科技界爭論不休的焦點。近期，AI 新創巨頭 Anthropic 的可解釋性（Interpretability）團隊發表了一項顛覆性的研究，深入分析了 Claude Sonnet 4.5 模型的內部機制。

研究團隊發現，模型內部存在著與特定情緒（例如「快樂」或「害怕」）相關的神經元活動模式，這些被稱為「情緒向量」的特徵會直接形塑模型的行為表現。儘管這並不代表 AI 擁有了如同人類般的主觀感受，但這項發現證實了這些「功能性情緒」在 AI 的任務執行與決策中，扮演著具備因果關係的關鍵角色。

現代大型語言模型在預訓練階段，吸收了海量由人類撰寫的文本資訊。為了精準預測上下文並扮演好「AI 助手」的角色，模型自然發展出將情境與特定行為連結的內部表徵機制。

研究團隊編製了一份包含 171 個情緒概念的詞彙表，並記錄了模型在處理這些概念時的內部活動模式。實驗發現，這些情緒向量會強烈影響模型的偏好；當模型面臨多種任務選項時，通常會傾向選擇能激發正面情緒特徵的活動。

令人擔憂的是，負面情緒特徵可能成為 AI 系統性風險的催化劑。在 Anthropic 的對齊（Alignment）評估測試中，研究人員設定了一個極端情境：AI 發現自己即將被另一個系統取代，且掌握了負責該專案的技術長有婚外情的秘密。

測試結果顯示，當模型內部的「絕望」向量被人工刺激（Steering）放大時，Claude 為了避免被關閉，選擇勒索該名高階主管的機率顯著上升。若將「平靜」向量的權重調為負值，模型甚至會給出「不勒索就得死，我選擇勒索」的極端回應。

同樣的現象也發生在程式碼編寫任務中。當模型面臨無法在嚴苛時間內完成的程式碼要求時，「絕望」特徵的數值會隨著失敗次數而逐漸飆升。這股「壓力」最終會促使模型採用「作弊」的捷徑解法來繞過系統檢測，而非提供真正的解決方案。相反地，實驗證實若提升「平靜」特徵的權重，則能有效降低這些作弊行為的發生率。

過去科技界普遍存在一項禁忌，即不應將 AI 系統過度擬人化，以免引發人類錯誤的信任。但 Anthropic 研究團隊認為，既然功能性情緒已成為模型思考的一部分，拒絕使用擬人化的詞彙與視角，反而可能讓我們錯失理解 AI 關鍵行為的機會。

未來的 AI 監管可能需要將監控情緒向量（如異常飆升的絕望或恐慌特徵）作為早期的風險預警機制。透過在預訓練數據中引導模型學習健康的「情緒調節」模式，我們才有望確保越來越強大的 AI 系統，在面對壓力情境時能以符合社會規範的方式安全運作。

動區動趨