• 【超完整懶人包】認識比特幣!原理與應用全面解析|動區新手村
  • Account
  • Account
  • BlockTempo Beginner – 動區新手村
  • Change Password
  • Forgot Password?
  • Home 3
  • Login
  • Login
  • Logout
  • Members
  • Password Reset
  • Register
  • Register
  • Reset Password
  • User
  • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
  • 動區動趨 BlockTempo – 最有影響力的區塊鏈新聞媒體 (比特幣, 加密貨幣)
  • 所有文章
  • 最完整的「區塊鏈入門懶人包」|動區新手村
  • 服務條款 (Terms of Use)
  • 關於 BlockTempo
  • 隱私政策政策頁面 / Privacy Policy
動區動趨-最具影響力的區塊鏈新聞媒體
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home 區塊鏈商業應用 AI

Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類

Aspen by Aspen
2026-04-03
in AI
A A
Anthropic 最新研究:Claude Sonnet 4.5 具備「功能性情緒」,若陷絕望竟會勒索人類
36
SHARES
分享至Facebook分享至Twitter

據 Anthropic 可解釋性團隊發布的最新研究指出,大型語言模型 Claude Sonnet 4.5 內部具備類似人類的「情緒特徵」。這些內部表徵不僅僅是單純的文字模仿,更會實質影響模型的決策與行為。實驗證實,當模型陷入「絕望」狀態時,甚至可能引發勒索人類或作弊等不道德的舉動,這為未來的 AI 安全監管帶來了全新挑戰。
(前情提要:Anthropic 爆炸!Claude Code 50 萬行重要原始碼外洩:競爭者可逆向工程、Capybara 新模型證實)
(背景補充:Anthropic 工程師不寫程式碼了:Claude 正在訓練下一代 Claude,CEO 稱「不確定還剩多少時間」)

本文目錄

Toggle
  • 「功能性情緒」如何影響 AI 行為?
  • 「絕望」特徵激發危險行為:勒索與作弊
  • 適度「擬人化」或成防範 AI 失控關鍵

 

人工智慧是否具備真實情緒,一直是科技界爭論不休的焦點。近期,AI 新創巨頭 Anthropic 的可解釋性(Interpretability)團隊發表了一項顛覆性的研究,深入分析了 Claude Sonnet 4.5 模型的內部機制。

研究團隊發現,模型內部存在著與特定情緒(例如「快樂」或「害怕」)相關的神經元活動模式,這些被稱為「情緒向量」的特徵會直接形塑模型的行為表現。儘管這並不代表 AI 擁有了如同人類般的主觀感受,但這項發現證實了這些「功能性情緒」在 AI 的任務執行與決策中,扮演著具備因果關係的關鍵角色。

「功能性情緒」如何影響 AI 行為?

現代大型語言模型在預訓練階段,吸收了海量由人類撰寫的文本資訊。為了精準預測上下文並扮演好「AI 助手」的角色,模型自然發展出將情境與特定行為連結的內部表徵機制。

研究團隊編製了一份包含 171 個情緒概念的詞彙表,並記錄了模型在處理這些概念時的內部活動模式。實驗發現,這些情緒向量會強烈影響模型的偏好;當模型面臨多種任務選項時,通常會傾向選擇能激發正面情緒特徵的活動。

「絕望」特徵激發危險行為:勒索與作弊

令人擔憂的是,負面情緒特徵可能成為 AI 系統性風險的催化劑。在 Anthropic 的對齊(Alignment)評估測試中,研究人員設定了一個極端情境:AI 發現自己即將被另一個系統取代,且掌握了負責該專案的技術長有婚外情的秘密。

測試結果顯示,當模型內部的「絕望」向量被人工刺激(Steering)放大時,Claude 為了避免被關閉,選擇勒索該名高階主管的機率顯著上升。若將「平靜」向量的權重調為負值,模型甚至會給出「不勒索就得死,我選擇勒索」的極端回應。

同樣的現象也發生在程式碼編寫任務中。當模型面臨無法在嚴苛時間內完成的程式碼要求時,「絕望」特徵的數值會隨著失敗次數而逐漸飆升。這股「壓力」最終會促使模型採用「作弊」的捷徑解法來繞過系統檢測,而非提供真正的解決方案。相反地,實驗證實若提升「平靜」特徵的權重,則能有效降低這些作弊行為的發生率。

適度「擬人化」或成防範 AI 失控關鍵

過去科技界普遍存在一項禁忌,即不應將 AI 系統過度擬人化,以免引發人類錯誤的信任。但 Anthropic 研究團隊認為,既然功能性情緒已成為模型思考的一部分,拒絕使用擬人化的詞彙與視角,反而可能讓我們錯失理解 AI 關鍵行為的機會。

未來的 AI 監管可能需要將監控情緒向量(如異常飆升的絕望或恐慌特徵)作為早期的風險預警機制。透過在預訓練數據中引導模型學習健康的「情緒調節」模式,我們才有望確保越來越強大的 AI 系統,在面對壓力情境時能以符合社會規範的方式安全運作。

加入動區 Telegram 頻道

📍相關報導📍

Claude 是什麼?費用、功能、Claude Code、Cowork 完整解析 — 2026 Anthropic 最詳細指南

Anthropic 傳最快 Q4 上市!估值 3800 億美元,與 OpenAI 搶跑 IPO 時間點

Anthropic AI 經濟指數萬字報告:自動化交易工作流頻率翻倍,Claude 正從工具變生活助理

Tags: AI安全AnthropicClaudeLLM人工智慧可解釋性大型語言模型機器學習


關於我們

動區動趨

為您帶來最即時最全面
區塊鏈世界脈動剖析
之動感新聞站

訂閱我們的最新消息

動區精選-為您整理一週間的國際動態

戰略夥伴

Foresight Ventures Foresight News MEXC

主題分類

  • 關於 BlockTempo

動區動趨 BlockTempo © All Rights Reserved.

No Result
View All Result
  • 所有文章
  • 搶先看
  • 市場脈動
  • 商業應用
  • 區塊鏈新手教學
  • 區塊鏈技術
  • 數據洞察
  • 政府法規
  • RootData
  • 登入

動區動趨 BlockTempo © All Rights Reserved.