最近社群持續反映 Claude 表現退步,Anthropic 於 23 日公開事後報告,表示根源不在模型本身,而是三個產品層的工程失誤,三者疊加讓全球使用者感受到明顯的品質下滑。
(前情提要:Anthropic 最新估值衝上「8000 億美元」兩個月翻倍,最快 10 月 IPO)
(背景補充:鞭打 Claude code 加速的 badclaude 開源專案,被 Anthropic 寄侵權通知信了)
你是否也有感覺,最近 Claude 真的「變笨了?」。有人說它推理變淺、有人說它開始出現幻覺、有人說它耗用 token 的速度變快但品質下滑,甚至出現了一個新詞 AI shrinkflation(AI 縮水)。借用消費品「份量變少但價格不變」的概念,描述模型在同等成本下輸出品質悄悄縮水的現象。
BridgeMind 的測試數字更直白:Claude Opus 4.6 的準確率從 83.3% 跌至 68.3%,排名從第 2 位滑落至第 10 位。AMD AI 部門資深總監 Stella Laurenzo 在 GitHub 上分析了 6,852 份 Claude Code 工作階段紀錄與逾 23 萬次工具呼叫,也發現模型推理深度明顯下滑,傾向選擇「最簡單的修法」而非「正確的解法」。
對此,Anthropic 4 月 23 日正式公開事後報告,承認問題確實存在,但表示根源不在模型訓練,而在三個產品層的工程配置。
三個具體失誤:系統層的蝴蝶效應
Anthropic 確認了三個獨立的產品層變更,疊加造成這波品質衰退:
第一,推理力道(reasoning effort)降級(3 月 4 日)。Anthropic 將 Claude Code 的預設推理力道從「高」調降為「中」。
所謂推理力道,是模型每次回答前「想多深」的配置,設定愈高,模型花在內部推導的時間愈長,但介面看起來也更像「卡住了」。為瞭解決 UI 延遲的觀感問題,Anthropic 選擇降低預設值,卻沒有充分評估對複雜任務的衝擊。
第二,快取邏輯漏洞(caching bug)(3 月 26 日)。工程師設計了一套最佳化邏輯,讓模型在閒置超過一小時後清除舊的思考歷程,以節省快取空間。
但實作上有一個關鍵錯誤:清除動作不是在閒置後執行一次,而是在每一輪後續對話中持續觸發。結果是模型不斷喪失「短期記憶」,在長對話中反覆出現遺忘與重複的狀況。
第三,系統提示冗餘限制(3 月 16 日)。Anthropic 在後臺系統提示中加入指令,要求模型將工具呼叫之間的文字壓縮在 25 字以內、最終回覆壓縮在 100 字以內。這個原本用於減少 Opus 4.7 冗餘輸出的措施,卻誤觸到 Opus 4.6,導致程式碼品質評估下滑 3%。
這三個變更的共同點是:它們都發生在 Harness(模型執行環境,包裹模型的一層工程外殼,決定 system prompt、快取邏輯等)層,而非模型訓練本身,卻足以讓全球使用者感受到明顯的落差。
修復措施與未來防護
Anthropic 已在 v2.1.116 版本中修復快取漏洞,並還原推理力道與冗餘限制設定。
為防止類似事件重演,Anthropic 宣布四項措施:
一,更多內部員工將使用與公開版完全一致的 Claude Code
二,每次系統提示變更都將執行消融測試(ablation,逐一關閉某個變數、測試其對結果的獨立影響)
三,新增審計工具讓 prompt 變更更易追蹤
四,重置所有訂閱使用者的使用限額,作為補償。
「AI 縮水」揭示一個更深的信任問題
使用者之所以將這波衰退命名為「AI shrinkflation」,背後有一個結構性困境:模型是黑盒,普通使用者,甚至專業開發者都無法區分「模型本身退化」與「工程配置失誤」,兩者對體驗的影響完全相同,卻有著截然不同的成因與修復路徑。
Anthropic 起初否認「刻意削弱」模型的說法,表示 API 與推理層均未受影響。但使用者的不滿持續累積,高知名度使用者的公開審計資料讓這場爭議愈難迴避。
這種「官方說沒問題、資料說有問題」的落差,是這次事件真正傷害信任的地方,而不只是模型效能本身。事實與感知之間的鴻溝,未來需要更多透明度來填補。
📍相關報導📍
Anthropic 最新估值衝上「8000 億美元」兩個月翻倍,最快 10 月 IPO
鞭打 Claude code 加速的 badclaude 開源專案,被 Anthropic 寄侵權通知信了
美國安局偷用 Anthropic Mythos:五角大廈一手封殺、一手放行的兩面手法

