Anthropic 4 月 16 日發布 Claude Opus 4.7,主打 coding 大幅躍進(SWE-bench Pro 衝 64.3%,較前代 4.6 的 53.4% 提升 10.9 分)、視覺解析度加強三倍、1M context 維持標準價沒加 long-context premium。不過部分用戶還是反應不少痛點。
(前情提要:Claude Code 用起來變笨了?AMD AI 總監開砲:思考深度暴跌 67%、API 月費暴漲 144 倍)
(背景補充:大賣空麥可貝瑞放話:Anthropic 正在吃掉 Palantir)
Anthropic 在 4 月 16 日把 Claude Opus 4.7 正式推上 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四大雲平台,GitHub Copilot Pro+、Business、Enterprise 使用者也同步收到。
和 4.6 版本比,這次升級的方向明確,包括加強 coding 能力是絕對主線、視覺是第二優先、而 API 改動則是老使用者最有感也最有爭議的部分。
這篇文章我整理了新功能、我自己測下來的感覺,還有社群反應兩極的缺點。
Opus 4.7 定位:Mythos 以下最強模型
要搞懂 Opus 4.7,得先理解它在 Anthropic 模型階梯上的位置。Anthropic 內部還有一個能力上限更高的 Mythos(神話),因為大規模發現零日漏洞能力被判定為國家安全風險,目前不對外發布,只給聯邦機構與 Project Glasswing 合作名單內的關鍵基礎設施廠商用。
Opus 4.7 則是「公開能賣的最強」目前民用版本。
這是 Anthropic 的策略底層,執行長 Dario Amodei 在《金融時報》專訪裡估算,中國開源模型最快 6 個月、最慢 12 個月就會追上 Mythos 的能力,在那之前 Opus 4.7 是 Anthropic 能給市場的最強商用模型。
三大核心提升
新功能清單裡,最能打的是這三個升級點:
Coding 能力大幅躍進。
SWE-bench Pro(評估 AI 解真實 GitHub issue 的 benchmark)從 4.6 的 53.4% 直接跳到 64.3%,提升 10.9 分。這個成績在公開模型中排第一,超越 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。SWE-bench Verified 也從 80.8% 升到 87.6%。
專門衡量 Cursor IDE 自主 coding 表現的 CursorBench,從 58% 衝到 70%。Anthropic 自己的說法是「你之前需要密切監督才敢交出去的 coding 任務,現在可以比較放心交給 4.7」。
多步 agentic 工作流(multi-step agentic workflow,讓 Claude 一次完成包含多個工具呼叫的任務)用起來也很有感覺。
官方宣稱相較 4.6 有 14% 改進、用更少 tokens、而 tool 使用錯誤降到大約 1/3。這個數字跟我自己測下來的體感蠻吻合,下一節會講。
視覺能力三倍提升
Opus 4.7 是第一個支援高解析度影象的 Claude 模型,最大可以到 2576px / 3.75MP,等於 4.6 的三倍。
用起來是截圖可以直接丟,不用先 resize,PDF 圖表、IDE 截圖、設計稿等等,它能把更多細節記下來。
跑分的話,視覺相關 benchmark 有 13% 提升。
1M token context 沒漲價
context window 從 200K 擴到 1M 沒有漲價是大家很關注的一點,先前用戶很擔心漲價或是把上下文窗口縮回 200k,更關鍵的是 Anthropic 沒有收 long-context premium(長上下文溢價)。
以前 Claude 超過 200K tokens 的請求會加錢,4.7 直接全部按 $5 / $25 per million tokens 的標價走。搭配 128K max output tokens,長程式碼庫分析、長合約審閱、長 log 診斷之類的工作流,不用再切 chunk。
xhigh、adaptive thinking、sampling:API 改得最多的地方
新功能列表裡,這塊改最多,也引來很多爭議。
新增 xhigh(extra high)effort level
以前 Claude 的推理力道有 high 和 max 兩級,4.7 在中間插了一級 xhigh,給「問題強度很高但是不想要做max 那麼深的推理」的場景來用。
另外還新增一個 /ultrareview 指令,專門跑深度 code review session,比普通 review 花更多 tokens 換更完整的檢查。
Anthropic 也在測試一個叫「task budgets」的系統,讓開發者指定 Claude 在長任務中最多花多少時間思考,目前是 beta。
Extended Thinking 改叫 adaptive thinking
這是最多人反彈的一項。4.6 以前你可以在 API 設定 budget_tokens: 5000,Claude 保證思考 5000 tokens 再回答。
4.7 把這個設計拿掉,改成 adaptive mode,意思是模型自己判斷要不要思考、思考多久。如果你還照以前寫 budget_tokens,直接回 400 error。Thinking 內容預設也不會出現在 response body 裡,要明確 opt-in 才給你。Anthropic 的理由是內部評估中 adaptive 在多數任務上贏過固定 budget,而且 response latency 略有改善。
Sampling 控制從 API 消失
temperature、top_p、top_k 三個引數全部拿掉,這是被社群罵最兇的地方,做 structured output(結構化輸出)、確定性測試、生成固定格式資料的開發者全都被搞了。
所以你會看到開發者一直罵「用 adaptive mode 換掉對輸出的控制,這不是升級是降級。」
內建 cyber safeguards
4.7 會自動偵測並封鎖被標為「禁止」或「高風險網安用途」的請求,這跟 Anthropic 對 Mythos 的封存原因一樣。
怎麼說呢?畢竟不是完全解禁的開源模型,安全機制也直接蓋在模型裡,一般正常用途不太會踩到,但如果你是資安研究者要測漏洞利用的話,4.7 會比 4.6 更挑剔,你要極度詳細說明你在做正常合法的用途。
用起來的感想
我用 4.7 的 Claude Code 和 API 各跑了兩天,這邊寫一些實體感受。注意,我的樣本很小、不是科學方法實測,只是使用者視角的感受。
大型專案重構最有感覺
我丟一個橫跨 8 個檔案的 refactor 任務,4.6 會漏掉 2-3 個 cross-file reference(跨檔案引用),要我指出來才補。
4.7 一次掃完,順便把相關測試改了,跑 pytest 直接過。
一次交付成功的比例我自己估從 60% 左右跳到 75-85% 左右。開 auto 終於能比較放心了。
多輪 agentic 工作,tool 錯誤變少
以前 10 次 tool call(工具呼叫,例如 read_file、bash、web_search)可能會有 1-2 次 JSON 格式錯或引數錯要重來,
4.7 我測下來大概掉到 3-4 次中 1 次,跟官方宣稱「tool errors 降到 1/3」大致符合。然後 agent 跑完一個長任務不卡在中途的體感進步明顯,可以比較安心長巡弋模式去睡覺。
視覺任務上截圖 debug 了
我習慣把 IDE 截圖貼進對話問問題,4.6 偶爾會看錯縮排或括號配對,尤其深色主題的 terminal 截圖。
4.7 直接讀出正確縮排、括號配對、甚至語法 highlight 的顏色意義都能對上,PDF 讀表格數字也準很多,大概是 75% 升到 90% 左右吧。
三個地方我這邊測下來沒變強:
- 文字創作:寫文章、詩、行銷文案,4.7 跟 4.6 感覺上差不多,沒有明顯強化
- 複雜數學推理:競賽級題目 4.7 跑答案結果好像差不多,但我其實看不懂那麼深的數學題,因為都是複製網路上的題目來問它。回貼最後產出的答案他會承認自己算錯了,或是中間過程跑錯了。
- 對話的語氣:4.7 更嚴格按照你明講的內容做,以前比較會「腦補」把它猜測的隱含需求一起處理的那種體貼減少了。這可能是為了省推理的算力,如果要它做什麼就在 Plan 裡或提示詞寫清楚。這點在 Anthropic 官方 migration guide 有明講,算是一種設計取向,不是 bug
你可以參考的社群反應
先講社群罵聲很集中的三個改變
爭議一:tokenizer 改了,帳單貴了 35%
4.7 換了新 tokenizer,同一段文字可能多吃 1x-1.35x tokens。
價格表寫 $5 / $25 per million tokens 跟 4.6 一樣,但實際帳單可能高出三成。
r/ClaudeAI 有人總結:「感覺是 pre-nerf 版本 4.6 回來了,但 token 吃更多。」如果你是商業開發要上 production 的話,拿你現有 prompt 跑一輪新舊 tokenizer 比對來重新算成本會比較好。
爭議二:Sampling 控制消失
temperature、top_p、top_k 拿掉這件事,幾乎是最多人不爽的地方。
因為做 evals、做 deterministic pipeline、做 structured output validation 的人最受影響。
有一位開發者在 HN 回覆裡說,他團隊的 regression test 全部依賴 temperature=0,這個 API 一改,整個測試套件要重寫,希望你不要碰到欲哭無淚。
爭議三:Extended Thinking 變黑箱
adaptive thinking 模式下你不知道 Claude 什麼時候想、想多久、想了什麼,現在 Thinking block 預設不回傳,要 opt-in。要 debug 為什麼某個回答不對時,少了思考鏈可讀,難度上升。
Anthropic 的內部資料顯示 adaptive 平均贏過 fixed budget,但高階使用者要的是可預測性,不是平均勝率。這大概是高階一點的開發者的抱怨。
正面評價
Opus 4.7 在 coding 與 code review 上值得升級。1M context 不加價這條幾乎沒人嫌,視覺升級對做 PDF 解析、圖表理解、設計稿處理的工作流都是純加分。
如果你只記得一件事:
- 主力跑 coding、agentic、視覺 → 4.7 值得升
- 需要 deterministic output、structured output、自控 thinking budget → 先留在 4.6 觀望,等 Anthropic 回應 HN 上的 sampling 抱怨
- 做 長檔案分析(合約、報告、程式碼庫) → 4.7 的 1M context 標準價是真的甜,一定要換
Anthropic 這次的升級節奏很像它處理 Mythos 的邏輯,給市場一個夠強(也穩定)的版本,對多數人是升級,對把 API 摸得很熟的老人,是有重寫部分自動化指令碼的代價。
最後一點,我自己覺得 4.7 升上去之後,速度有回到 4.6 剛釋出的回應速度的 2/3 的感覺。至少比起之前卡到瘋掉、瘋狂偷懶的期間感受好多了,不知道有沒有人也這樣覺得?

📍相關報導📍
Claude Code 用起來變笨了?AMD AI 總監開砲:思考深度暴跌 67%、API 月費暴漲 144 倍
