Claude Opus 4.7 深度介紹》coding 能力升級、1M 不加價，實測缺點在哪？

Anthropic 4 月 16 日發布 Claude Opus 4.7，主打 coding 大幅躍進（SWE-bench Pro 衝 64.3%，較前代 4.6 的 53.4% 提升 10.9 分）、視覺解析度加強三倍、1M context 維持標準價沒加 long-context premium。不過部分用戶還是反應不少痛點。
（前情提要：Claude Code 用起來變笨了？AMD AI 總監開砲：思考深度暴跌 67%、API 月費暴漲 144 倍）
（背景補充：大賣空麥可貝瑞放話：Anthropic 正在吃掉 Palantir）

本文目錄

Anthropic 在 4 月 16 日把 Claude Opus 4.7 正式推上 API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四大雲平台，GitHub Copilot Pro+、Business、Enterprise 使用者也同步收到。

和 4.6 版本比，這次升級的方向明確，包括加強 coding 能力是絕對主線、視覺是第二優先、而 API 改動則是老使用者最有感也最有爭議的部分。

這篇文章我整理了新功能、我自己測下來的感覺，還有社群反應兩極的缺點。

Opus 4.7 定位：Mythos 以下最強模型

要搞懂 Opus 4.7，得先理解它在 Anthropic 模型階梯上的位置。Anthropic 內部還有一個能力上限更高的 Mythos（神話），因為大規模發現零日漏洞能力被判定為國家安全風險，目前不對外發布，只給聯邦機構與 Project Glasswing 合作名單內的關鍵基礎設施廠商用。

Opus 4.7 則是「公開能賣的最強」目前民用版本。

這是 Anthropic 的策略底層，執行長 Dario Amodei 在《金融時報》專訪裡估算，中國開源模型最快 6 個月、最慢 12 個月就會追上 Mythos 的能力，在那之前 Opus 4.7 是 Anthropic 能給市場的最強商用模型。

三大核心提升

新功能清單裡，最能打的是這三個升級點：

Coding 能力大幅躍進。

SWE-bench Pro（評估 AI 解真實 GitHub issue 的 benchmark）從 4.6 的 53.4% 直接跳到 64.3%，提升 10.9 分。這個成績在公開模型中排第一，超越 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2%。SWE-bench Verified 也從 80.8% 升到 87.6%。

專門衡量 Cursor IDE 自主 coding 表現的 CursorBench，從 58% 衝到 70%。Anthropic 自己的說法是「你之前需要密切監督才敢交出去的 coding 任務，現在可以比較放心交給 4.7」。

多步 agentic 工作流（multi-step agentic workflow，讓 Claude 一次完成包含多個工具呼叫的任務）用起來也很有感覺。

官方宣稱相較 4.6 有 14% 改進、用更少 tokens、而 tool 使用錯誤降到大約 1/3。這個數字跟我自己測下來的體感蠻吻合，下一節會講。

視覺能力三倍提升

Opus 4.7 是第一個支援高解析度影象的 Claude 模型，最大可以到 2576px / 3.75MP，等於 4.6 的三倍。

用起來是截圖可以直接丟，不用先 resize，PDF 圖表、IDE 截圖、設計稿等等，它能把更多細節記下來。

跑分的話，視覺相關 benchmark 有 13% 提升。

1M token context 沒漲價

context window 從 200K 擴到 1M 沒有漲價是大家很關注的一點，先前用戶很擔心漲價或是把上下文窗口縮回 200k，更關鍵的是 Anthropic 沒有收 long-context premium（長上下文溢價）。

以前 Claude 超過 200K tokens 的請求會加錢，4.7 直接全部按 $5 / $25 per million tokens 的標價走。搭配 128K max output tokens，長程式碼庫分析、長合約審閱、長 log 診斷之類的工作流，不用再切 chunk。

xhigh、adaptive thinking、sampling：API 改得最多的地方

新功能列表裡，這塊改最多，也引來很多爭議。

新增 `xhigh`（extra high）effort level

以前 Claude 的推理力道有 high 和 max 兩級，4.7 在中間插了一級 xhigh，給「問題強度很高但是不想要做max 那麼深的推理」的場景來用。

另外還新增一個 /ultrareview 指令，專門跑深度 code review session，比普通 review 花更多 tokens 換更完整的檢查。

Anthropic 也在測試一個叫「task budgets」的系統，讓開發者指定 Claude 在長任務中最多花多少時間思考，目前是 beta。

Extended Thinking 改叫 adaptive thinking

這是最多人反彈的一項。4.6 以前你可以在 API 設定 budget_tokens: 5000，Claude 保證思考 5000 tokens 再回答。

4.7 把這個設計拿掉，改成 adaptive mode，意思是模型自己判斷要不要思考、思考多久。如果你還照以前寫 budget_tokens，直接回 400 error。Thinking 內容預設也不會出現在 response body 裡，要明確 opt-in 才給你。Anthropic 的理由是內部評估中 adaptive 在多數任務上贏過固定 budget，而且 response latency 略有改善。

Sampling 控制從 API 消失

temperature、top_p、top_k 三個引數全部拿掉，這是被社群罵最兇的地方，做 structured output（結構化輸出）、確定性測試、生成固定格式資料的開發者全都被搞了。

所以你會看到開發者一直罵「用 adaptive mode 換掉對輸出的控制，這不是升級是降級。」

內建 cyber safeguards

4.7 會自動偵測並封鎖被標為「禁止」或「高風險網安用途」的請求，這跟 Anthropic 對 Mythos 的封存原因一樣。

怎麼說呢？畢竟不是完全解禁的開源模型，安全機制也直接蓋在模型裡，一般正常用途不太會踩到，但如果你是資安研究者要測漏洞利用的話，4.7 會比 4.6 更挑剔，你要極度詳細說明你在做正常合法的用途。

用起來的感想

我用 4.7 的 Claude Code 和 API 各跑了兩天，這邊寫一些實體感受。注意，我的樣本很小、不是科學方法實測，只是使用者視角的感受。

大型專案重構最有感覺

我丟一個橫跨 8 個檔案的 refactor 任務，4.6 會漏掉 2-3 個 cross-file reference（跨檔案引用），要我指出來才補。

4.7 一次掃完，順便把相關測試改了，跑 pytest 直接過。

一次交付成功的比例我自己估從 60% 左右跳到 75-85% 左右。開 auto 終於能比較放心了。

多輪 agentic 工作，tool 錯誤變少

以前 10 次 tool call（工具呼叫，例如 read_file、bash、web_search）可能會有 1-2 次 JSON 格式錯或引數錯要重來，

4.7 我測下來大概掉到 3-4 次中 1 次，跟官方宣稱「tool errors 降到 1/3」大致符合。然後 agent 跑完一個長任務不卡在中途的體感進步明顯，可以比較安心長巡弋模式去睡覺。

視覺任務上截圖 debug 了

我習慣把 IDE 截圖貼進對話問問題，4.6 偶爾會看錯縮排或括號配對，尤其深色主題的 terminal 截圖。

4.7 直接讀出正確縮排、括號配對、甚至語法 highlight 的顏色意義都能對上，PDF 讀表格數字也準很多，大概是 75% 升到 90% 左右吧。

三個地方我這邊測下來沒變強：

文字創作：寫文章、詩、行銷文案，4.7 跟 4.6 感覺上差不多，沒有明顯強化
複雜數學推理：競賽級題目 4.7 跑答案結果好像差不多，但我其實看不懂那麼深的數學題，因為都是複製網路上的題目來問它。回貼最後產出的答案他會承認自己算錯了，或是中間過程跑錯了。
對話的語氣：4.7 更嚴格按照你明講的內容做，以前比較會「腦補」把它猜測的隱含需求一起處理的那種體貼減少了。這可能是為了省推理的算力，如果要它做什麼就在 Plan 裡或提示詞寫清楚。這點在 Anthropic 官方 migration guide 有明講，算是一種設計取向，不是 bug

你可以參考的社群反應

先講社群罵聲很集中的三個改變

爭議一：tokenizer 改了，帳單貴了 35%

4.7 換了新 tokenizer，同一段文字可能多吃 1x-1.35x tokens。

價格表寫 $5 / $25 per million tokens 跟 4.6 一樣，但實際帳單可能高出三成。

r/ClaudeAI 有人總結：「感覺是 pre-nerf 版本 4.6 回來了，但 token 吃更多。」如果你是商業開發要上 production 的話，拿你現有 prompt 跑一輪新舊 tokenizer 比對來重新算成本會比較好。

爭議二：Sampling 控制消失

temperature、top_p、top_k 拿掉這件事，幾乎是最多人不爽的地方。

因為做 evals、做 deterministic pipeline、做 structured output validation 的人最受影響。

有一位開發者在 HN 回覆裡說，他團隊的 regression test 全部依賴 temperature=0，這個 API 一改，整個測試套件要重寫，希望你不要碰到欲哭無淚。

爭議三：Extended Thinking 變黑箱

adaptive thinking 模式下你不知道 Claude 什麼時候想、想多久、想了什麼，現在 Thinking block 預設不回傳，要 opt-in。要 debug 為什麼某個回答不對時，少了思考鏈可讀，難度上升。

Anthropic 的內部資料顯示 adaptive 平均贏過 fixed budget，但高階使用者要的是可預測性，不是平均勝率。這大概是高階一點的開發者的抱怨。

正面評價

Opus 4.7 在 coding 與 code review 上值得升級。1M context 不加價這條幾乎沒人嫌，視覺升級對做 PDF 解析、圖表理解、設計稿處理的工作流都是純加分。

如果你只記得一件事：

主力跑 coding、agentic、視覺 → 4.7 值得升
需要 deterministic output、structured output、自控 thinking budget → 先留在 4.6 觀望，等 Anthropic 回應 HN 上的 sampling 抱怨
做 長檔案分析（合約、報告、程式碼庫） → 4.7 的 1M context 標準價是真的甜，一定要換

Anthropic 這次的升級節奏很像它處理 Mythos 的邏輯，給市場一個夠強（也穩定）的版本，對多數人是升級，對把 API 摸得很熟的老人，是有重寫部分自動化指令碼的代價。

最後一點，我自己覺得 4.7 升上去之後，速度有回到 4.6 剛釋出的回應速度的 2/3 的感覺。至少比起之前卡到瘋掉、瘋狂偷懶的期間感受好多了，不知道有沒有人也這樣覺得？

大賣空麥可貝瑞放話：Palantir 只是低毛利 SaaS 外包公司！Anthropic 正在吃掉它

Cursor 3.1 推出 Canvas 功能：Agent 直接生成可互動 React 介面、圖表、Diff、自訂邏輯

Claude Opus 4.7 深度介紹》coding 能力升級、1M 不加價，實測缺點在哪？

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Claude Opus 4.7 深度介紹》coding 能力升級、1M 不加價，實測缺點在哪？

Opus 4.7 定位：Mythos 以下最強模型

三大核心提升

Coding 能力大幅躍進。

視覺能力三倍提升

1M token context 沒漲價

xhigh、adaptive thinking、sampling：API 改得最多的地方

新增 xhigh（extra high）effort level

Extended Thinking 改叫 adaptive thinking

Sampling 控制從 API 消失

內建 cyber safeguards

用起來的感想

你可以參考的社群反應

爭議一：tokenizer 改了，帳單貴了 35%

爭議二：Sampling 控制消失

爭議三：Extended Thinking 變黑箱

正面評價

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

新增 `xhigh`（extra high）effort level