Claude Fable 自我改進系統實戰：迴圈、動態工作流與 Routines 完整指南

本文用 14 步、3 層架構，拆解 Anthropic 工程師如何以迴圈、動態工作流、Routines 與記憶，打造一個會逐次複利、越跑越聰明的自我改進代理系統。原文作者：@0xCodez
（前情提要：高盛、大摩搶奪 OpenAI 和 Anthropic IPO 的主承銷商！隱性回報高達70億鎂）
（背景補充：Anthropic 在 Claude Fable 5 加入蒸餾偵測功能，能擋住中國開源模型？）

本文目錄

多數人使用 Claude Fable 5 的方式，就像在用一個 context window 更大的 Sonnet 4.6。他們丟一個提示，它跑了五分鐘，然後就把分頁關掉。

十個使用者裡有九個，從來沒跑過一個「會複利」的代理系統——每一次執行都讓下一次更聰明、每一份狀態檔都在累積、每一個 Skill 都更鋒利。

Fable 5 是為了「連續跑好幾天」而打造的，你卻只用它跑幾分鐘。這就是那份 14 步路線圖，教你蓋出 Fable 5 真正被設計來運行的那種自我改進系統。

Claude Fable 5 於 2026 年 6 月 9 日上線——它是第一個公開可用的 Mythos 等級模型，Anthropic 把這個等級放在 Opus 之上一階。

這份 14 步路線圖，教你蓋出 Fable 5 被設計來運行的那種自我改進系統——內容取材自 Anthropic 的工程文章、團隊公開的實驗，並對照截至 2026 年 6 月的上線文件進行查核。

三個層級：Fable 5 究竟解鎖了什麼、讓它得以複利的三個原語(迴圈、動態工作流、Routines)，以及把它變成一個「系統」的自我改進層。

14 步驟。3 層級。別再下提示。開始打造一個會複利的系統。

PART 1 · Fable 5 究竟解鎖了什麼

01. Fable 5 是 Mythos 等級模型，「連跑數日的自主能力」才是重點

Claude Fable 5 於 2026 年 6 月 9 日上線，是第一個公開可用的 Mythos 等級模型——Anthropic 在 Opus 之上新增的那一階。

Mythos Preview 在 4 月透過 Project Glasswing 出貨給少數關鍵基礎設施夥伴;Fable 5 則是 Anthropic 認為可安全公開發行的版本，內建安全分類器，會在高風險領域拒絕回應。

Mythos 5(沒有那些分類器的版本)仍僅限 Glasswing。

Fable 5 真正能做到、而先前 Claude 模型無法持續維持的事，取自 Anthropic 的上線文件：

連跑數日的自主工作階段。 在 Claude Code 或 Claude Managed Agents(CMA)這類代理 harness 中運行，Fable 5 能工作好幾天——跨階段規劃、委派給子代理，並檢查自己的成果。
內建自我驗證。 自己寫測試來檢查自己的工作。用視覺把輸出對照目標檢查。把教訓蒸餾成通則。測試自己的假設。
最具野心的程式工作。 大型遷移、複雜實作、跨多日的自主編碼。Anthropic 主打的旗艦用例是「把大型專案交辦出去，然後審查完成的交付物」。
多階段的知識工作。 從深度研究與分析，到可供審查的交付物——只需最少的監督。

定價也對應這個等級：每百萬 input token 收 10 美元、每百萬 output token 收 50 美元，並保留既有的 prompt caching 90% input token 折扣。

可在 Claude API、AWS、Amazon Bedrock、Vertex AI、Microsoft Foundry，以及採用量計費的 Enterprise 方案上使用。這不是訂閱制模型。用得兇，帳單就自己長出來。

02. 自我改進不等於自我學習

「自我改進代理系統」這個詞被隨便亂用。真實的版本和炒作的版本是兩回事，在你動手蓋任何東西之前，值得先搞清楚這個落差。

自我學習(Self-learning) ——代理根據所學更新自己的權重。Fable 5 不做這件事。沒有任何公開可用的模型在生產環境做這件事。遞迴自我改進(RSI)是 Anthropic 自己在 2026 年 5 月示警的長期方向，而不是今天出貨的能力。
自我改進(Self-improving) ——代理周圍的系統在複利。每一次工作階段都把教訓寫進記憶。Skills 隨著邊角案例被加入而更鋒利。狀態檔累積已驗證的事實。Eval 迴圈精修提示與評分標準。模型本身不變，它運行所在的環境變得更銳利。

從這個意義上說，自我改進是「你所打造的系統」的一種屬性。Fable 5 具備那種原始能力——長 context、子代理委派、視覺自我檢查、連跑數日的續航力——能把「環境回饋迴圈」變成真正會一輪一輪複利的東西。

Anthropic 的工程團隊講得很直接：

「與其直接提示並引導 Fable 5，通常更好的做法是設計迴圈，讓模型針對環境回饋自我修正(例如 /goal 或 Outcomes)，並自己管理自己的 context(例如透過記憶)。」

03. 複利堆疊：四層架構，一個回饋迴圈

本文最上方的 Figure 1 用一張圖展示了整個架構。由下往上讀——那是系統被建構的順序，也是槓桿複利的順序。

Layer 1 · 原語(Primitives)。 Fable 5 本身、子代理、worktrees，以及代理會動用的工具。純粹的原始能力，周圍還沒有任何系統。這是多數人今天在用的層級。
Layer 2 · 編排(Orchestration)。 用 /goal 與 Outcomes 做自我修正迴圈。用動態工作流做複雜的多步驟編排。用 Routines 做「闔上筆電」的雲端執行。這一層把原語變成工作流。
Layer 3 · 記憶(Memory)。 狀態檔、Skills、Knowledge Bases、寫下來的教訓。記憶讓明天的工作階段是「續跑」而不是「重啟」。
Layer 4 · 自我改進(Self-improvement)。 視覺自我檢查、eval 迴圈、規則蒸餾。代理替自己的輸出評分、精修產出它的那個 Skill、把教訓寫回記憶。迴圈閉合。

這個架構之所以複利：Layer 1 的每個輸出都向上流經 Layer 4，在那裡被評分、蒸餾，再寫回 Layer 3。明天在 Layer 1 的執行，會繼承昨天被磨利的記憶與精修過的 Skills。模型是無狀態的，它周圍的系統不是。

04. 何時用 Fable 5 vs Opus 4.8 vs Sonnet 4.6：成本—能力矩陣

Fable 5 每 token 的成本約是 Opus 4.8 的 5 倍。自我改進系統裡並非每一步都需要最頂級的等級。在生產環境跑這套的團隊，是按任務複雜度路由，而不是預設全用最強的：

Fable 5 擔任重量級編排者角色： 跨日規劃、委派給子代理、用視覺檢查成果、從累積證據中蒸餾規則。在「一次跑好幾天」這種能力配得上它定價的地方用 Fable 5。
Opus 4.8 處理困難但有界的子任務，由編排者委派： 架構決策、複雜除錯、深度程式碼審查。也是 Fable 5 分類器擋下任何請求時(資安、生物、化學、蒸餾)明確的後備方案。
Sonnet 4.6 處理高量的工人任務： lint、簡單重構、測試骨架、文件更新。大量的扇出工作都跑在這裡。
Haiku 4.5 擔任評分者子代理與廉價分類器。 獨立的 context window、低成本——正適合 Anthropic 明確推薦的驗證者角色。

讓自我改進系統符合經濟效益的成本模式，正是生產環境團隊在用的：編排者用 Fable 5、工人用 Sonnet 4.6、評分者用 Haiku 4.5、遇到分類器封鎖時後備到 Opus 4.8。和 Anthropic 工程師內部使用的模式相同。

PART 2 · 三個原語

05. /goal vs Outcomes：同一個概念的兩種實作

Anthropic 的 Claude Code 團隊發佈了兩個幾乎一模一樣的「目標驅動迴圈」原語，兩個 harness 各一個。

它們共用相同的形狀：一個獨立評分者檢查工作，「未達標」的判定就啟動下一輪迭代，評分者通過時迴圈退出。

兩者的實作差異在表面細節，但這些細節會影響你該用哪一個。

兩者之間的選擇規則很短：

在 Claude Code 用 /goal ——當工作在你自己的機器上發生，而你想要一個快速、在工作階段內、有可衡量終態的迴圈。最適合動手寫程式、除錯不穩定的測試、精修單一檔案。純文字目標、模型評分者、終端機內回饋。
在 CMA 用 Outcomes ——當工作需要在 Anthropic 託管的基礎設施上，搭配沙箱、GPU 或受控環境跑上數小時或數天。最適合 ML 訓練、長時間遷移、跨多日的研究。基於檔案、含可評分準則的評分標準、子代理評分者、硬性的 max_iterations 上限。

兩者都共用那個讓它們真正有效的結構性動作：寫程式的代理，不是評分的代理。我們在第 6 步會更深入解釋這為何重要。

06. 驗證者子代理勝過自我批評

Anthropic 工程師 Prithvi Rajasekaran 在工程部落格寫了一篇文章，指出模型很難對自己的輸出做自我批評。Claude Code 團隊用 Fable 5 在實證上確認了這點：

「我們發現，用 Fable 5 時，一個驗證者子代理往往勝過自我批評。」

這個機制是結構性的，無關「更努力嘗試」。一個評估自己輸出的模型，會看到自己的推理軌跡，並偏好與它先前所寫一致的結論。

另一個評估同一份輸出的模型，只看得到產出物與評分標準。驗證者在製作者的賽局裡沒有任何利害關係。

那張圖在頭條數字之外，實際呈現的是：

Fable 5 做出更大的結構性變更 ——TRAIN_SEQ_LEN=2048 的 train+eval(−0.0179)、重疊的滑動視窗 eval(−0.0207)、int6 QAT + int6 expo(−0.0163)。每一個都是架構層級的動作，而非常數微調。
Fable 5 硬是穿過一次量化退步，抵達它最大的勝利 ——它沒有在一次失敗實驗後回退，而是繼續調查下去。
Opus 4.7 的第一個實驗(QK_GAIN_INIT=5.0)產生小勝。 之後幾乎所有動作都套用同一個模板：調一個純量、量測、若為正就保留。這個形狀比較安全，但不是比較好。

對系統設計的啟示：Fable 5 搭配一個獨立驗證者，會探索更大的假設空間，並從負向的中間結果中恢復。沒有驗證者，同一個模型就沒有東西逼它越過第一個「夠好了」。

07. 動態工作流組合出自我修正模式

動態工作流於 2026 年 5 月 28 日在 Claude Code 上線。

概念是：Claude 即時寫出自己的 JavaScript harness——一個含 agent()、parallel()、pipeline() 原語的檔案，再加上標準 JS 來處理它們之間流動的資料。這個 harness 是為任務量身打造的，不是通用的。

📎 內嵌貼文：https：//twitter.com/i/web/status/2060054180379689074

對於用 Fable 5 的自我改進系統，六個已記載的動態工作流模式中，有三個值回票價：

扇出並彙整(Fan-out-and-synthesize)。 把工作拆成 N 個獨立片段，各自平行跑一個代理，再彙整結果。最適合每一步都需要自己乾淨 context window 的情況——例如拿 Skill 裡的每條規則去對照歷史範例做評估。
對抗式驗證(Adversarial verification)。 為每個製作者代理，生成一個未接觸製作者推理的獨立驗證者。這是第 6 步「自我偏好偏誤」的結構性修正，逐任務套用。
跑到完成為止(Loop until done)。 持續生成代理，直到滿足停止條件——沒有新發現、日誌裡沒有更多錯誤、理論已驗證。搭配 /goal 設定硬性完成要求。

兩個通常不出現在自我改進系統、但值得知道的模式：分類並行動(用分類器把任務路由到對的模型)與錦標賽(用兩兩比較做偏品味的排名)。前者對模型路由(第 4 步)有用。後者在編碼迴圈裡少見，但對設計或命名任務有用。

08. 用 Worktrees 確保平行安全：Fable 5 連跑數日，檔案不打架

自我改進系統一旦生成超過一個代理，檔案就開始相撞。兩個代理寫同一個檔案，跟兩個工程師不先溝通就提交到同樣的行數，是一樣的問題。

git worktree 能解決它——一個位於自己分支、共用同一份 repo 歷史的獨立工作目錄，因此一個代理的編輯實際上碰不到另一個的簽出。

對於 Fable 5 生成子代理來驗證或專精化的自我改進系統，worktrees 不是選配：

製作者在 worktree A 寫，驗證者在 worktree B 讀(或以唯讀檔案系統對 worktree A 的簽出執行)。驗證者的探索完全沒有風險碰到製作者的狀態。
平行的結構性實驗。 如果 Fable 5 探索多個架構變更(像 Parameter Golf 那樣)，每個實驗都跑在自己的 worktree。編排者從全部蒐集結果，最好的那個合併進來。
帶檢查點的數日長跑。 每個主要階段都能是獨立的 worktree。一個失敗的階段不會毒害其餘部分。

在 Claude Code 裡，worktrees 有三種使用方式：直接用 git worktree、用 –worktree 旗標在自己的簽出裡開一個工作階段，以及在子代理上設 isolation： worktree，讓每個輔助代理拿到一份全新的簽出，並在工作階段結束後自我清理。

09. 用 Routines 做數日編排：筆電闔上，Fable 5 照跑

Routines 於 2026 年 4 月 14 日以研究預覽推出。它們是被儲存下來的 Claude Code 設定——一個提示、儲存庫、連接器、權限——在某個觸發條件下，於 Anthropic 託管的雲端基礎設施上執行。

你的筆電可以是關著的。執行照樣發生。

對 Fable 5 而言，Routines 正是讓這個模型的能力得以兌現的觸發層。Anthropic 是在 Claude Managed Agents 上衡量 Fable 5 的「一次跑好幾天」——一個含完整工具、不受本機限制的託管沙箱。

Parameter Golf 實驗在 8 顆 H100 GPU 上跑了長達 8 小時。那一類的執行不會發生在你的筆電上。

三種 Routine 觸發類型，對應到自我改進模式：

排程觸發(Schedule) ——晨間簡報模式。每天早上 7 點：重跑昨天的 eval 套件、把任何新的失效模式蒸餾進 Skills、把摘要寫到 Slack。你睡覺時，代理變得更鋒利。
API 觸發 ——「事件觸發」模式。CI 失敗 → 觸發一個 Routine 去調查。Sentry 警報 → 觸發一個 Routine 去分流。自我改進系統對你真實的環境做反應，而不是固定排程。
GitHub 事件觸發 ——「從真實工作中學習」模式。PR 開啟時，對最新的 Skills 跑一輪評估。合併時，把這個 PR 引入的任何新模式寫回 Skill。儲存庫狀態與 Skill 狀態保持同步。

> /schedule daily at 7am, use Fable 5 in CMA
  Goal: Re-run yesterday's eval suite against the latest skills.
  Any test that newly passes → distill the pattern into the skill.
  Any test that newly fails → investigate, document in STATE.md.
  Post the digest to #engineering. /goal don't stop until digest is
  posted and STATE.md is updated.

▲ Claude
  Creating routine: nightly-eval-compounding
  - model: claude-fable-5
  - harness: claude managed agent (sandbox)
  - trigger: schedule (0 7 * * *)
  - grader: independent Haiku sub-agent (Outcomes)
✓ Active. First run tomorrow 07:00 local. Skill set will compound.

PART 3 · 自我改進層

10. 5 階段記憶遞進

對「代理記憶」在實務上究竟意味著什麼，最有用的框架來自 Anthropic 團隊的 Continual Learning Bench 1.0 實驗。有效運用記憶需要五個階段的遞進。每個階段都是一個結構性動作;每個模型都在不同的點退出這個遞進。

1. 失敗(Fail) ——代理把某件事做錯，並用足以日後派上用場的細節記錄下這次失敗。
2. 調查(Investigate) ——在繼續往下之前，代理弄清楚失敗為什麼發生。
3. 驗證(Verify) ——代理把診斷變成一個經查核的事實，而不是猜測。
4. 蒸餾(Distill) ——代理把驗證變成一條超越特定個案、可廣泛適用的通則。
5. 查閱(Consult) ——在下一個任務上，代理直接讀那條規則，而不是從頭重新推導那個事實。

在 Continual Learning Bench 一個 SQL 探索任務上，各模型(都提供記憶)之間量測到的差異：

Sonnet 4.6 在第 1 步退出。 它的記憶儲存是一串失敗筆記與未解的猜測(「也許是 prc 而不是 prc_usd?」)。它很少查閱先前的筆記。記憶存在，但不複利。
Opus 4.7 在第 3 步退出。 它建立一份標註了不確定性的 schema 參考(「prc 可能是以分為單位?待驗證。」)。驗證覆蓋率落在 7–33%(中位數約 17%)的問題。
Fable 5 傾向走完整個遞進。 在它最強的執行中，驗證覆蓋率達到 73%(30 題中 22 題)，並把所學蒸餾成有助於未來任務的通則。

11. 狀態檔：記憶實際棲身之處

5 階段遞進是心智模型。狀態檔則是模型寫下每個階段輸出的地方。對在 Claude Managed Agents 運行的 Fable 5 來說，記憶是一個跨工作階段存活的掛載檔案系統;在本機的 Claude Code 裡，一個 markdown 檔或一塊 Linear 看板做的是同樣的工作。

一份能真正支撐 5 階段遞進的狀態檔結構：

# Project memory · trading-platform

## Verified facts # stage 3 — stop guessing about these
- prc is in dollars, not cents. Verified via SELECT MIN(prc), MAX(prc) FROM trades.
- user_id matches auth_users.uid via JOIN, not auth_users.id. Confirmed 2026-06-09.
- Test database uses Stripe sandbox keys; production uses real keys via env.

## General rules # stage 4 — consult before re-deriving
- When querying time-bucketed metrics, always include timezone (default UTC mismatches).
- Auth middleware order matters: rate_limit -> jwt -> rbac. Reversing causes 401s.
- For migrations, never use ALTER on tables >1M rows without batching.

## Open failures (investigate next session) # stage 1 → 2
- 2026-06-09: tests/e2e/checkout flakes ~1 in 50 runs. Hypothesis: webhook race.
  Reproduction steps in debug/checkout-flake.md.

## Lessons learned # stage 4 distillations
- PowerShell hits TLS 1.2 issue on Windows CI runners. Always shell out to bash.
- Stripe webhook tests require STRIPE_WEBHOOK_SECRET. Skip with clear message if missing.

## Last session # stage 5 — resume, don't restart
2026-06-10 03:30 UTC · 7 failures classified, 3 fixes drafted (claude/fix-*), 4 escalated.
Next: verify the auth middleware fix in claude/fix-rate-limit-order against production load.

這份檔案有五個區段，對應五個階段。Verified facts 是第 3 階段的輸出——代理已停止猜測的事。General rules 是第 4 階段——超越特定個案的蒸餾規則。Open failures 是第 1–2 階段進行中的工作。Lessons learned 是更多第 4 階段的輸出。

Last session 是第 5 階段的續跑指標。

決定這份檔案是真的會複利、還是只是不斷膨脹的兩條操作規則：

離開前先寫。 每一次 Fable 5 工作階段都以更新 STATE.md 收尾——試了什麼、什麼通過、什麼失敗、有哪些新規則存活下來。如果工作階段沒有以一次寫入收尾，下一次就會從零重啟。
開場時先讀。 每一次新工作階段都以讀取 STATE.md 與最相關的 Skills 開場。Continual Learning Bench 的資料顯示，沒有這一步，連 Fable 5 都會表現出 Sonnet 等級的記憶行為。

12. 會複利的 Skills：把教訓寫進 Skill，而不只是寫在對話裡

STATE.md 用於專案記憶。Skills 則用於程序記憶——那種「該怎麼做這類事情」、應該跨專案適用的知識。

複利模式：在任何非瑣碎的失敗之後，把教訓寫進 Skill 本身。系統每跑一次，Skill 就更鋒利一分。

一個已複利兩週的 Skill，看起來跟全新的不一樣。新區段冒出來：已知失效模式、從事後檢討中產出的規則、在生產環境觀察到的反模式。

這個 Skill 不再是一組靜態指令;它是一份不斷累積、記錄團隊實際學到了什麼的紀錄。

---
name: ci-triage
description: Classify CI failures, draft fixes for easy ones, escalate the rest.
  Trigger on workflow_run.failure or on the morning triage routine.
---

# CI triage skill

## Classification rules
- env: missing secret, wrong env var. # escalate to human, never auto-fix
- flake: passes on retry without code change. # retry once, then file
- bug: deterministic failure tied to recent commit. # draft fix
- dependency: tied to version bump. # draft rollback
- infra: timeout, OOM, runner issue. # escalate

## Known failure modes # added by the loop over 14 days
- webhook-race: e2e checkout flakes when Stripe webhook arrives mid-test.
  Fix: add 2s settle delay in tests/utils/webhook.ts.
- tls-handshake: Windows runners fail TLS 1.2 in PowerShell. Use bash.
- db-migration: ALTER on trades table >1M rows times out at 30s. Batch in 10k chunks.

## Anti-patterns (do NOT do) # added after real incidents
- Never disable a failing test to make CI green. File it instead.
- Never modify .github/workflows/ without human approval.
- Never touch src/payments/ or src/billing/ without security review.

## State
Update STATE.md after each run with classifications, fixes drafted, escalations.

## Eval suite # step 13 — the loop verifies the skill
Run against eval/ci-triage-cases.jsonl weekly. Any newly-failing case →
add to known failure modes after Outcomes verifier confirms.

複利契約：每一條被確認的教訓都進到一個 Skill，而不只是進 STATE.md。STATE.md 的範圍綁在專案上，專案死了它也死了。Skills 住在 ~/.claude/skills/，會跟著你走。

兩週有紀律的書寫，會產出一個 Skill，實質上勝過 Fable 5 在一個全新專案上從頭推導出來的任何東西。

13. 透過視覺的自我驗證：Fable 5 拿自己的 UI 對照目標檢查

Anthropic 隨 Fable 5 一起出貨的旗艦能力之一，是「用視覺把輸出對照目標檢查」。在你看到它實際取代了什麼之前，這聽起來很抽象：人類盯著截圖確認 UI 看起來對不對。

Fable 5 在迴圈裡、宣告完成之前，自己做掉那一步。

生產環境裡的模式：

製作者子代理寫 UI 程式碼， 把結果渲染成一張截圖。
驗證者子代理用視覺讀那張截圖， 拿它對照目標描述、對照專案 Skill 裡的 design tokens、對照 STATE.md 裡的前一張截圖。
判定回到迴圈。 相符 → 標記任務完成。不符 → 描述差距，連同一份結構化 diff 交回給製作者。

這正是 Anthropic 在 Parameter Golf 實驗、同一個 harness 下量測到的模式：Fable 5 看訓練圖表(視覺產出物)，判斷曲線是否符合準則。

沒有人在迴圈裡讀那張圖。是驗證者讀了那張圖。

14. Mythos 安全邊界：Fable 5 不會做什麼，以及如何繞著它設計

最後這一步，是第一天最容易被略過、卻最昂貴才學到教訓的一步。

Fable 5 內建安全分類器，會在特定高風險領域拒絕回應——資安漏洞研究、生物、化學，以及模型蒸餾。在這些領域，Anthropic 會自動把 Fable 5 後備到 Claude Opus 4.8。這是有記載的;它不是 bug。

對一個自主運行的自我改進系統，這意味著：

如果你的系統碰到資安工具(SAST 掃描、漏洞利用研究、滲透測試邏輯，甚至某些類別的程式碼審查)，預期會遇到分類器封鎖。為後備做架構：把那些任務明確路由到 Opus 4.8，或把封鎖呈現給人類審查者。
生物、化學與蒸餾領域亦同。 這個分類器範圍很廣。一個科學運算工作流可能觸發它;一次密碼學原語的程式碼審查也可能觸發它。
設計你的 Skills，讓後備能優雅地浮現。 一個 Skill 應該知道自己會產出哪些可能撞上分類器的任務，並記載預期行為。一個在分類器封鎖時悄悄失敗的迴圈，跟一個因真實錯誤而失敗的迴圈長得一模一樣——直到你去除錯。
稽核 system card。 Fable 5 那份 319 頁的 system card 記載了分類器的範圍。這次上線在 2026 年 6 月中引發爭議，因為有些降級行為被發現深埋在文件裡。部署到生產環境前先讀它。

通用設計原則：把安全邊界當成一個已知的後備，而不是一個失效模式。一個出貨時就明確處理這條邊界的自我改進系統，會在分類器演進時保持穩健。一個忽視它的系統，則會在 Anthropic 更新政策時產生無聲的退步。

那些讓 Fable 5 只發揮 10% 潛力的錯誤

把 Fable 5 當成 context 更多的 Sonnet 4.6 在用。 一個五分鐘「提示完就關掉」的工作階段，燒的是 Mythos 等級的定價，卻沒有任何複利效果。
用自我批評取代獨立驗證者。 製作者替自己的功課打分。Anthropic 量測過其中的差異;團隊明確記載了驗證者子代理模式。
沒有 STATE.md。 每個工作階段都從零重啟。Continual Learning Bench 的資料顯示，Fable 5 七成以上的記憶優勢就消失在這裡。
永遠不往 Skills 裡寫東西。 靜態的 Skill 沒問題;但一個在真實失敗後不累積教訓的 Skill，是被浪費掉的鷹架。
拿 Fable 5 去做 Sonnet 4.6 就能處理的任務。 文件更新、簡單重構、lint 修復。按複雜度路由;把 Fable 5 留給編排者角色。
在筆電上跑長時間工作階段。 數日的能力需要雲端基礎設施(CMA 或 Routines)。一台闔上的筆電會殺掉工作階段。
忽視 Mythos 安全邊界。 在資安/生物/化學上的分類器封鎖會產生無聲退步。為後備做明確架構。
視覺任務不做視覺驗證。 UI、儀表板、設計還原度——用純文字驗證者檢查這些，會錯過那個真正要命的失效模式。
略過 /goal 或 Outcomes。 沒有一個由獨立評分者檢查的客觀停止條件，迴圈會停在「處理得差不多了」而不是「完成」。
沒有審視留存政策。 把敏感資料丟進一個 Fable 5 routine，卻沒檢查 30 天 / 2 年的條款，會無聲地製造合規問題。

結論

Fable 5 不是一個更快的聊天工具。它是一個會複利的系統的基底。

第一個公開可用的 Mythos 等級模型，出貨不是為了被更快地提示。它出貨，是為了當你圍繞著它打造的那個自我改進系統的編排者。

那些能力頭條——數日工作階段、子代理委派、視覺自我檢查、累積的記憶——只有在模型周圍的系統盡了它的本分時，才配得上它的定價。

Anthropic 團隊自己的實驗讓這個落差顯而易見。Parameter Golf：Fable 5 搭配一個獨立驗證者，探索了更大的架構變更，並穿過負向的中間結果，最終落在比 Opus 4.7 多約 6 倍的改進。

Continual Learning Bench：有記憶的 Fable 5 走完完整的 5 階段遞進，驗證覆蓋率 73%，對上 Opus 4.7 的 17%。每一組對比的兩邊，模型都是同一個。改變的，是它周圍的系統。

挑一個你還沒在做的複利堆疊層——大概是驗證者子代理(第 6 步)、狀態檔(第 11 步)，或視覺驗證(第 13 步)——明天就加上去。然後再加下一個。

自我改進是「系統」的屬性，不是「模型」的屬性。把系統蓋出來。

OpenAI 已遞交 IPO 申請！繼 Anthropic、SpaceX 後叩關華爾街

《大賣空》Michael Burry 轟 SpaceX 撐不起兆元估值，狠嗆 Anthropic 算力狂熱是假象

Tags: AI Agent Anthropic Claude Fable 5 自我改進系統

Claude Fable 自我改進系統實戰：迴圈、動態工作流與 Routines 完整指南

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

Claude Fable 自我改進系統實戰：迴圈、動態工作流與 Routines 完整指南

PART 1 · Fable 5 究竟解鎖了什麼

01. Fable 5 是 Mythos 等級模型，「連跑數日的自主能力」才是重點

02. 自我改進不等於自我學習

03. 複利堆疊：四層架構，一個回饋迴圈

04. 何時用 Fable 5 vs Opus 4.8 vs Sonnet 4.6：成本—能力矩陣

PART 2 · 三個原語

05. /goal vs Outcomes：同一個概念的兩種實作

06. 驗證者子代理勝過自我批評

07. 動態工作流組合出自我修正模式

08. 用 Worktrees 確保平行安全：Fable 5 連跑數日，檔案不打架

09. 用 Routines 做數日編排：筆電闔上，Fable 5 照跑

PART 3 · 自我改進層

10. 5 階段記憶遞進

11. 狀態檔：記憶實際棲身之處

12. 會複利的 Skills：把教訓寫進 Skill，而不只是寫在對話裡

13. 透過視覺的自我驗證：Fable 5 拿自己的 UI 對照目標檢查

14. Mythos 安全邊界：Fable 5 不會做什麼，以及如何繞著它設計

那些讓 Fable 5 只發揮 10% 潛力的錯誤

結論

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類