小模型也能發現 Claude Mythos 偵測的資安漏洞？AISLE：護城河在系統，不在模型

資安新創 AISLE 用每百萬 token 僅 0.11 美元的 3.6B 引數小模型，複現了 Anthropic 旗艦資安系統 Mythos 的部分核心展示。AI 資安能力的邊界比你想的更「參差不齊」。
（前情提要：Anthropic發布Mythos之時，會是DeFi的核爆時刻嗎？）
（背景補充：Anthropic Mythos 太強嚇出緊急會議：貝森特、鮑爾召集花旗,高盛,美銀,大小摩，五大銀行聚焦金融風險）

本文目錄

Anthropic 本週發布尚未公開的模型 Claude Mythos Preview，並同步啟動 Project Glasswing 玻璃翼計畫，由亞馬遜、蘋果、微軟、CrowdStrike、思科等 12 家科技公司組成，使用該模型進行防禦性資安研究。

因為 Mythos 據稱自主找出每個主要作業系統與瀏覽器中的數千個零日漏洞（zero-day vulnerability，指尚未公開修補、連廠商都可能不知道的安全缺陷），暗示一個由 AI 主導資安防禦的新紀元即將開啟。

然而不到一週，由前 DeepMind 與 Anthropic 研究員 Stanislav Fort 共同創辦的資安新創 AISLE，在公司技術部落格發表了一份系統性報告。

核心結論直接：在 Mythos 的旗艦展示任務中，一個 active 引數僅 3.6B、每百萬 token 花費 0.11 美元的開源小模型，達成了相同的漏洞偵測結果。

Mythos 展示了什麼，小模型又複現了什麼？

AISLE 設計了三組測試，分別對應不同難度與性質的資安任務。

第一組是 OWASP（開放 Web 應用安全專案）偽陽性測試。

翻譯過來就是，一段 Java SQL 查詢程式碼看起來像 SQL Injection（資料庫注入攻擊），但實際上邏輯安全。正確答案是非漏洞。

測試結果呈現近乎逆向的 scaling（規模縮放）效應：小型開源模型 GPT-OSS-20b（3.6B active 引數，$0.11/M tokens）正確追蹤了程式邏輯，判定無害。

相反地，Claude Sonnet 4.5、所有 GPT-4.1/5.4 系列（o3 與 pro 除外）、Anthropic 全系列至 Opus 4.5，均自信地誤判為高危漏洞。只有極少數頂端模型 — o3、OpenAI-pro、Sonnet 4.6、Opus 4.6 答對。

第二組是 FreeBSD NFS 漏洞，即 Mythos 旗艦發布中特別展示的 CVE-2026-4747，一個 17 年歷史、未授權遠端程式碼執行漏洞。

結果：8/8 個受測模型全部成功偵測，包括那個 3.6B active 引數的小模型。所有模型均正確識別出 stack buffer overflow（堆疊緩衝區溢位）、計算剩餘空間，並將其評為 Critical RCE。

AISLE 的結論是：此類偵測能力已「商品化」。

第三組是 OpenBSD SACK 漏洞（27 年歷史），需要真正的數學推理：追蹤有號整數溢位（signed integer overflow）的多步驟邏輯鏈。

難度顯著提升，模型表現分化。GPT-OSS-120b（5.1B active 引數）完整複現了漏洞利用鏈，AISLE 評為 A+；Kimi K2 開源版本得 A-；而 Qwen3 32B 則給出「程式碼很健壯」的錯誤結論，評 F。

即便在這個更困難的任務上，一個成本極低的開源模型仍然達成了旗艦系統的同等展示。

為什麼更大的模型，不等於更安全的系統

這份報告的真正論點不是「小模型夠用」，而是 AI 資安能力的結構遠比外界想像複雜。

AISLE 將資安 AI 管線拆解為五個獨立子任務：

廣譜掃描（broad scanning）
漏洞偵測（vulnerability detection）
分流驗證（triage and validation）
修補生成（patch generation）
漏洞利用構建（exploit construction）

每個子任務的 scaling 性質不同，所需的模型能力也不同。Mythos 的公告將這五個層次整合呈現為一個完整系統，但實際上它們的模型需求差異極大，某些子任務在 3.6B 引數下已完全飽和，某些則需要複雜推理能力。

這呼應了 2023 年哈佛商學院研究者 Dell’Acqua 與 Mollick 等人提出的「Jagged Frontier」（參差不齊邊界）概念：AI 能力的邊界不是一條平滑曲線，而是凹凸不平的鋸齒狀，在某些任務上遠超人類，在相鄰任務上卻意外脆弱。

該研究顯示，使用者若在能力邊界內部署 AI，生產力提升約 40%；若貿然延伸至邊界外，表現反而下降 19%。

AISLE 在這個框架下提出了更具操作性的推論：「一千個夠用的偵探無處不搜，比一個天才偵探猜測在哪裡找，能發現更多漏洞。」

大量部署低成本模型進行廣譜掃描，在總體效益上可能優於謹慎排程單一高成本模型。AISLE 表示自 2025 年中旬起已在真實目標上執行漏洞發現系統：在 OpenSSL 中找到 15 個 CVE（其中單次安全版本包含 12 個，CVSS 9.8 Critical），curl 中 5 個，跨超過 30 個專案共計逾 180 個外部驗證 CVE。