從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭,一個讓 AI 知識「流動」的技術,如何改變了整個產業的成本結構與地緣競爭格局。
(前情提要:Claude Code 新增雲端定時任務:不用開電腦,AI 自動幫你審 PR、升級依賴)
(背景補充:Cursor 用 Kimi K2.5 訓模型卻沒說,開發者抓包、刪推、官方急轉彎全紀錄)
最近你在網路上,尤其是中國的AI 社群上,可以看到越來越多「蒸餾模型」宣傳效能堪比最新的頂尖大模型。DeepSeek、Moonshot AI 與 MiniMax…這些公司幾乎以每月一個的速度,將蒸餾過後的模型,以極低成本複製後推出。
要理解這是怎麼做到的?我們必須先回到 2015 年的一篇論文。
老師的暗知識
2015 年,Google 的三位研究者:Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean,發表了一篇名為《Distilling the Knowledge in a Neural Network》(蒸餾神經網路中的知識)的論文。
它提出了一個看似簡單的問題:一個大型 AI 模型,究竟「知道」什麼?
傳統的機器學習訓練,是讓模型學會「給出正確答案」。你給模型看一張貓的照片,它輸出「貓:99%,狗:1%」,訓練的目標就是讓這個 99% 更高、更準確。這叫做「硬標籤」(hard labels)訓練。
但 Hinton 注意到了一件事:大型模型在輸出「貓:99%」的同時,也輸出了「狗:0.7%、老虎:0.2%、獅子:0.1%」。
這些幾乎為零的小數字,看起來沒什麼用。但它們其實包含了大量的資訊:這個模型「知道」貓和老虎之間有某種相似性,貓和香蕉之間幾乎沒有相似性。這些隱藏在機率分佈裡的知識,Hinton 稱之為「暗知識」(dark knowledge)。
翻譯過來就是:大模型不只學會了「答案是什麼」,它還學會了答案之間的關係是什麼。而這些關係,才是真正有價值的知識。
模型蒸餾的核心,就是把這個「暗知識」從一個大模型(老師),傳遞給一個小模型(學生)。
老師不再告訴學生「這是貓」,而是告訴學生「這 99% 像貓、0.7% 像狗、0.2% 像老虎」。學生從這些「軟標籤」(soft labels)中學習,吸收的資訊遠遠多於直接從正確答案中學習。
結果是:學生模型的體積遠小於老師,但它繼承了老師對世界的理解方式。
溫度越高,知識越多
但要讓暗知識真正「流動」起來,還有一個關鍵機制:溫度縮放(temperature scaling)。
在標準的 AI 輸出中,模型使用 softmax 函數把內部計算值轉換成機率分佈。
- 低溫度下,輸出會非常「尖銳」:最可能的答案機率接近 100%,其他選項接近 0
- 高溫度下,輸出會變得「平滑」:各種可能的答案都有一定的機率,分佈更加均勻
Hinton 的洞察是:在蒸餾訓練時,把溫度調高。這讓老師模型輸出更豐富的軟標籤,讓暗知識得以充分展露;等訓練完成、學生模型部署時,再把溫度降回來,讓它輸出精確的答案。
這個「訓練時高溫、推論時低溫」的機制,是蒸餾有效運作的技術核心。
用一個類比來說:老師教學生的時候,不是直接說「答案是 A」,而是詳細解釋「A、B、C 之間的差異,以及為什麼在這個情況下 A 更合適」。學生理解了背後的邏輯,而不只是記住了答案。
這個框架,從 2015 年提出後,在 AI 產業逐漸普及。OpenAI 的 GPT-4o Mini、Meta 的 Llama 蒸餾版本、Google 的 Gemini Flash…都是這套邏輯的延伸。
而真正把蒸餾技術發揮到極致的,是 DeepSeek。
DeepSeek 的算盤
DeepSeek 在 2025 年發佈的 R1 模型,是一個 6,710 億(671B)參數的混合專家模型。這是一個大到必須用數百張高階 GPU 才能運行的模型。
但 DeepSeek 同時發佈了一系列「蒸餾版本」:從 1.5B 到 70B 參數不等,七個大小不同的模型,全部是從 R1 蒸餾而來的學生模型。
結果令業界震驚。
DeepSeek 蒸餾出的 7B 模型,在數學推理基準測試上擊敗了 OpenAI 的 o1-mini。DeepSeek-R1-Distill-Qwen-32B,在多項基準上超越了 OpenAI o1。一個 320 億參數的學生,擊敗了由更大模型支撐的競爭對手。
而 DeepSeek-R1 的 API 定價,是每百萬 token 輸入 0.55 美元、輸出 2.19 美元;相比之下,GPT-4o 的定價是 2.50 美元 / 10 美元。差距接近 4 倍。翻譯過來就是:
蒸餾讓 AI 的知識成本急劇降低。你不需要花 1 億美元訓練出一個 1,000 億參數的大模型,你只需要找到一個更聰明的老師,然後讓學生把它的暗知識吸收乾淨。
這是兩種完全不同的 AI 開發哲學。
OpenAI、Anthropic 的邏輯是:用最多的算力、最多的資料、最多的錢,訓練出最聰明的大腦,然後透過 API 把它租給全世界。他們的護城河,是「我的老師比你的老師更聰明」。
DeepSeek 的邏輯是:找到最聰明的老師,然後把它的知識最大化地壓縮進盡可能小的學生,讓任何人都能以最低成本部署。他們的護城河,是「我的蒸餾效率比你更高」。
這個邏輯上的差距,讓 Nvidia 市值在 DeepSeek 消息公布後的數日內蒸發了近 6,000 億美元。市場終於意識到,如果知識可以被高效壓縮,「誰擁有最多 GPU」這個問題,可能沒有以前那麼重要了。
蒸餾戰爭
然後是今年 2 月。Anthropic 公開指控三家中國 AI 公司:DeepSeek、Moonshot AI、MiniMax,對 Claude 發動了「工業規模的蒸餾攻擊」。
根據 Anthropic 的描述,這三家公司透過約 2.4 萬個偽造帳號,對 Claude 發起了超過 1,600 萬次查詢,目的是系統性地提取 Claude 的輸出,用以訓練自家模型。OpenAI 同樣向美國立法者提交公開信,聲稱發現了 DeepSeek 正以「混淆方式」蒸餾其模型的跡象。
這場爭議的核心,是一條模糊的邊界:合法蒸餾與未授權蒸餾,到底有什麼不同?
技術上,這兩者的操作幾乎是一樣的。Anthropic 自己也承認,AI 公司「例行地蒸餾自家模型以創建更小、更便宜的版本」這是業界的標準做法。OpenAI 把 GPT-4 的知識蒸餾進了 GPT-4o Mini;Anthropic 把 Claude 3 Opus 的能力傳遞給了更輕量的版本。
問題在於:你能蒸餾自己的模型,但你不能去蒸餾別人的模型。
但在 AI 的世界裡,知識的邊界從來都不清晰。
當一個模型看過了全人類寫過的文字、讀過了所有人發表過的論文、吸收了所有開源代碼。它的「知識」究竟屬於誰?當你向 Claude 提問,它的回答裡包含了 Anthropic 的訓練、人類作家的語言、研究者的見解,這些輸出,可以被視為某一家公司的「財產」嗎?
這個問題,AI 法律學者目前還沒有答案。美國法院正在審理的多起案件,試圖釐清這條邊界。但在判決出來之前,蒸餾戰爭仍在繼續。各家公司一邊在內部大力蒸餾自家模型,一邊指控競爭對手蒸餾了他們。
這就是 2026 年 AI 產業的殘酷真相:每個人都在蒸餾,但只有你蒸餾別人才叫「偷竊」。
知識從不消失,只會流動
要理解模型蒸餾的深層意義,必須先理解它的本質。
蒸餾不是複製。它不是直接抄走大模型的參數,而是讓學生透過觀察老師的行為,重建老師理解世界的方式。這個過程,可能更接近於「教育」而非「盜版」。
一個在頂尖老師指導下訓練了十年的學生,和一個自學成才的學生,最終都可能解出同一道數學題。但他們的學習路徑是不同的,對問題的理解深度也是不同的。
蒸餾的意義,在於讓「智識」這件事變得更民主。
2015 年,在個人電腦上運行一個完整的語言模型是不可能的事。2023 年,你需要幾萬美元的 GPU 才能部署一個有意義的大模型。2025 年,DeepSeek 蒸餾出的 7B 模型,可以在一台較高階的筆記型電腦上流暢運行。
知識的門檻,正在以蒸餾的速度下降。
當然,這也帶來了問題。如果任何知識都可以被蒸餾、壓縮、複製,那麼那些用一億美元、十億美元訓練出「最聰明老師」的公司,如何維持護城河?他們用來創造知識的龐大投入,如何獲得回報?
OpenAI 和 Anthropic 的憤怒,本質上不是技術問題,而是商業模式的問題。
在金融業,有一句話說:「錢的流動不會停止,只會改變路徑。」模型蒸餾告訴我們,知識也是一樣的。它不會消失,只會流動。從大模型流向小模型,從頂尖實驗室流向普通開發者,從美國流向中國,從受限的閉源系統流向任何有一台電腦和足夠好奇心的人。

