AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事

從 2015 年 Hinton 的論文到今天的模型蒸餾戰爭，一個讓 AI 知識「流動」的技術，如何改變了整個產業的成本結構與地緣競爭格局。
（前情提要：Claude Code 新增雲端定時任務：不用開電腦，AI 自動幫你審 PR、升級依賴）
（背景補充：Cursor 用 Kimi K2.5 訓模型卻沒說，開發者抓包、刪推、官方急轉彎全紀錄）

本文目錄

最近你在網路上，尤其是中國的AI 社群上，可以看到越來越多「蒸餾模型」宣傳效能堪比最新的頂尖大模型。DeepSeek、Moonshot AI 與 MiniMax…這些公司幾乎以每月一個的速度，將蒸餾過後的模型，以極低成本複製後推出。

快速演變的背後，也引發了 AI 界最激烈的道德爭議之一。Anthropic 近期就指控上述三家公司「竊取」Claude 的知識；OpenAI 也向美國立法者提交公開信，要求立法限制。

但這場圍堵，可能比你想像中的要困難。

蒸餾的本質是觀察與學習，而不是複製與竊取。你無法起訴一個學生「看了太多老師的解題過程」。更何況，蒸餾所需要的，只是一台電腦、一批問題、和足夠多的耐心：這三樣東西，中國的 AI 實驗室從來不缺。當技術門檻低到任何有算力的團隊都能執行，監管能做的，頂多是讓這件事變得更貴一點、更慢一點。知識的流動，很難被一紙禁令攔住。

要理解這是怎麼做到的？我們必須先回到 2015 年的一篇論文。

老師的暗知識

2015 年，Google 的三位研究者：Geoffrey Hinton、Oriol Vinyals 和 Jeff Dean，發表了一篇名為《Distilling the Knowledge in a Neural Network》（蒸餾神經網路中的知識）的論文。

它提出了一個看似簡單的問題：一個大型 AI 模型，究竟「知道」什麼？

傳統的機器學習訓練，是讓模型學會「給出正確答案」。你給模型看一張貓的照片，它輸出「貓：99%，狗：1%」，訓練的目標就是讓這個 99% 更高、更準確。這叫做「硬標籤」（hard labels）訓練。

但 Hinton 注意到了一件事：大型模型在輸出「貓：99%」的同時，也輸出了「狗：0.7%、老虎：0.2%、獅子：0.1%」。

這些幾乎為零的小數字，看起來沒什麼用。但它們其實包含了大量的資訊：這個模型「知道」貓和老虎之間有某種相似性，貓和香蕉之間幾乎沒有相似性。這些隱藏在機率分佈裡的知識，Hinton 稱之為「暗知識」（dark knowledge）。

翻譯過來就是：大模型不只學會了「答案是什麼」，它還學會了答案之間的關係是什麼。而這些關係，才是真正有價值的知識。

模型蒸餾的核心，就是把這個「暗知識」從一個大模型（老師），傳遞給一個小模型（學生）。

老師不再告訴學生「這是貓」，而是告訴學生「這 99% 像貓、0.7% 像狗、0.2% 像老虎」。學生從這些「軟標籤」（soft labels）中學習，吸收的資訊遠遠多於直接從正確答案中學習。

結果是：學生模型的體積遠小於老師，但它繼承了老師對世界的理解方式。

溫度越高，知識越多

但要讓暗知識真正「流動」起來，還有一個關鍵機制：溫度縮放（temperature scaling）。

在標準的 AI 輸出中，模型使用 softmax 函數把內部計算值轉換成機率分佈。

低溫度下，輸出會非常「尖銳」：最可能的答案機率接近 100%，其他選項接近 0
高溫度下，輸出會變得「平滑」：各種可能的答案都有一定的機率，分佈更加均勻

Hinton 的洞察是：在蒸餾訓練時，把溫度調高。這讓老師模型輸出更豐富的軟標籤，讓暗知識得以充分展露；等訓練完成、學生模型部署時，再把溫度降回來，讓它輸出精確的答案。

這個「訓練時高溫、推論時低溫」的機制，是蒸餾有效運作的技術核心。

用一個類比來說：老師教學生的時候，不是直接說「答案是 A」，而是詳細解釋「A、B、C 之間的差異，以及為什麼在這個情況下 A 更合適」。學生理解了背後的邏輯，而不只是記住了答案。

這個框架，從 2015 年提出後，在 AI 產業逐漸普及。OpenAI 的 GPT-4o Mini、Meta 的 Llama 蒸餾版本、Google 的 Gemini Flash…都是這套邏輯的延伸。

而真正把蒸餾技術發揮到極致的，是 DeepSeek。

DeepSeek 的算盤

DeepSeek 在 2025 年發佈的 R1 模型，是一個 6,710 億（671B）參數的混合專家模型。這是一個大到必須用數百張高階 GPU 才能運行的模型。

但 DeepSeek 同時發佈了一系列「蒸餾版本」：從 1.5B 到 70B 參數不等，七個大小不同的模型，全部是從 R1 蒸餾而來的學生模型。

結果令業界震驚。

DeepSeek 蒸餾出的 7B 模型，在數學推理基準測試上擊敗了 OpenAI 的 o1-mini。DeepSeek-R1-Distill-Qwen-32B，在多項基準上超越了 OpenAI o1。一個 320 億參數的學生，擊敗了由更大模型支撐的競爭對手。

而 DeepSeek-R1 的 API 定價，是每百萬 token 輸入 0.55 美元、輸出 2.19 美元；相比之下，GPT-4o 的定價是 2.50 美元 / 10 美元。差距接近 4 倍。翻譯過來就是：

蒸餾讓 AI 的知識成本急劇降低。你不需要花 1 億美元訓練出一個 1,000 億參數的大模型，你只需要找到一個更聰明的老師，然後讓學生把它的暗知識吸收乾淨。

這是兩種完全不同的 AI 開發哲學。

OpenAI、Anthropic 的邏輯是：用最多的算力、最多的資料、最多的錢，訓練出最聰明的大腦，然後透過 API 把它租給全世界。他們的護城河，是「我的老師比你的老師更聰明」。

DeepSeek 的邏輯是：找到最聰明的老師，然後把它的知識最大化地壓縮進盡可能小的學生，讓任何人都能以最低成本部署。他們的護城河，是「我的蒸餾效率比你更高」。

這個邏輯上的差距，讓 Nvidia 市值在 DeepSeek 消息公布後的數日內蒸發了近 6,000 億美元。市場終於意識到，如果知識可以被高效壓縮，「誰擁有最多 GPU」這個問題，可能沒有以前那麼重要了。

蒸餾戰爭

然後是今年 2 月。Anthropic 公開指控三家中國 AI 公司：DeepSeek、Moonshot AI、MiniMax，對 Claude 發動了「工業規模的蒸餾攻擊」。

根據 Anthropic 的描述，這三家公司透過約 2.4 萬個偽造帳號，對 Claude 發起了超過 1,600 萬次查詢，目的是系統性地提取 Claude 的輸出，用以訓練自家模型。OpenAI 同樣向美國立法者提交公開信，聲稱發現了 DeepSeek 正以「混淆方式」蒸餾其模型的跡象。

這場爭議的核心，是一條模糊的邊界：合法蒸餾與未授權蒸餾，到底有什麼不同？

技術上，這兩者的操作幾乎是一樣的。Anthropic 自己也承認，AI 公司「例行地蒸餾自家模型以創建更小、更便宜的版本」這是業界的標準做法。OpenAI 把 GPT-4 的知識蒸餾進了 GPT-4o Mini；Anthropic 把 Claude 3 Opus 的能力傳遞給了更輕量的版本。

問題在於：你能蒸餾自己的模型，但你不能去蒸餾別人的模型。

但在 AI 的世界裡，知識的邊界從來都不清晰。

當一個模型看過了全人類寫過的文字、讀過了所有人發表過的論文、吸收了所有開源代碼。它的「知識」究竟屬於誰？當你向 Claude 提問，它的回答裡包含了 Anthropic 的訓練、人類作家的語言、研究者的見解，這些輸出，可以被視為某一家公司的「財產」嗎？

這個問題，AI 法律學者目前還沒有答案。美國法院正在審理的多起案件，試圖釐清這條邊界。但在判決出來之前，蒸餾戰爭仍在繼續。各家公司一邊在內部大力蒸餾自家模型，一邊指控競爭對手蒸餾了他們。

這就是 2026 年 AI 產業的殘酷真相：每個人都在蒸餾，但只有你蒸餾別人才叫「偷竊」。

知識從不消失，只會流動

要理解模型蒸餾的深層意義，必須先理解它的本質。

蒸餾不是複製。它不是直接抄走大模型的參數，而是讓學生透過觀察老師的行為，重建老師理解世界的方式。這個過程，可能更接近於「教育」而非「盜版」。

一個在頂尖老師指導下訓練了十年的學生，和一個自學成才的學生，最終都可能解出同一道數學題。但他們的學習路徑是不同的，對問題的理解深度也是不同的。

蒸餾的意義，在於讓「智識」這件事變得更民主。

2015 年，在個人電腦上運行一個完整的語言模型是不可能的事。2023 年，你需要幾萬美元的 GPU 才能部署一個有意義的大模型。2025 年，DeepSeek 蒸餾出的 7B 模型，可以在一台較高階的筆記型電腦上流暢運行。

知識的門檻，正在以蒸餾的速度下降。

當然，這也帶來了問題。如果任何知識都可以被蒸餾、壓縮、複製，那麼那些用一億美元、十億美元訓練出「最聰明老師」的公司，如何維持護城河？他們用來創造知識的龐大投入，如何獲得回報？

OpenAI 和 Anthropic 的憤怒，本質上不是技術問題，而是商業模式的問題。

在金融業，有一句話說：「錢的流動不會停止，只會改變路徑。」模型蒸餾告訴我們，知識也是一樣的。它不會消失，只會流動。從大模型流向小模型，從頂尖實驗室流向普通開發者，從美國流向中國，從受限的閉源系統流向任何有一台電腦和足夠好奇心的人。

Tags: AI 競爭 DeepSeek 人工智慧模型蒸餾深度學習

AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

AI 模型蒸餾是什麼？DeepSeek 如何花 600 萬，學走 1 億的本事

老師的暗知識

溫度越高，知識越多

DeepSeek 的算盤

蒸餾戰爭

知識從不消失，只會流動

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類