DeepSeek V4 規格提前外洩？AI 學者 Yifan Zhang 爆料：1.6 兆參數、百萬上下文，但「沒有多模態」

DeepSeek V4 技術規格疑似提前大外洩？普林斯頓大學 AI 學者 Yifan Zhang 今（22）日在 X 平台拋出震撼彈，宣稱 V4 模型將擁有高達 1.6 兆參數，並支援 100 萬 Token 的超長上下文。此外，本次還將首度推出 285B 的 Lite 輕量版。然而，在多模態當道的現在，爆料指出 V4 竟然「僅支援純文字」，引發社群熱烈激辯。
（前情提要：DeepSeek 估值衝破 200 億美元！外媒傳騰訊、阿里爭相搶投首輪融資）
（背景補充：Anthropic的一兆，與DeepSeek的100億）

中國 AI 巨頭 DeepSeek 的下一代旗艦模型 V4 的神秘面紗，疑似被學界人士提前無情揭開。

今（22）日，普林斯頓大學 AI 實驗室研究員、專注於大型語言模型推論（LLM Reasoning）與強化學習（RL）的博士生 Yifan Zhang（@yifan_zhang_），在 X 平台上發布了一份極度詳盡的模型技術規格表。結合他上週（19 日）發布的預告「V4, next week.」，外界一致認定這正是 DeepSeek 即將發布的 V4 模型內部情報。

V4 1.6T, V4-Lite 285B

Attention: DSA2 (NSA + DSA),
head-dim 512 Sparse MQA + SWA

MoE: Fused MoE Mega-Kernel with 6 active in 384 experts

Residual: Hyper-Connections

Optimizer: Muon

Pretrain context length: 32K

RL: GRPO with corrected KL

Final Context Length: 1M

Modality:… https://t.co/CC2Nof0OHy

— Yifan Zhang (@yifan_zhang_) April 22, 2026

V4 技術規格大解密：1.6 兆參數與全新 Lite 版

雖然 Yifan Zhang 目前並未在 DeepSeek 任職（過去曾待過字節跳動 Seed 團隊），但憑藉其在圈內的可靠渠道，這份超硬核的技術清單立刻在社群引發討論。

根據爆料，V4 家族將迎來兩名成員與多項底層架構升級：

模型規模：旗艦版 V4 總參數高達 1.6T（1.6 兆），並且首度曝光了參數為 285B（2850 億）的輕量版 V4-Lite。
MoE 架構優化：總共配置 384 個專家（experts），每次激活 6 個（活躍參數約 25B）。底層採用了能大幅提升運算效率的 Fused MoE Mega-Kernel 技術。
注意力機制（Attention）：採用了 DSA2（NSA + DSA 組合）、head-dim 512，以及 Sparse MQA 搭配 SWA（滑動窗口注意力）。
訓練細節大躍進：優化器換成了更先進的矩陣級優化器 Muon；殘差連接採用 Hyper-Connections。
上下文與強化學習：預訓練上下文長度為 32K，但在經過帶有 KL 散度校正的 GRPO（GRPO with corrected KL）強化學習階段後，最終能支援高達 1M（百萬 Token）的超長上下文。

「純文字」逆勢操作？社群褒貶不一

在這份極致堆料的規格表中，最讓業界跌破眼鏡的，莫過於 V4 的模態設定為「Text only（純文字，無多模態）」。

在 GPT-4o、Gemini 等對手瘋狂推進語音、視覺與影像多模態整合的當下，V4 堅守純文字賽道的決定引發了兩極化反應。在推文下方，有網友驚嘆這些數據「看起來很無敵，絕對是 SOTA（State of the Art）級別」，但也有不少人吐槽「這年代還做純文字？」質疑為何不加入視覺能力。

同時，由於這份規格表太過詳盡，且 DeepSeek 官方至今未出面證實或闢謠，部分開發者對其真實性抱持懷疑。不過，對於 AI 研究人員而言，表中提到的「Muon 優化器應用」與「KL 散度校正」等硬核細節，確實符合 DeepSeek 過去追求極致演算法降本增效的技術品味。V4 是否真的會在下週閃電發表？全球科技圈正屏息以待。

我用 AI 玩戰爭遊戲：GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜…

彭博：DeepSeek強勢崛起，中國正對美國AI霸主地位構成「巨大威脅」

Tags: AI DeepSeek GRPO LLM MoE v4 Yifan Zhang 人工智慧大模型

DeepSeek V4 規格提前外洩？AI 學者 Yifan Zhang 爆料：1.6 兆參數、百萬上下文，但「沒有多模態」

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

DeepSeek V4 規格提前外洩？AI 學者 Yifan Zhang 爆料：1.6 兆參數、百萬上下文，但「沒有多模態」

V4 技術規格大解密：1.6 兆參數與全新 Lite 版

「純文字」逆勢操作？社群褒貶不一

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類