DeepSeek V4 技術規格疑似提前大外洩?普林斯頓大學 AI 學者 Yifan Zhang 今(22)日在 X 平台拋出震撼彈,宣稱 V4 模型將擁有高達 1.6 兆參數,並支援 100 萬 Token 的超長上下文。此外,本次還將首度推出 285B 的 Lite 輕量版。然而,在多模態當道的現在,爆料指出 V4 竟然「僅支援純文字」,引發社群熱烈激辯。
(前情提要:DeepSeek 估值衝破 200 億美元!外媒傳騰訊、阿里爭相搶投首輪融資)
(背景補充:Anthropic的一兆,與DeepSeek的100億)
中國 AI 巨頭 DeepSeek 的下一代旗艦模型 V4 的神秘面紗,疑似被學界人士提前無情揭開。
今(22)日,普林斯頓大學 AI 實驗室研究員、專注於大型語言模型推論(LLM Reasoning)與強化學習(RL)的博士生 Yifan Zhang(@yifan_zhang_),在 X 平台上發布了一份極度詳盡的模型技術規格表。結合他上週(19 日)發布的預告「V4, next week.」,外界一致認定這正是 DeepSeek 即將發布的 V4 模型內部情報。
V4 1.6T, V4-Lite 285B
Attention: DSA2 (NSA + DSA),
head-dim 512 Sparse MQA + SWAMoE: Fused MoE Mega-Kernel with 6 active in 384 experts
Residual: Hyper-Connections
Optimizer: Muon
Pretrain context length: 32K
RL: GRPO with corrected KL
Final Context Length: 1M
Modality:… https://t.co/CC2Nof0OHy
— Yifan Zhang (@yifan_zhang_) April 22, 2026
V4 技術規格大解密:1.6 兆參數與全新 Lite 版
雖然 Yifan Zhang 目前並未在 DeepSeek 任職(過去曾待過字節跳動 Seed 團隊),但憑藉其在圈內的可靠渠道,這份超硬核的技術清單立刻在社群引發討論。
根據爆料,V4 家族將迎來兩名成員與多項底層架構升級:
- 模型規模:旗艦版 V4 總參數高達 1.6T(1.6 兆),並且首度曝光了參數為 285B(2850 億)的輕量版 V4-Lite。
- MoE 架構優化:總共配置 384 個專家(experts),每次激活 6 個(活躍參數約 25B)。底層採用了能大幅提升運算效率的 Fused MoE Mega-Kernel 技術。
- 注意力機制(Attention):採用了 DSA2(NSA + DSA 組合)、head-dim 512,以及 Sparse MQA 搭配 SWA(滑動窗口注意力)。
- 訓練細節大躍進:優化器換成了更先進的矩陣級優化器 Muon;殘差連接採用 Hyper-Connections。
- 上下文與強化學習:預訓練上下文長度為 32K,但在經過帶有 KL 散度校正的 GRPO(GRPO with corrected KL)強化學習階段後,最終能支援高達 1M(百萬 Token)的超長上下文。
「純文字」逆勢操作?社群褒貶不一
在這份極致堆料的規格表中,最讓業界跌破眼鏡的,莫過於 V4 的模態設定為「Text only(純文字,無多模態)」。
在 GPT-4o、Gemini 等對手瘋狂推進語音、視覺與影像多模態整合的當下,V4 堅守純文字賽道的決定引發了兩極化反應。在推文下方,有網友驚嘆這些數據「看起來很無敵,絕對是 SOTA(State of the Art)級別」,但也有不少人吐槽「這年代還做純文字?」質疑為何不加入視覺能力。
同時,由於這份規格表太過詳盡,且 DeepSeek 官方至今未出面證實或闢謠,部分開發者對其真實性抱持懷疑。不過,對於 AI 研究人員而言,表中提到的「Muon 優化器應用」與「KL 散度校正」等硬核細節,確實符合 DeepSeek 過去追求極致演算法降本增效的技術品味。V4 是否真的會在下週閃電發表?全球科技圈正屏息以待。

📍相關報導📍
AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事
我用 AI 玩戰爭遊戲:GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜…
