• 【超完整懶人包】認識比特幣!原理與應用全面解析|動區新手村
  • Account
  • Account
  • BlockTempo Beginner – 動區新手村
  • Change Password
  • Forgot Password?
  • Home 3
  • Login
  • Login
  • Logout
  • Members
  • Password Reset
  • Register
  • Register
  • Reset Password
  • User
  • 不只加密貨幣,談談那些你不知道的區塊鏈應用|動區新手村
  • 動區動趨 BlockTempo – 最有影響力的區塊鏈新聞媒體 (比特幣, 加密貨幣)
  • 所有文章
  • 最完整的「區塊鏈入門懶人包」|動區新手村
  • 服務條款 (Terms of Use)
  • 關於 BlockTempo
  • 隱私政策政策頁面 / Privacy Policy
動區動趨-最具影響力的區塊鏈新聞媒體
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
  • 所有文章
  • 搶先看
  • 🔥動區專題
  • 🔥Tempo 30 Award
  • 加密貨幣市場
    • 市場分析
    • 交易所
    • 投資分析
    • 創投
    • RootData
    • 比特幣 BTC 即時價格
    • 以太幣 ETH 即時價格
    • Solana SOL 即時價格
    • 瑞波幣 XRP 即時價格
    • Pi Network PI 即時價格
  • 區塊鏈商業應用
    • 金融市場
    • 銀行
    • 錢包
    • 支付
    • defi
    • 區塊鏈平台
    • 挖礦
    • 供應鏈
    • 遊戲
    • dApps
  • 技術
    • 比特幣
    • 以太坊
    • 分散式帳本技術
    • 其他幣別
    • 數據報告
      • 私人機構報告
      • 評級報告
  • 法規
    • 央行
    • 管制
    • 犯罪
    • 稅務
  • 區塊鏈新手教學
  • 人物專訪
    • 獨立觀點
  • 懶人包
    • 比特幣概念入門
    • 從零開始認識區塊鏈
    • 區塊鏈應用
  • 登入
No Result
View All Result
動區動趨-最具影響力的區塊鏈新聞媒體
No Result
View All Result
Home 區塊鏈商業應用 AI

DeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」

Aspen by Aspen
2026-04-22
in AI
A A
DeepSeek V4 規格提前外洩?AI 學者 Yifan Zhang 爆料:1.6 兆參數、百萬上下文,但「沒有多模態」
36
SHARES
分享至Facebook分享至Twitter

DeepSeek V4 技術規格疑似提前大外洩?普林斯頓大學 AI 學者 Yifan Zhang 今(22)日在 X 平台拋出震撼彈,宣稱 V4 模型將擁有高達 1.6 兆參數,並支援 100 萬 Token 的超長上下文。此外,本次還將首度推出 285B 的 Lite 輕量版。然而,在多模態當道的現在,爆料指出 V4 竟然「僅支援純文字」,引發社群熱烈激辯。
(前情提要:DeepSeek 估值衝破 200 億美元!外媒傳騰訊、阿里爭相搶投首輪融資)
(背景補充:Anthropic的一兆,與DeepSeek的100億)

 

中國 AI 巨頭 DeepSeek 的下一代旗艦模型 V4 的神秘面紗,疑似被學界人士提前無情揭開。

今(22)日,普林斯頓大學 AI 實驗室研究員、專注於大型語言模型推論(LLM Reasoning)與強化學習(RL)的博士生 Yifan Zhang(@yifan_zhang_),在 X 平台上發布了一份極度詳盡的模型技術規格表。結合他上週(19 日)發布的預告「V4, next week.」,外界一致認定這正是 DeepSeek 即將發布的 V4 模型內部情報。

V4 1.6T, V4-Lite 285B

Attention: DSA2 (NSA + DSA),
head-dim 512 Sparse MQA + SWA

MoE: Fused MoE Mega-Kernel with 6 active in 384 experts

Residual: Hyper-Connections

Optimizer: Muon

Pretrain context length: 32K

RL: GRPO with corrected KL

Final Context Length: 1M

Modality:… https://t.co/CC2Nof0OHy

— Yifan Zhang (@yifan_zhang_) April 22, 2026

V4 技術規格大解密:1.6 兆參數與全新 Lite 版

雖然 Yifan Zhang 目前並未在 DeepSeek 任職(過去曾待過字節跳動 Seed 團隊),但憑藉其在圈內的可靠渠道,這份超硬核的技術清單立刻在社群引發討論。

根據爆料,V4 家族將迎來兩名成員與多項底層架構升級:

  • 模型規模:旗艦版 V4 總參數高達 1.6T(1.6 兆),並且首度曝光了參數為 285B(2850 億)的輕量版 V4-Lite。
  • MoE 架構優化:總共配置 384 個專家(experts),每次激活 6 個(活躍參數約 25B)。底層採用了能大幅提升運算效率的 Fused MoE Mega-Kernel 技術。
  • 注意力機制(Attention):採用了 DSA2(NSA + DSA 組合)、head-dim 512,以及 Sparse MQA 搭配 SWA(滑動窗口注意力)。
  • 訓練細節大躍進:優化器換成了更先進的矩陣級優化器 Muon;殘差連接採用 Hyper-Connections。
  • 上下文與強化學習:預訓練上下文長度為 32K,但在經過帶有 KL 散度校正的 GRPO(GRPO with corrected KL)強化學習階段後,最終能支援高達 1M(百萬 Token)的超長上下文。

「純文字」逆勢操作?社群褒貶不一

在這份極致堆料的規格表中,最讓業界跌破眼鏡的,莫過於 V4 的模態設定為「Text only(純文字,無多模態)」。

在 GPT-4o、Gemini 等對手瘋狂推進語音、視覺與影像多模態整合的當下,V4 堅守純文字賽道的決定引發了兩極化反應。在推文下方,有網友驚嘆這些數據「看起來很無敵,絕對是 SOTA(State of the Art)級別」,但也有不少人吐槽「這年代還做純文字?」質疑為何不加入視覺能力。

同時,由於這份規格表太過詳盡,且 DeepSeek 官方至今未出面證實或闢謠,部分開發者對其真實性抱持懷疑。不過,對於 AI 研究人員而言,表中提到的「Muon 優化器應用」與「KL 散度校正」等硬核細節,確實符合 DeepSeek 過去追求極致演算法降本增效的技術品味。V4 是否真的會在下週閃電發表?全球科技圈正屏息以待。

加入動區 Telegram 頻道

📍相關報導📍

AI 模型蒸餾是什麼?DeepSeek 如何花 600 萬,學走 1 億的本事

我用 AI 玩戰爭遊戲:GPT o3 是心機大魔王、DeepSeek 戰爭狂人、Claude 則像個傻白甜…

彭博:DeepSeek強勢崛起,中國正對美國AI霸主地位構成「巨大威脅」

Tags: AIDeepSeekGRPOLLMMoEv4Yifan Zhang人工智慧大模型


關於我們

動區動趨

為您帶來最即時最全面
區塊鏈世界脈動剖析
之動感新聞站

訂閱我們的最新消息

動區精選-為您整理一週間的國際動態

戰略夥伴

Foresight Ventures Foresight News MEXC

主題分類

  • 關於 BlockTempo

動區動趨 BlockTempo © All Rights Reserved.

No Result
View All Result
  • 所有文章
  • 搶先看
  • 市場脈動
  • 商業應用
  • 區塊鏈新手教學
  • 區塊鏈技術
  • 數據洞察
  • 政府法規
  • RootData
  • 登入

動區動趨 BlockTempo © All Rights Reserved.