輝達(NVIDIA)再放猛藥!今(28)日宣布推出全新開源多模態大模型「Nemotron 3 Nano Omni」。這款模型打破了傳統 AI 依賴多個破碎模型串聯的痛點,能在「單一模型」內高效且統一地處理視訊、音訊、影像與文字。輝達更霸氣宣布「徹底開源」,不僅在 Hugging Face 釋出權重,連訓練資料集與配方也全數公開,全面進攻代理式 AI(Agentic AI)的底層基礎設施市場。
(前情提要:快訊》NVIDIA 輝達盤中創歷史新高「衝破 212.6 美元」!市值達 5.17 兆美元重登全球第一)
(背景補充:黃仁勳發全員信擁抱 OpenAI Codex:1 萬多名 NVIDIA 員工已上手,GPT-5.5 跑在 GB200 上)
AI 代理(AI Agents)的發展正迎來架構上的大換血,而推動這場變革的正是算力霸主輝達(NVIDIA)。
NVIDIA 於 28 日正式對外發表了 Nemotron 3 家族的最新成員 ——「Nemotron 3 Nano Omni」。正如其名「Omni(全能/多模態)」,這是一款極致高效、開放且能夠在單一模型中統一處理視訊、音訊、影像和文字的強大武器,專為下一代代理式 AI(Agentic AI)所打造。
解決「碎片化」痛點,單一迴路搞定多模態
在過去,當企業想要開發一個能看懂文件、聽懂語音又會看影片的 AI 代理時,往往需要依賴一條「破碎的模型鏈」—— 也就是把獨立的視覺模型、音訊模型與文字模型硬湊在一起。
這種做法不僅會導致協調複雜度極高、推理成本昂貴,更致命的是,跨模態的「上下文」很容易在傳遞過程中流失或產生幻覺。Nemotron 3 Nano Omni 的誕生,就是為了將這些繁雜的處理過程收斂到一個「單一的高效開放模型」中。作為系統中的多模態感知子代理(sub-agent),它能讓 AI 在單一的「感知-動作迴路」中無縫處理多模態輸入,大幅改善收斂性並降低企業成本。
30B 混合專家架構:視訊推理效能飆升 9.2 倍
在硬體與底層架構的最佳化上,NVIDIA 展現了其統治級的實力:
- Hybrid MoE 架構:該模型擁有 300 億(30B)總參數,並採用混合專家架構(MoE),使得實際推理時的「激活參數」僅約 30 億(3B),兼顧了頂級性能與極致的運算效率。底層更是巧妙結合了 Mamba(專攻序列與記憶效率)與 Transformer(專攻精準推理)的雙重優勢。
- 效能輾壓:在多項基準測試(如 MMLongbench-Doc、WorldSense 等)中,Nano Omni 展現了領先群雄的實力。相較於其他開放的多模態模型,在相同的互動性閾值下,其「視訊推理」的系統容量提升高達 9.2 倍,多文件推理能力也提升了 7.4 倍。
- 為 Blackwell 而生:該模型完美支援 NVIDIA 最新的 Blackwell GPU 以及 NVFP4 量化技術,並支援高達 262K 的超長上下文窗口,專為企業級的長時序視訊處理與複雜文件推理量身訂做。
徹底開源:連「訓練資料集與配方」都不藏私
最讓開發者社群振奮的,是 NVIDIA 這次主打的「Open by Design(開放設計)」理念。
不同於許多只丟出權重的「偽開源」,NVIDIA 這次直接將 Nemotron 3 Nano Omni 的模型權重、龐大的訓練資料集(包含透過 NeMo Data Designer 生成的合成數據),以及高價值的「微調配方(如 SFT、強化學習 RL、LoRA、GRPO 等)」全數公開。目前該模型已可於 Hugging Face 平台下載,並同步上線 NVIDIA NIM 微服務。
NVIDIA 在公告中強調,這項突破並非只為了刷基準測試的分數,而是針對「真實代理工作負載」所做的實質升級。未來,無論是金融、醫療分析,或是媒體娛樂領域,開發者都能利用 Nemotron 3 Nano Omni,搭配更大型的超級模型(如 Nemotron 3 Ultra),組建出真正強大、模組化且具備極致感知的 AI 企業代理系統。

📍相關報導📍
Google 推第八代 TPU:兩款 AI 晶片分攻訓練與推論,挑戰 Nvidia 痛點
