NVIDIA 推出全新開源多模態大模型「Nemotron 3 Nano Omni」！影音圖文通吃，專攻 Agent 應用

輝達（NVIDIA）再放猛藥！今（28）日宣布推出全新開源多模態大模型「Nemotron 3 Nano Omni」。這款模型打破了傳統 AI 依賴多個破碎模型串聯的痛點，能在「單一模型」內高效且統一地處理視訊、音訊、影像與文字。輝達更霸氣宣布「徹底開源」，不僅在 Hugging Face 釋出權重，連訓練資料集與配方也全數公開，全面進攻代理式 AI（Agentic AI）的底層基礎設施市場。
（前情提要：快訊》NVIDIA 輝達盤中創歷史新高「衝破 212.6 美元」！市值達 5.17 兆美元重登全球第一）
（背景補充：黃仁勳發全員信擁抱 OpenAI Codex：1 萬多名 NVIDIA 員工已上手，GPT-5.5 跑在 GB200 上）

本文目錄

AI 代理（AI Agents）的發展正迎來架構上的大換血，而推動這場變革的正是算力霸主輝達（NVIDIA）。

NVIDIA 於 28 日正式對外發表了 Nemotron 3 家族的最新成員 ——「Nemotron 3 Nano Omni」。正如其名「Omni（全能/多模態）」，這是一款極致高效、開放且能夠在單一模型中統一處理視訊、音訊、影像和文字的強大武器，專為下一代代理式 AI（Agentic AI）所打造。

解決「碎片化」痛點，單一迴路搞定多模態

在過去，當企業想要開發一個能看懂文件、聽懂語音又會看影片的 AI 代理時，往往需要依賴一條「破碎的模型鏈」—— 也就是把獨立的視覺模型、音訊模型與文字模型硬湊在一起。

這種做法不僅會導致協調複雜度極高、推理成本昂貴，更致命的是，跨模態的「上下文」很容易在傳遞過程中流失或產生幻覺。Nemotron 3 Nano Omni 的誕生，就是為了將這些繁雜的處理過程收斂到一個「單一的高效開放模型」中。作為系統中的多模態感知子代理（sub-agent），它能讓 AI 在單一的「感知-動作迴路」中無縫處理多模態輸入，大幅改善收斂性並降低企業成本。

30B 混合專家架構：視訊推理效能飆升 9.2 倍

在硬體與底層架構的最佳化上，NVIDIA 展現了其統治級的實力：

Hybrid MoE 架構：該模型擁有 300 億（30B）總參數，並採用混合專家架構（MoE），使得實際推理時的「激活參數」僅約 30 億（3B），兼顧了頂級性能與極致的運算效率。底層更是巧妙結合了 Mamba（專攻序列與記憶效率）與 Transformer（專攻精準推理）的雙重優勢。
效能輾壓：在多項基準測試（如 MMLongbench-Doc、WorldSense 等）中，Nano Omni 展現了領先群雄的實力。相較於其他開放的多模態模型，在相同的互動性閾值下，其「視訊推理」的系統容量提升高達 9.2 倍，多文件推理能力也提升了 7.4 倍。
為 Blackwell 而生：該模型完美支援 NVIDIA 最新的 Blackwell GPU 以及 NVFP4 量化技術，並支援高達 262K 的超長上下文窗口，專為企業級的長時序視訊處理與複雜文件推理量身訂做。

徹底開源：連「訓練資料集與配方」都不藏私

最讓開發者社群振奮的，是 NVIDIA 這次主打的「Open by Design（開放設計）」理念。

不同於許多只丟出權重的「偽開源」，NVIDIA 這次直接將 Nemotron 3 Nano Omni 的模型權重、龐大的訓練資料集（包含透過 NeMo Data Designer 生成的合成數據），以及高價值的「微調配方（如 SFT、強化學習 RL、LoRA、GRPO 等）」全數公開。目前該模型已可於 Hugging Face 平台下載，並同步上線 NVIDIA NIM 微服務。

NVIDIA 在公告中強調，這項突破並非只為了刷基準測試的分數，而是針對「真實代理工作負載」所做的實質升級。未來，無論是金融、醫療分析，或是媒體娛樂領域，開發者都能利用 Nemotron 3 Nano Omni，搭配更大型的超級模型（如 Nemotron 3 Ultra），組建出真正強大、模組化且具備極致感知的 AI 企業代理系統。

兩個200億美元：OpenAI和Nvidia在打「推理戰爭」

黃仁勳最新訪談：為什麼NVIDIA強大不死？

Tags: Agentic AI AI Blackwell Nemotron Nvidia OMNI 多模態大模型輝達開源

NVIDIA 推出全新開源多模態大模型「Nemotron 3 Nano Omni」！影音圖文通吃，專攻 Agent 應用

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類

NVIDIA 推出全新開源多模態大模型「Nemotron 3 Nano Omni」！影音圖文通吃，專攻 Agent 應用

解決「碎片化」痛點，單一迴路搞定多模態

30B 混合專家架構：視訊推理效能飆升 9.2 倍

徹底開源：連「訓練資料集與配方」都不藏私

📍相關報導📍

關於我們

動區動趨

訂閱我們的最新消息

戰略夥伴

主題分類