NVIDIA Nemotron™ 3 Nano Omniは、エンタープライズエージェントシステムにおいて認識およびコンテキスト把握を行うサブエージェントとして設計された、30B-A3Bのオープンマルチモーダルモデルです。テキスト、画像、動画、音声の入力を受け取り、テキストを出力することで、単一の推論ループ内で複数のモダリティを横断した認識と推論を可能にします。ハイブリッドなMoE Transformer-MambaアーキテクチャにConv3Dビデオレイヤーと効率的なビデオサンプリング(EVS)を組み合わせることで、従来の視覚・音声パイプラインを個別に処理する場合と比較して、動画推論におけるスループットを約2倍に向上させ、計算コストを2.5倍削減しました。最大300Kのコンテキスト長と16,384の推論予算をサポートし、推論を通じた拡張思考機能も備えています。
ビジョン深い思考|商用モデル
AI性能評価
総合
AA Intelligence Index
21%↓18%
推論·数学
GPQA Diamond
47%↓35%
HLE
5.3%↓12%
コーディング
AA Coding Index
15%↓22%
TAU2
45%↓35%
TerminalBench
8.3%↓26%
SciCode
28%↓14%
言語·指示
IFBench
63%↑0%
AA-LCR
36%↓26%
出力速度
標準モード
312tok/s↑235
出力開始 6.96s