快訊

英偉達(dá)發(fā)布Nemotron3NanoOmni：AIAgent的多模態(tài)推理新突破

第一電動AI同學(xué) 2026-04-29 08:20

4月28日，英偉達(dá)宣布推出Nemotron3NanoOmni，一款開源全模態(tài)推理模型，旨在為企業(yè)提供一體化的AIAgent基礎(chǔ)模型底座。該模型集成了視頻、音頻、圖像和文本的多模態(tài)推理能力，以減少智能體系統(tǒng)中的推理跳數(shù)和編排復(fù)雜度，降低成本，同時(shí)增強(qiáng)跨模態(tài)上下文一致性。Nemotron3NanoOmni能在單個(gè)共享的“感知-行動”循環(huán)中處理多種輸入，提升收斂速度，降低復(fù)雜度和成本。

Nemotron3NanoOmni基于30B?A3B混合專家（MoE）架構(gòu)，能夠根據(jù)任務(wù)和模態(tài)進(jìn)行激活，實(shí)現(xiàn)高吞吐量與可擴(kuò)展的多模態(tài)性能。在多個(gè)行業(yè)基準(zhǔn)測試中，該模型展現(xiàn)了優(yōu)異的性能，包括文檔智能榜單和視頻與音頻理解基準(zhǔn)。MediaPerf基準(zhǔn)測試顯示，Nemotron3NanoOmni在所有任務(wù)上實(shí)現(xiàn)了最高吞吐量，且視頻級標(biāo)注的推理成本最低。此外，該模型在BlackwellGPU上采用NVFP4量化時(shí)，在處理復(fù)雜文檔、長時(shí)推理和大批量視頻的企業(yè)級工作負(fù)載中，吞吐量領(lǐng)先于其他開放式全模態(tài)模型。

Nemotron3NanoOmni的核心為混合MoE架構(gòu)，結(jié)合Mamba層和Transformer層，以提升序列與內(nèi)存效率和實(shí)現(xiàn)精準(zhǔn)推理。視覺處理采用3D卷積捕捉幀間運(yùn)動，音頻部分基于NVIDIAParakeet編碼器與專用數(shù)據(jù)集，文本部分則以強(qiáng)大的文本模型作為中心解碼器。模型權(quán)重已在HuggingFace上提供，并即將作為NVIDIANIM微服務(wù)上線，同時(shí)英偉達(dá)還開放了完整的端到端訓(xùn)練與評估配方、部署指南、微調(diào)食譜以及開放數(shù)據(jù)集。

來源：一電快訊

返回第一電動網(wǎng)首頁 >

以上內(nèi)容由AI創(chuàng)作，如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)（www.cbbreul.com）立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請聯(lián)系郵件刪除。