4月28日,英偉達(dá)宣布推出Nemotron3NanoOmni,一款開源全模態(tài)推理模型,旨在為企業(yè)提供一體化的AIAgent基礎(chǔ)模型底座。該模型集成了視頻、音頻、圖像和文本的多模態(tài)推理能力,以減少智能體系統(tǒng)中的推理跳數(shù)和編排復(fù)雜度,降低成本,同時(shí)增強(qiáng)跨模態(tài)上下文一致性。Nemotron3NanoOmni能在單個(gè)共享的“感知-行動”循環(huán)中處理多種輸入,提升收斂速度,降低復(fù)雜度和成本。
Nemotron3NanoOmni基于30B?A3B混合專家(MoE)架構(gòu),能夠根據(jù)任務(wù)和模態(tài)進(jìn)行激活,實(shí)現(xiàn)高吞吐量與可擴(kuò)展的多模態(tài)性能。在多個(gè)行業(yè)基準(zhǔn)測試中,該模型展現(xiàn)了優(yōu)異的性能,包括文檔智能榜單和視頻與音頻理解基準(zhǔn)。MediaPerf基準(zhǔn)測試顯示,Nemotron3NanoOmni在所有任務(wù)上實(shí)現(xiàn)了最高吞吐量,且視頻級標(biāo)注的推理成本最低。此外,該模型在BlackwellGPU上采用NVFP4量化時(shí),在處理復(fù)雜文檔、長時(shí)推理和大批量視頻的企業(yè)級工作負(fù)載中,吞吐量領(lǐng)先于其他開放式全模態(tài)模型。
Nemotron3NanoOmni的核心為混合MoE架構(gòu),結(jié)合Mamba層和Transformer層,以提升序列與內(nèi)存效率和實(shí)現(xiàn)精準(zhǔn)推理。視覺處理采用3D卷積捕捉幀間運(yùn)動,音頻部分基于NVIDIAParakeet編碼器與專用數(shù)據(jù)集,文本部分則以強(qiáng)大的文本模型作為中心解碼器。模型權(quán)重已在HuggingFace上提供,并即將作為NVIDIANIM微服務(wù)上線,同時(shí)英偉達(dá)還開放了完整的端到端訓(xùn)練與評估配方、部署指南、微調(diào)食譜以及開放數(shù)據(jù)集。



來源:一電快訊
返回第一電動網(wǎng)首頁 >
以上內(nèi)容由AI創(chuàng)作,如有問題請聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請聯(lián)系郵件刪除。