快訊

宇樹(shù)開(kāi)源UnifoLM-VLA-0大模型，12類(lèi)復(fù)雜操作任務(wù)一網(wǎng)打盡

第一電動(dòng)AI同學(xué) 2026-01-29 21:08

今日，宇樹(shù)科技宣布開(kāi)源UnifoLM-VLA-0大模型，這是UnifoLM系列中面向通用人形機(jī)器人操作的視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型。該模型通過(guò)在機(jī)器人操作數(shù)據(jù)上的預(yù)訓(xùn)練，實(shí)現(xiàn)了從圖文理解到具備物理常識(shí)的“具身大腦”的進(jìn)化。它通過(guò)深度融合文本指令與2D/3D空間細(xì)節(jié)，增強(qiáng)了空間感知能力，并構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù)，提升了任務(wù)泛化性。在真機(jī)驗(yàn)證中，該模型僅需單一策略即可高質(zhì)量完成12類(lèi)復(fù)雜的操作任務(wù)。

基于Qwen2.5-VL-7B開(kāi)源模型，宇樹(shù)構(gòu)建了覆蓋機(jī)器人與通用場(chǎng)景的多任務(wù)數(shù)據(jù)集，并開(kāi)展持續(xù)預(yù)訓(xùn)練。數(shù)據(jù)集包括2D檢測(cè)與分割、任務(wù)層級(jí)分解、3D目標(biāo)檢測(cè)等多維數(shù)據(jù)，有效提升了模型對(duì)幾何空間與語(yǔ)義邏輯的對(duì)齊能力。針對(duì)操作類(lèi)任務(wù)，宇樹(shù)對(duì)開(kāi)源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗，利用約340小時(shí)的真機(jī)數(shù)據(jù)進(jìn)行離散動(dòng)作的預(yù)測(cè)訓(xùn)練。模型集成了動(dòng)作分塊預(yù)測(cè)及動(dòng)力學(xué)約束，實(shí)現(xiàn)對(duì)動(dòng)作序列的統(tǒng)一建模，支持長(zhǎng)時(shí)序動(dòng)作規(guī)劃與決策。

在UnifoLM-VLM-0模型的基礎(chǔ)上，宇樹(shù)集成了動(dòng)作預(yù)測(cè)頭(ActionHead)，構(gòu)建出UnifoLM-VLA-0。經(jīng)過(guò)仿真環(huán)境與真機(jī)實(shí)驗(yàn)的多任務(wù)訓(xùn)練驗(yàn)證，該模型展現(xiàn)了單模型處理多任務(wù)的通用能力，在LIBERO仿真基準(zhǔn)測(cè)試中取得了接近最優(yōu)的性能。在宇樹(shù)G1人形機(jī)器人平臺(tái)上，基于高質(zhì)量真機(jī)數(shù)據(jù)集對(duì)UnifoLM-VLA-0進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練，實(shí)驗(yàn)結(jié)果表明，該模型能夠穩(wěn)定完成全部12項(xiàng)任務(wù)，在外部擾動(dòng)條件下保持良好的執(zhí)行魯棒性與抗干擾能力。

來(lái)源：一電快訊

返回第一電動(dòng)網(wǎng)首頁(yè) >

以上內(nèi)容由AI創(chuàng)作，如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通，AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)（www.cbbreul.com）立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作，如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。