今日,宇樹(shù)科技宣布開(kāi)源UnifoLM-VLA-0大模型,這是UnifoLM系列中面向通用人形機(jī)器人操作的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型。該模型通過(guò)在機(jī)器人操作數(shù)據(jù)上的預(yù)訓(xùn)練,實(shí)現(xiàn)了從圖文理解到具備物理常識(shí)的“具身大腦”的進(jìn)化。它通過(guò)深度融合文本指令與2D/3D空間細(xì)節(jié),增強(qiáng)了空間感知能力,并構(gòu)建了全鏈路動(dòng)力學(xué)預(yù)測(cè)數(shù)據(jù),提升了任務(wù)泛化性。在真機(jī)驗(yàn)證中,該模型僅需單一策略即可高質(zhì)量完成12類(lèi)復(fù)雜的操作任務(wù)。
基于Qwen2.5-VL-7B開(kāi)源模型,宇樹(shù)構(gòu)建了覆蓋機(jī)器人與通用場(chǎng)景的多任務(wù)數(shù)據(jù)集,并開(kāi)展持續(xù)預(yù)訓(xùn)練。數(shù)據(jù)集包括2D檢測(cè)與分割、任務(wù)層級(jí)分解、3D目標(biāo)檢測(cè)等多維數(shù)據(jù),有效提升了模型對(duì)幾何空間與語(yǔ)義邏輯的對(duì)齊能力。針對(duì)操作類(lèi)任務(wù),宇樹(shù)對(duì)開(kāi)源數(shù)據(jù)集進(jìn)行了系統(tǒng)化清洗,利用約340小時(shí)的真機(jī)數(shù)據(jù)進(jìn)行離散動(dòng)作的預(yù)測(cè)訓(xùn)練。模型集成了動(dòng)作分塊預(yù)測(cè)及動(dòng)力學(xué)約束,實(shí)現(xiàn)對(duì)動(dòng)作序列的統(tǒng)一建模,支持長(zhǎng)時(shí)序動(dòng)作規(guī)劃與決策。
在UnifoLM-VLM-0模型的基礎(chǔ)上,宇樹(shù)集成了動(dòng)作預(yù)測(cè)頭(ActionHead),構(gòu)建出UnifoLM-VLA-0。經(jīng)過(guò)仿真環(huán)境與真機(jī)實(shí)驗(yàn)的多任務(wù)訓(xùn)練驗(yàn)證,該模型展現(xiàn)了單模型處理多任務(wù)的通用能力,在LIBERO仿真基準(zhǔn)測(cè)試中取得了接近最優(yōu)的性能。在宇樹(shù)G1人形機(jī)器人平臺(tái)上,基于高質(zhì)量真機(jī)數(shù)據(jù)集對(duì)UnifoLM-VLA-0進(jìn)行單一策略網(wǎng)絡(luò)的統(tǒng)一端到端訓(xùn)練,實(shí)驗(yàn)結(jié)果表明,該模型能夠穩(wěn)定完成全部12項(xiàng)任務(wù),在外部擾動(dòng)條件下保持良好的執(zhí)行魯棒性與抗干擾能力。



來(lái)源:一電快訊
返回第一電動(dòng)網(wǎng)首頁(yè) >
以上內(nèi)容由AI創(chuàng)作,如有問(wèn)題請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)溝通,AI創(chuàng)作內(nèi)容并不代表第一電動(dòng)網(wǎng)(www.cbbreul.com)立場(chǎng)。
文中圖片源自互聯(lián)網(wǎng)或AI創(chuàng)作,如有侵權(quán)請(qǐng)聯(lián)系郵件刪除。