蓋世汽車獲悉 日前,小米汽車正式推出Xiaomi Auto World Model全新框架,將三維重建與視頻生成進行深度耦合。與傳統(tǒng)“重建+生成”簡單串聯(lián)的路徑不同,該框架讓兩者在結(jié)構(gòu)上互相約束:重建側(cè)提供幾何錨點,為生成“打地基”;生成側(cè)補全未觀測區(qū)域,為重建“擴邊界”,共同抑制長時序漂移。
圖片來源:小米汽車技術(shù)
世界模型被視為輔助駕駛的“大腦預(yù)演系統(tǒng)”,能夠基于歷史與當(dāng)前觀測,預(yù)測環(huán)境下一步演化,幫助車輛應(yīng)對暴雨、落石、逆行等低概率高危場景。此前行業(yè)兩條主流路線——重建(高保真但缺乏想象)與生成(能預(yù)測但易漂移)——各自存在短板。小米的一體化架構(gòu)嘗試將兩者優(yōu)勢融合。
在技術(shù)實現(xiàn)上,重建模塊WorldRec采用稀疏三維錨點表征,替代傳統(tǒng)逐像素稠密高斯方法,通過多視角多時刻特征聚合與可見性加權(quán)融合,實現(xiàn)10秒視頻重建僅需10秒。生成模塊WorldGen經(jīng)兩階段訓(xùn)練(全雙向時序注意力預(yù)訓(xùn)練+因果微調(diào)與蒸餾加速),僅需4步去噪、0.19秒生成一幀,支持最長1分鐘視頻,可模擬罕見動物闖入、極端天氣等長尾場景。
據(jù)小米公布,該框架在Waymo、nuScenes等主流基準(zhǔn)測試中全面取得SOTA。其中WorldRec在Waymo數(shù)據(jù)集上PSNR達(dá)28.48,超出此前最佳方法;WorldGen在nuScenes上FVD達(dá)64.97,單視角生成速度較同類自回歸方法快約5.6倍。
目前該框架已在小米汽車三大場景落地:合成數(shù)據(jù)生成(已交付超10萬clips用于感知模型訓(xùn)練)、仿真測試(閉環(huán)復(fù)現(xiàn)真實事故)、輔助駕駛學(xué)堂(已上線全車型實景模擬功能)。
來源:第一電動網(wǎng)
作者:蓋世汽車
本文地址:http://www.cbbreul.com/news/shichang/300523
以上內(nèi)容轉(zhuǎn)載自蓋世汽車,目的在于傳播更多信息,如有侵僅請聯(lián)系admin#d1ev.com(#替換成@)刪除,轉(zhuǎn)載內(nèi)容并不代表第一電動網(wǎng)(www.cbbreul.com)立場。
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。