3月17日,理想汽車發(fā)布了下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1,這不僅僅是一個(gè)自動(dòng)駕駛模型,也是一個(gè)正在逐漸進(jìn)化的物理世界基礎(chǔ)模型。那么,它相比上一代有哪些變化?與小鵬VLA2.0又有什么不同?
理想智駕技術(shù)架構(gòu)的演進(jìn)
在2023年之前,行業(yè)主流的智駕系統(tǒng)基本都是基于規(guī)則的系統(tǒng)架構(gòu),在這一階段包括兩類方案:一類是Map-Lite輕圖方案,另一類是Mapless無圖方案。輕圖方案快速實(shí)現(xiàn)了智駕可用區(qū)域的擴(kuò)展,從輕圖到無圖,先驗(yàn)信息完全去除,感知能力實(shí)現(xiàn)了統(tǒng)一,形成了兩段式的架構(gòu),但中間依然加入了很多人類的先驗(yàn)策略。很多智駕方案的城市NOA量產(chǎn)系統(tǒng)都是在這樣的架構(gòu)基礎(chǔ)上不斷迭代和泛化。

而2024年開始,理想汽車在中國率先量產(chǎn)了端到端+VLM智駕雙系統(tǒng)架構(gòu),在這一架構(gòu)中,理想汽車是用一段式端到端模型來完成駕駛決策。同時(shí),結(jié)合VLM語義理解,讓系統(tǒng)能夠更好的理解復(fù)雜場(chǎng)景和語義信息,而這一步是智駕系統(tǒng)第一次真正具備了跨場(chǎng)景、跨任務(wù)的理解能力。
從端到端+VLM到VLA的架構(gòu)變化
到了2025年,理想汽車進(jìn)一步將端到端模型與VLM進(jìn)行了深度融合,形成了VLA智駕系統(tǒng)。在這個(gè)VLA系統(tǒng)中,語義理解、語言交互、邏輯推理以及駕駛決策被統(tǒng)一整合到了一個(gè)新的模型框架中。在訓(xùn)練方法上,VLA從傳統(tǒng)的模仿學(xué)習(xí)逐步引入了強(qiáng)化學(xué)習(xí),讓模型在仿真環(huán)境中持續(xù)訓(xùn)練,能夠不斷的提升自我優(yōu)化和泛化。

在2024年量產(chǎn)的系統(tǒng)中,理想汽車采用了端到端+VLM雙系統(tǒng)架構(gòu),在這個(gè)架構(gòu)中端到端模型負(fù)責(zé)快速駕駛決策,VLM模型負(fù)責(zé)更高層次的語義理解和推理,兩者通過接口進(jìn)行協(xié)作,通常把這種模式理解為快思考和慢思考的組合系統(tǒng)。
但是這種雙系統(tǒng)架構(gòu)存在著一些問題:空間理解、語言理解和行為決策仍然在不同的模型中進(jìn)行交互和對(duì)齊。
因此,從2025年開始,理想汽車將這些能力統(tǒng)一到了同一個(gè)模型框架中——VLA模型。
在VLA的架構(gòu)下,視覺信息首先被編碼成了一個(gè)3D空間的token,語言理解由大模型進(jìn)行推理,最終由統(tǒng)一的Action Policy(行動(dòng)決策)生成駕駛軌跡。也就是說,空間理解、語言理解和行為決策被統(tǒng)一到了同一個(gè)模型的不同模塊中。在系統(tǒng)架構(gòu)的角度來看,這意味著智駕系統(tǒng)引入了語言思考的部分。而引入語言思考后帶來了三個(gè)非常關(guān)鍵的問題。
第一個(gè)是3D空間、語言思考和行為之間存在對(duì)齊效率不夠理想的問題。
在智駕系統(tǒng)中,模型需要同時(shí)完成三件事情,理解3D空間、進(jìn)行語音層面的思考和推理、輸出具體的駕駛行為軌跡。如何讓這三個(gè)過程在同一個(gè)隱空間中高效對(duì)齊,是一件非常困難的事。
如果對(duì)齊的不夠好,就會(huì)出現(xiàn)兩類問題:第一,語義理解和行為出現(xiàn)了偏差。模型能夠理解場(chǎng)景,但最后生成的軌跡并不符合預(yù)期。第二,決策延遲。視覺、語言、行動(dòng)之間的傳遞鏈路過長,導(dǎo)致反應(yīng)速度下降。
比如,當(dāng)車輛前方出現(xiàn)了一個(gè)行駛較慢的車輛時(shí),系統(tǒng)不僅需要理解這個(gè)場(chǎng)景,還要快速推理,是立即變道,還是持續(xù)跟隨,而且變道的時(shí)候,速度應(yīng)該如何控制?如果空間理解、語言推理和行為決策的對(duì)齊效率不夠高,最后生成的軌跡可能就并不是最優(yōu)的。因此需要提升3D空間理解能力,讓語義和行為之間對(duì)齊精度和整體推理效率提升。
第二個(gè)是長尾場(chǎng)景的問題,在智駕中很多關(guān)鍵問題都來自極少發(fā)生的長尾場(chǎng)景,僅僅依靠真實(shí)數(shù)據(jù)的規(guī)模擴(kuò)展,很難覆蓋這些場(chǎng)景,需要結(jié)合合成數(shù)據(jù),還有強(qiáng)化學(xué)習(xí)。通過仿真環(huán)境進(jìn)行大規(guī)模的訓(xùn)練,才能讓系統(tǒng)真正具備泛化能力和魯棒性。
第三個(gè)是計(jì)算效率和系統(tǒng)成本問題。VLA模型往往包含大規(guī)模的語言能力,這會(huì)帶來非常高的計(jì)算和內(nèi)存開銷。在車端系統(tǒng)中,如何在有限的計(jì)算資源下運(yùn)行VLA,是非?,F(xiàn)實(shí)的問題。理想汽車認(rèn)為,未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計(jì)。通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力,才能讓VLA真正在車端規(guī)模化落地。
因此,為了解決這些問題,理想汽車提出了下一代統(tǒng)一架構(gòu)MindVLA-o1。MindVLA-o1是一個(gè)統(tǒng)一范式的VLA架構(gòu)模型。它圍繞著5個(gè)核心的設(shè)計(jì)原則來構(gòu)建。

第一,它具備原生多模態(tài)的MoE Transformer架構(gòu)。MindVLA-o1是一個(gè)原生多模態(tài)的Transformer。所謂原生多模態(tài)指的是模型設(shè)計(jì)之初,就統(tǒng)一將視覺、語言、行動(dòng)三種模態(tài)進(jìn)行訓(xùn)練,而不是像傳統(tǒng)的模型一樣,分別進(jìn)行不同模態(tài)的訓(xùn)練,再在后期進(jìn)行組合,這種設(shè)計(jì)可以讓模態(tài)在同一個(gè)表示空間中共同訓(xùn)練和對(duì)齊,從而獲得更高的效率和更強(qiáng)的泛化能力。
第二,原生3D的視覺tokenizer。這個(gè)設(shè)計(jì)的關(guān)鍵是3D視覺的空間編碼能力,引入了3DViT Encoder,用于對(duì)真實(shí)世界三維結(jié)構(gòu)進(jìn)行直接建模。與傳統(tǒng)方法不同,它并不是簡(jiǎn)單的將2D圖像和3D信息進(jìn)行拼接,而是在編碼階段之間構(gòu)建3D的空間表示,這使得模型能夠更加自然的理解真實(shí)的物理世界的空間結(jié)構(gòu)。
第三,多模態(tài)的推理能力。除了視覺之外,依然保留了語言能力。語言模型在系統(tǒng)中承擔(dān)了幾個(gè)關(guān)鍵的角色,語義理解、常識(shí)知識(shí)、交互能力。同時(shí)在模型中引入了“系統(tǒng)2”的顯示推理能力,使模型在復(fù)雜的場(chǎng)景中進(jìn)行更深層次的決策分析。
第四,隱式世界模型。通過Predictive Latent Word Model這個(gè)模塊,模型可以對(duì)未來的環(huán)境狀態(tài)進(jìn)行預(yù)測(cè)。也就是模型不僅僅能理解當(dāng)前環(huán)境,還能在隱空間中模擬未來發(fā)生的可能情況,這個(gè)能力對(duì)于自動(dòng)駕駛的決策非常關(guān)鍵。
第五,軟硬件協(xié)同設(shè)計(jì)和強(qiáng)化學(xué)習(xí)的閉環(huán)能力。在架構(gòu)設(shè)計(jì)之初,進(jìn)行了軟硬件協(xié)同的設(shè)計(jì),使得模型在車端計(jì)算資源下高效運(yùn)行。
同時(shí),整個(gè)系統(tǒng)采用了統(tǒng)一的MoE架構(gòu),非常適合閉環(huán)強(qiáng)化學(xué)習(xí)的訓(xùn)練。通過強(qiáng)化學(xué)習(xí),模型可以在訓(xùn)練中不斷優(yōu)化策略,持續(xù)提升方法能力。
MindVLA-o1系統(tǒng)是如何看的?

在自動(dòng)駕駛中一個(gè)核心的問題是系統(tǒng)必須真正的理解三維物理世界,而不僅僅是2D圖像。因此,MindVLA-o1系統(tǒng)設(shè)計(jì)了一個(gè)自監(jiān)督的3DViT Encoder(3D視覺編碼器)。
在訓(xùn)練過程中,同時(shí)利用視覺和激光雷達(dá)的數(shù)據(jù),這兩種模態(tài)天然具備空間的對(duì)齊關(guān)系。激光雷達(dá)提供了準(zhǔn)確的三維幾何信息,視覺提供了豐富的語義信息。然后通過自監(jiān)督訓(xùn)練,模型可以在同一個(gè)表示空間中同時(shí)學(xué)習(xí)幾何結(jié)構(gòu)和語義信息。
而且在訓(xùn)練中引入了前饋的3DGS表示,在這個(gè)框架中,將場(chǎng)景分為了兩個(gè)部分:靜態(tài)環(huán)境用穩(wěn)定的3DGS進(jìn)行建模,動(dòng)態(tài)環(huán)境單獨(dú)建模其運(yùn)動(dòng)狀態(tài)。這樣模型不僅能夠理解當(dāng)前場(chǎng)景,還能預(yù)測(cè)未來的狀態(tài)變化。在這個(gè)訓(xùn)練過程中,還使用了下一幀預(yù)測(cè)作為自監(jiān)督的信號(hào),同時(shí)也學(xué)習(xí)了深度信息、語義結(jié)構(gòu)與物體運(yùn)動(dòng)等等。
MindVLA-o1系統(tǒng)是如何思考的?

在很多復(fù)雜的駕駛場(chǎng)景中,自動(dòng)駕駛不僅需要理解當(dāng)前環(huán)境,還需要預(yù)測(cè)未來可能發(fā)生的事情。人類在做決策時(shí)其實(shí)也是這樣,當(dāng)我們看到一個(gè)場(chǎng)景時(shí),大腦不僅會(huì)理解當(dāng)前的畫面,還會(huì)在腦海中想象未來可能發(fā)生的情況。
比如,當(dāng)我們看到右側(cè)有一輛車準(zhǔn)備并線時(shí),系統(tǒng)需要進(jìn)行推理,這個(gè)車是否會(huì)切入當(dāng)前的車道。如果它真的并線了,我們應(yīng)該如何避讓?是減速、是剎車還是向左變道。
而為了做出更好的決策,系統(tǒng)必須能夠預(yù)判未來幾秒的場(chǎng)景變化。為了讓模型具備這種能力,MindVLA-o1系統(tǒng)引入了預(yù)測(cè)式的隱式世界模型。它的核心思想是讓模型在隱空間中模擬未來。如果直接生成未來真實(shí)的圖像,計(jì)算成本會(huì)非常高。
首先會(huì)把當(dāng)前的視覺輸入編碼成一組latent tokens,作為當(dāng)前場(chǎng)景的一個(gè)緊湊的表征,然后Word model會(huì)基于這些token預(yù)測(cè)未來的latent狀態(tài)。通過這種方式,模型可以在隱空間中高效的模擬未來場(chǎng)景的演化過程。
MindVLA-o1系統(tǒng)是如何生成駕駛軌跡的?

MindVLA-o1設(shè)計(jì)了Unified Action Generation模塊。這個(gè)模塊的核心部分,是使用了VLA-MoE架構(gòu),不同于傳統(tǒng)的通用語言模型的MoE,它引入了專門負(fù)責(zé)行動(dòng)的Action Expert, 這些動(dòng)作專家會(huì)從多個(gè)輸入中提取關(guān)鍵信息,比如3D場(chǎng)景的特征、導(dǎo)航目標(biāo)、駕駛指令,以及前面提到的多模態(tài)的推理思考,將其整合專注于生成高精度的駕駛軌跡。可以把它理解為在這些系統(tǒng)中,有一組經(jīng)驗(yàn)豐富的駕駛專家,專門負(fù)責(zé)把復(fù)雜的認(rèn)知轉(zhuǎn)化成具體的行動(dòng)。
為了滿足智駕的實(shí)時(shí)性要求,理想汽車沒有采用傳統(tǒng)的自回歸的生成方式。傳統(tǒng)模型需要一個(gè)一個(gè)點(diǎn)的生成軌跡,而是采用了Parallel Decoding,也就是說所有軌跡點(diǎn)可以同時(shí)并行生成,大幅提升了軌跡的生成效率,尤其是在長時(shí)距的軌跡預(yù)測(cè)時(shí)。
那么并行生成軌跡如何保證質(zhì)量呢?為此理想汽車還引入了Discrete Diffusion的優(yōu)化方案,模型會(huì)通過N步的迭代,不斷對(duì)軌跡進(jìn)行refine(改進(jìn)),這有點(diǎn)類似于逐步去噪的過程。
最終,理想汽車得到的軌跡在空間上連續(xù)、在時(shí)間上穩(wěn)定,同時(shí)也能滿足車輛動(dòng)力約術(shù)。因此,這一套軌跡生成的機(jī)制可以總結(jié)為三點(diǎn),MoE保證了生成的專業(yè)性,Parallel保證了生成的速度,Diffusion保證了生成的軌跡精度。
MindVLA-o1系統(tǒng)是如何進(jìn)行持續(xù)進(jìn)化的?

在傳統(tǒng)的自動(dòng)駕駛系統(tǒng)中,模型主要依賴于模仿學(xué)習(xí)。從人類的駕駛數(shù)據(jù)中持續(xù)學(xué)習(xí),但這樣的過程有一個(gè)明顯的限制,模型只能在已經(jīng)存在的數(shù)據(jù)中探索,而魯棒性大大降低。為了突破這一點(diǎn),理想汽車構(gòu)建了一個(gè)閉環(huán)強(qiáng)化學(xué)習(xí)的框架。在這個(gè)框架中,模型不僅可以從真實(shí)數(shù)據(jù)中學(xué)習(xí),還可以在Word Simulator中不斷探索和優(yōu)化。也就是說,系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略,根據(jù)反饋進(jìn)行策略更新。
MindVLA-o1與小鵬VLA2.0又有什么不同?
小鵬VLA 2.0:去語言層、純端到端物理世界大模型,視覺→隱式表征→連續(xù)動(dòng)作,完全拋棄顯式語言轉(zhuǎn)譯,視覺直接生成駕駛動(dòng)作。而理想MindVLA-o1:保留語言層,視覺→語言理解→動(dòng)作,但將視覺、語言、行動(dòng)三種模態(tài)統(tǒng)一進(jìn)行訓(xùn)練,而不是像傳統(tǒng)的模型一樣,分別進(jìn)行不同模態(tài)的訓(xùn)練,在后期再進(jìn)行組合,這種設(shè)計(jì)可以讓模態(tài)在同一個(gè)表示空間中共同訓(xùn)練和對(duì)齊。這是本質(zhì)的區(qū)別。
在決策方式上,小鵬VLA 2.0靠物理世界因果推理,直接輸出方向盤、油門、剎車連續(xù)控制,動(dòng)作絲滑、無頓挫。而理想MindVLA-o1靠視覺和語言對(duì)齊后并行決策,更穩(wěn)定。
來源:第一電動(dòng)網(wǎng)
作者:張芳超
本文地址:http://www.cbbreul.com/carnews/xinche/291977
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com(#替換成@)刪除。