新車新車上市

理想MindVLA-o1基礎(chǔ)模型相比上一代有哪些變化，與小鵬VLA 2.0有什么不同？

第一電動(dòng)張芳超 2026-03-18 19:46

3月17日，理想汽車發(fā)布了下一代自動(dòng)駕駛基礎(chǔ)模型MindVLA-o1，這不僅僅是一個(gè)自動(dòng)駕駛模型，也是一個(gè)正在逐漸進(jìn)化的物理世界基礎(chǔ)模型。那么，它相比上一代有哪些變化？與小鵬VLA2.0又有什么不同？

理想智駕技術(shù)架構(gòu)的演進(jìn)

在2023年之前，行業(yè)主流的智駕系統(tǒng)基本都是基于規(guī)則的系統(tǒng)架構(gòu)，在這一階段包括兩類方案：一類是Map-Lite輕圖方案，另一類是Mapless無圖方案。輕圖方案快速實(shí)現(xiàn)了智駕可用區(qū)域的擴(kuò)展，從輕圖到無圖，先驗(yàn)信息完全去除，感知能力實(shí)現(xiàn)了統(tǒng)一，形成了兩段式的架構(gòu)，但中間依然加入了很多人類的先驗(yàn)策略。很多智駕方案的城市NOA量產(chǎn)系統(tǒng)都是在這樣的架構(gòu)基礎(chǔ)上不斷迭代和泛化。

圖片.png

而2024年開始，理想汽車在中國率先量產(chǎn)了端到端+VLM智駕雙系統(tǒng)架構(gòu)，在這一架構(gòu)中，理想汽車是用一段式端到端模型來完成駕駛決策。同時(shí)，結(jié)合VLM語義理解，讓系統(tǒng)能夠更好的理解復(fù)雜場(chǎng)景和語義信息，而這一步是智駕系統(tǒng)第一次真正具備了跨場(chǎng)景、跨任務(wù)的理解能力。

從端到端+VLM到VLA的架構(gòu)變化

到了2025年，理想汽車進(jìn)一步將端到端模型與VLM進(jìn)行了深度融合，形成了VLA智駕系統(tǒng)。在這個(gè)VLA系統(tǒng)中，語義理解、語言交互、邏輯推理以及駕駛決策被統(tǒng)一整合到了一個(gè)新的模型框架中。在訓(xùn)練方法上，VLA從傳統(tǒng)的模仿學(xué)習(xí)逐步引入了強(qiáng)化學(xué)習(xí)，讓模型在仿真環(huán)境中持續(xù)訓(xùn)練，能夠不斷的提升自我優(yōu)化和泛化。

圖片.png

在2024年量產(chǎn)的系統(tǒng)中，理想汽車采用了端到端+VLM雙系統(tǒng)架構(gòu)，在這個(gè)架構(gòu)中端到端模型負(fù)責(zé)快速駕駛決策，VLM模型負(fù)責(zé)更高層次的語義理解和推理，兩者通過接口進(jìn)行協(xié)作，通常把這種模式理解為快思考和慢思考的組合系統(tǒng)。

但是這種雙系統(tǒng)架構(gòu)存在著一些問題：空間理解、語言理解和行為決策仍然在不同的模型中進(jìn)行交互和對(duì)齊。

因此，從2025年開始，理想汽車將這些能力統(tǒng)一到了同一個(gè)模型框架中——VLA模型。

在VLA的架構(gòu)下，視覺信息首先被編碼成了一個(gè)3D空間的token，語言理解由大模型進(jìn)行推理，最終由統(tǒng)一的Action Policy（行動(dòng)決策）生成駕駛軌跡。也就是說，空間理解、語言理解和行為決策被統(tǒng)一到了同一個(gè)模型的不同模塊中。在系統(tǒng)架構(gòu)的角度來看，這意味著智駕系統(tǒng)引入了語言思考的部分。而引入語言思考后帶來了三個(gè)非常關(guān)鍵的問題。

第一個(gè)是3D空間、語言思考和行為之間存在對(duì)齊效率不夠理想的問題。

在智駕系統(tǒng)中，模型需要同時(shí)完成三件事情，理解3D空間、進(jìn)行語音層面的思考和推理、輸出具體的駕駛行為軌跡。如何讓這三個(gè)過程在同一個(gè)隱空間中高效對(duì)齊，是一件非常困難的事。

如果對(duì)齊的不夠好，就會(huì)出現(xiàn)兩類問題：第一，語義理解和行為出現(xiàn)了偏差。模型能夠理解場(chǎng)景，但最后生成的軌跡并不符合預(yù)期。第二，決策延遲。視覺、語言、行動(dòng)之間的傳遞鏈路過長，導(dǎo)致反應(yīng)速度下降。

比如，當(dāng)車輛前方出現(xiàn)了一個(gè)行駛較慢的車輛時(shí)，系統(tǒng)不僅需要理解這個(gè)場(chǎng)景，還要快速推理，是立即變道，還是持續(xù)跟隨，而且變道的時(shí)候，速度應(yīng)該如何控制？如果空間理解、語言推理和行為決策的對(duì)齊效率不夠高，最后生成的軌跡可能就并不是最優(yōu)的。因此需要提升3D空間理解能力，讓語義和行為之間對(duì)齊精度和整體推理效率提升。

第二個(gè)是長尾場(chǎng)景的問題，在智駕中很多關(guān)鍵問題都來自極少發(fā)生的長尾場(chǎng)景，僅僅依靠真實(shí)數(shù)據(jù)的規(guī)模擴(kuò)展，很難覆蓋這些場(chǎng)景，需要結(jié)合合成數(shù)據(jù)，還有強(qiáng)化學(xué)習(xí)。通過仿真環(huán)境進(jìn)行大規(guī)模的訓(xùn)練，才能讓系統(tǒng)真正具備泛化能力和魯棒性。

第三個(gè)是計(jì)算效率和系統(tǒng)成本問題。VLA模型往往包含大規(guī)模的語言能力，這會(huì)帶來非常高的計(jì)算和內(nèi)存開銷。在車端系統(tǒng)中，如何在有限的計(jì)算資源下運(yùn)行VLA，是非?，F(xiàn)實(shí)的問題。理想汽車認(rèn)為，未來的方向必須是軟硬協(xié)同的架構(gòu)設(shè)計(jì)。通過聯(lián)合優(yōu)化模型架構(gòu)、推理系統(tǒng)以及硬件能力，才能讓VLA真正在車端規(guī)模化落地。

因此，為了解決這些問題，理想汽車提出了下一代統(tǒng)一架構(gòu)MindVLA-o1。MindVLA-o1是一個(gè)統(tǒng)一范式的VLA架構(gòu)模型。它圍繞著5個(gè)核心的設(shè)計(jì)原則來構(gòu)建。

圖片.png

第一，它具備原生多模態(tài)的MoE Transformer架構(gòu)。MindVLA-o1是一個(gè)原生多模態(tài)的Transformer。所謂原生多模態(tài)指的是模型設(shè)計(jì)之初，就統(tǒng)一將視覺、語言、行動(dòng)三種模態(tài)進(jìn)行訓(xùn)練，而不是像傳統(tǒng)的模型一樣，分別進(jìn)行不同模態(tài)的訓(xùn)練，再在后期進(jìn)行組合，這種設(shè)計(jì)可以讓模態(tài)在同一個(gè)表示空間中共同訓(xùn)練和對(duì)齊，從而獲得更高的效率和更強(qiáng)的泛化能力。

第二，原生3D的視覺tokenizer。這個(gè)設(shè)計(jì)的關(guān)鍵是3D視覺的空間編碼能力，引入了3DViT Encoder，用于對(duì)真實(shí)世界三維結(jié)構(gòu)進(jìn)行直接建模。與傳統(tǒng)方法不同，它并不是簡(jiǎn)單的將2D圖像和3D信息進(jìn)行拼接，而是在編碼階段之間構(gòu)建3D的空間表示，這使得模型能夠更加自然的理解真實(shí)的物理世界的空間結(jié)構(gòu)。

第三，多模態(tài)的推理能力。除了視覺之外，依然保留了語言能力。語言模型在系統(tǒng)中承擔(dān)了幾個(gè)關(guān)鍵的角色，語義理解、常識(shí)知識(shí)、交互能力。同時(shí)在模型中引入了“系統(tǒng)2”的顯示推理能力，使模型在復(fù)雜的場(chǎng)景中進(jìn)行更深層次的決策分析。

第四，隱式世界模型。通過Predictive Latent Word Model這個(gè)模塊，模型可以對(duì)未來的環(huán)境狀態(tài)進(jìn)行預(yù)測(cè)。也就是模型不僅僅能理解當(dāng)前環(huán)境，還能在隱空間中模擬未來發(fā)生的可能情況，這個(gè)能力對(duì)于自動(dòng)駕駛的決策非常關(guān)鍵。

第五，軟硬件協(xié)同設(shè)計(jì)和強(qiáng)化學(xué)習(xí)的閉環(huán)能力。在架構(gòu)設(shè)計(jì)之初，進(jìn)行了軟硬件協(xié)同的設(shè)計(jì)，使得模型在車端計(jì)算資源下高效運(yùn)行。

同時(shí)，整個(gè)系統(tǒng)采用了統(tǒng)一的MoE架構(gòu)，非常適合閉環(huán)強(qiáng)化學(xué)習(xí)的訓(xùn)練。通過強(qiáng)化學(xué)習(xí)，模型可以在訓(xùn)練中不斷優(yōu)化策略，持續(xù)提升方法能力。

MindVLA-o1系統(tǒng)是如何看的？

圖片.png

在自動(dòng)駕駛中一個(gè)核心的問題是系統(tǒng)必須真正的理解三維物理世界，而不僅僅是2D圖像。因此，MindVLA-o1系統(tǒng)設(shè)計(jì)了一個(gè)自監(jiān)督的3DViT Encoder（3D視覺編碼器）。

在訓(xùn)練過程中，同時(shí)利用視覺和激光雷達(dá)的數(shù)據(jù)，這兩種模態(tài)天然具備空間的對(duì)齊關(guān)系。激光雷達(dá)提供了準(zhǔn)確的三維幾何信息，視覺提供了豐富的語義信息。然后通過自監(jiān)督訓(xùn)練，模型可以在同一個(gè)表示空間中同時(shí)學(xué)習(xí)幾何結(jié)構(gòu)和語義信息。

而且在訓(xùn)練中引入了前饋的3DGS表示，在這個(gè)框架中，將場(chǎng)景分為了兩個(gè)部分：靜態(tài)環(huán)境用穩(wěn)定的3DGS進(jìn)行建模，動(dòng)態(tài)環(huán)境單獨(dú)建模其運(yùn)動(dòng)狀態(tài)。這樣模型不僅能夠理解當(dāng)前場(chǎng)景，還能預(yù)測(cè)未來的狀態(tài)變化。在這個(gè)訓(xùn)練過程中，還使用了下一幀預(yù)測(cè)作為自監(jiān)督的信號(hào)，同時(shí)也學(xué)習(xí)了深度信息、語義結(jié)構(gòu)與物體運(yùn)動(dòng)等等。

MindVLA-o1系統(tǒng)是如何思考的？

圖片.png

在很多復(fù)雜的駕駛場(chǎng)景中，自動(dòng)駕駛不僅需要理解當(dāng)前環(huán)境，還需要預(yù)測(cè)未來可能發(fā)生的事情。人類在做決策時(shí)其實(shí)也是這樣，當(dāng)我們看到一個(gè)場(chǎng)景時(shí)，大腦不僅會(huì)理解當(dāng)前的畫面，還會(huì)在腦海中想象未來可能發(fā)生的情況。

比如，當(dāng)我們看到右側(cè)有一輛車準(zhǔn)備并線時(shí)，系統(tǒng)需要進(jìn)行推理，這個(gè)車是否會(huì)切入當(dāng)前的車道。如果它真的并線了，我們應(yīng)該如何避讓？是減速、是剎車還是向左變道。

而為了做出更好的決策，系統(tǒng)必須能夠預(yù)判未來幾秒的場(chǎng)景變化。為了讓模型具備這種能力，MindVLA-o1系統(tǒng)引入了預(yù)測(cè)式的隱式世界模型。它的核心思想是讓模型在隱空間中模擬未來。如果直接生成未來真實(shí)的圖像，計(jì)算成本會(huì)非常高。

首先會(huì)把當(dāng)前的視覺輸入編碼成一組latent tokens，作為當(dāng)前場(chǎng)景的一個(gè)緊湊的表征，然后Word model會(huì)基于這些token預(yù)測(cè)未來的latent狀態(tài)。通過這種方式，模型可以在隱空間中高效的模擬未來場(chǎng)景的演化過程。

MindVLA-o1系統(tǒng)是如何生成駕駛軌跡的？

圖片.png

MindVLA-o1設(shè)計(jì)了Unified Action Generation模塊。這個(gè)模塊的核心部分，是使用了VLA-MoE架構(gòu)，不同于傳統(tǒng)的通用語言模型的MoE，它引入了專門負(fù)責(zé)行動(dòng)的Action Expert，這些動(dòng)作專家會(huì)從多個(gè)輸入中提取關(guān)鍵信息，比如3D場(chǎng)景的特征、導(dǎo)航目標(biāo)、駕駛指令，以及前面提到的多模態(tài)的推理思考，將其整合專注于生成高精度的駕駛軌跡。可以把它理解為在這些系統(tǒng)中，有一組經(jīng)驗(yàn)豐富的駕駛專家，專門負(fù)責(zé)把復(fù)雜的認(rèn)知轉(zhuǎn)化成具體的行動(dòng)。

為了滿足智駕的實(shí)時(shí)性要求，理想汽車沒有采用傳統(tǒng)的自回歸的生成方式。傳統(tǒng)模型需要一個(gè)一個(gè)點(diǎn)的生成軌跡，而是采用了Parallel Decoding，也就是說所有軌跡點(diǎn)可以同時(shí)并行生成，大幅提升了軌跡的生成效率，尤其是在長時(shí)距的軌跡預(yù)測(cè)時(shí)。

那么并行生成軌跡如何保證質(zhì)量呢？為此理想汽車還引入了Discrete Diffusion的優(yōu)化方案，模型會(huì)通過N步的迭代，不斷對(duì)軌跡進(jìn)行refine（改進(jìn)），這有點(diǎn)類似于逐步去噪的過程。

最終，理想汽車得到的軌跡在空間上連續(xù)、在時(shí)間上穩(wěn)定，同時(shí)也能滿足車輛動(dòng)力約術(shù)。因此，這一套軌跡生成的機(jī)制可以總結(jié)為三點(diǎn)，MoE保證了生成的專業(yè)性，Parallel保證了生成的速度，Diffusion保證了生成的軌跡精度。

MindVLA-o1系統(tǒng)是如何進(jìn)行持續(xù)進(jìn)化的？

圖片.png

在傳統(tǒng)的自動(dòng)駕駛系統(tǒng)中，模型主要依賴于模仿學(xué)習(xí)。從人類的駕駛數(shù)據(jù)中持續(xù)學(xué)習(xí)，但這樣的過程有一個(gè)明顯的限制，模型只能在已經(jīng)存在的數(shù)據(jù)中探索，而魯棒性大大降低。為了突破這一點(diǎn)，理想汽車構(gòu)建了一個(gè)閉環(huán)強(qiáng)化學(xué)習(xí)的框架。在這個(gè)框架中，模型不僅可以從真實(shí)數(shù)據(jù)中學(xué)習(xí)，還可以在Word Simulator中不斷探索和優(yōu)化。也就是說，系統(tǒng)可以在模擬環(huán)境下不斷嘗試新的策略，根據(jù)反饋進(jìn)行策略更新。

MindVLA-o1與小鵬VLA2.0又有什么不同？

小鵬VLA 2.0：去語言層、純端到端物理世界大模型，視覺→隱式表征→連續(xù)動(dòng)作，完全拋棄顯式語言轉(zhuǎn)譯，視覺直接生成駕駛動(dòng)作。而理想MindVLA-o1：保留語言層，視覺→語言理解→動(dòng)作，但將視覺、語言、行動(dòng)三種模態(tài)統(tǒng)一進(jìn)行訓(xùn)練，而不是像傳統(tǒng)的模型一樣，分別進(jìn)行不同模態(tài)的訓(xùn)練，在后期再進(jìn)行組合，這種設(shè)計(jì)可以讓模態(tài)在同一個(gè)表示空間中共同訓(xùn)練和對(duì)齊。這是本質(zhì)的區(qū)別。

在決策方式上，小鵬VLA 2.0靠物理世界因果推理，直接輸出方向盤、油門、剎車連續(xù)控制，動(dòng)作絲滑、無頓挫。而理想MindVLA-o1靠視覺和語言對(duì)齊后并行決策，更穩(wěn)定。

來源：第一電動(dòng)網(wǎng)

作者：張芳超

本文地址：http://www.cbbreul.com/carnews/xinche/291977

返回第一電動(dòng)網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請(qǐng)聯(lián)系admin#d1ev.com（#替換成@）刪除。