新車新車上市

小鵬第二代VLA有哪些變化，解決了哪些智駕難題？

第一電動張芳超 2026-03-17 14:37

小鵬VLA 2.0在3月19日將開啟陸續(xù)推送，首批先推送全新P7 Ultra，再推送G7和X9。4月推送P7+、G9，G6等。同時，VLA 2.0量產(chǎn)推送的版本是第四個大版本的第28個小版本，與之前的媒體試駕版不同（第二個大版本），但不會因為量產(chǎn)，把某些功能閹割掉。

圖片.png

第二代VLA對于小鵬來說至關(guān)重要，是小鵬從L2邁向L4的關(guān)鍵一戰(zhàn)。那么，它相比之前有了哪些變化？解決了智駕行業(yè)哪些難題？它還有哪些問題？

圖片.png

▍第二代VLA相比第一代有哪些變化？

小鵬第二代VLA（視覺-語言-動作）核心是顛覆了傳統(tǒng)VLA智駕“視覺-語言-動作”三段式架構(gòu)，通過去顯式語言轉(zhuǎn)譯、端到端直接映射、物理世界因果推理實現(xiàn)技術(shù)突破，同時結(jié)合自研芯片算力、感知優(yōu)化等技術(shù)形成完整體系。

小鵬VLA 2.0的技術(shù)核心是構(gòu)建“視覺→隱式Token→動作”的端到端架構(gòu)，去掉傳統(tǒng)架構(gòu)中顯式的語言轉(zhuǎn)譯中間層，讓模型直接從視覺信號生成車輛動作指令。它相比第一代有五大變化。

第一，核心架構(gòu)革新。最本質(zhì)突破是從“三段式語義轉(zhuǎn)譯”到“端到端直接映射”，傳統(tǒng)VLA（含小鵬第一代）采用視覺識別→語言轉(zhuǎn)譯→動作生成三段式架構(gòu)，視覺特征需先轉(zhuǎn)譯為自然語言（如“前方50米有行人橫穿”），再生成動作，存在信息損耗、延遲高、語義誤判三大問題。

VLA 2.0重構(gòu)為視覺→隱式Token→動作的端到端架構(gòu)，徹底去掉顯式語言轉(zhuǎn)譯層，視覺傳感器捕捉的路況直接轉(zhuǎn)化為模型內(nèi)部的隱式Token（非語言化的物理世界特征表征，無人工定義語義規(guī)則），隱式Token直接映射為方向盤、油門、剎車的連續(xù)動作指令，模型內(nèi)部完成對物理世界的認(rèn)知，但不進(jìn)行語言化表達(dá)。相比第一代VLA，VLA 2.0系統(tǒng)響應(yīng)速度提升，端到端推理時延降至80ms。

第二，模型體系重構(gòu)。VLA 2.0采用云端超大規(guī)?；?車端輕量化蒸餾，并支持自演進(jìn)學(xué)習(xí)，即VLA 2.0采用“云端訓(xùn)練-車端推理”的兩級模型架構(gòu)，兼顧推理能力與車端實時性。

云端基座模型：720億參數(shù)超大規(guī)模模型，依托小鵬3萬卡云端算力集群（10EFLOPS算力）訓(xùn)練，支持對抗訓(xùn)練、因果推理學(xué)習(xí)，可推演未來駕駛場景，提升長尾場景應(yīng)對能力；

車端蒸餾模型：幾十億參數(shù)輕量化模型，通過知識蒸餾保留云端模型90%以上的推理能力，同時適配車端算力限制，可在小鵬自研圖靈芯片上實現(xiàn)實時推理；

自演進(jìn)學(xué)習(xí)能力：模型無需大量人工標(biāo)注，通過學(xué)習(xí)真實世界的物理交互規(guī)律自主優(yōu)化決策，新場景可通過實車數(shù)據(jù)閉環(huán)快速適配，實現(xiàn)“數(shù)據(jù)驅(qū)動自我進(jìn)化”。

第三，感知優(yōu)化。VLA 2.0的感知優(yōu)化核心是小鵬與北京大學(xué)聯(lián)合研發(fā)的FastDriveVLA視覺Token剪枝框架，解決了傳統(tǒng)VLA模型視覺Token過多、計算量高、無效信息干擾的問題，實現(xiàn)“去繁從簡”的高效感知。

剪枝架構(gòu)的核心技術(shù)點是利用ReconPruner即插即用剪枝器，基于MAE風(fēng)格像素重建訓(xùn)練，引入對抗性前景-背景重建策略，讓模型像人類司機一樣只聚焦核心駕駛信息（行人、車輛、交通標(biāo)識、障礙物等前景），自動過濾無效背景信息（樹葉、光影、路面紋理等）。

第四，車端算力大幅提升。通過依托自研圖靈芯片（單顆750 TOPS）+全鏈路優(yōu)化，實現(xiàn)大模型車端部署。

第五，決策規(guī)劃層進(jìn)化。VLA 2.0并非簡單的“感知-動作”映射，而是構(gòu)建了具備因果推理能力的物理世界模型，讓智駕系統(tǒng)像人類司機一樣“理解路況、預(yù)判意圖”，而非單純識別障礙物。

模型能基于物理世界規(guī)律預(yù)判交通參與者的行為意圖，而非傳統(tǒng)算法的“僅識別障礙物并簡單減速”，它是有場景理解能力，比如遇到窄路會車，它會先停車讓行，然后有了通行空間后再行駛。

同時，它采用擴(kuò)散模型生成方向盤角度、油門/剎車力度的精細(xì)化連續(xù)控制指令，而非傳統(tǒng)的離散動作（如轉(zhuǎn)向、加速、剎車），在無保護(hù)左轉(zhuǎn)、窄路會車、加塞避讓等場景中，動作更貼近人類老司機，銜接更平順。

▍第二代VLA解決了哪些問題？

1、突破窄路通行難題

圖片.png

針對窄路通行的復(fù)雜場景，通過重構(gòu)底層架構(gòu)，解決了雙車道右側(cè)停滿臨停車、左側(cè)電動車和行人頻繁出現(xiàn)的難題，實現(xiàn)了既安全又流暢的通行。

在整個通行過程中，第二代VLA它是隱式的先去對周圍環(huán)境進(jìn)行3D建模，然后去嘗試?yán)斫庹麄€世界是什么樣，再去判斷自己的通行狀況到底能不能過去，最后再做出一個最舒適安全的選擇。所以在這個時候，可以看到它不僅僅通行距離是足夠的，而且并不會覺得特別緊張，因為它速度控制的很好，慢慢的過去，同時也是走一步看一步。當(dāng)通行空間特別窄，過不去的時候，它會停下等，并不會一路特別猛的沖過去，最后把自己卡死。

2、窄路壓低矮臺階通行

圖片.png

在窄路會車時，通行空間不夠，壓著右前方的低矮臺階通過。

因為在第二代VLA的眼里面，它不像傳統(tǒng)的智能駕駛一樣有感知。如果有感知，就要去識別可行駛區(qū)域或者道路。先去檢測道路的邊界，不可行駛區(qū)域。而在第二代VLA整套范式背后，是沒有這些概念的。當(dāng)一旦有規(guī)則，有檢測可行駛區(qū)域的邊界，它就會被壓在里面。這個時候一般的選擇會卡住不動，不知道干什么了。正常人是不會這么開車的，他會判斷這個地方可行駛的可能性。然后判斷對車的底盤，整體的安全性有沒有影響？比如說遇到臺階，如果卡在那兒不動，不去讓行的話，其實有被刮蹭風(fēng)險的。所以窄路會車時去借用一個還不算高的臺階，做一個通行空間的避讓，是最合理的選擇。第二代VLA會去嘗試?yán)斫庹麄€世界，通過COT去做推理，然后最終找到一個最合理的通行空間去往前走。

3、繞行開門殺

圖片.png

智駕在處理突然發(fā)生的開門殺場景中的技術(shù)難點，一是對整個空間的把握要非常準(zhǔn)。一般傳統(tǒng)的意義上來說，智能駕駛會把一個車當(dāng)成一個矩形框來處理。當(dāng)你開門的時候就會發(fā)現(xiàn)一個矩形框，上面多了一條，它一般會用一個多邊形去表示，而且還要去判斷開門的整體速度以及是否還會從里面下來一個人。這種情況下去判斷邊界是很難的。另外一個難點是反應(yīng)速度需要非常快，基本上是小于1秒的時間，迅速的去做出一個繞行，然后再回去這樣一個動作對。第二代VLA對處理這種突然發(fā)生的異常場景具有很強判斷能力，它不僅能做到很精準(zhǔn)，而且做的非?？臁＿@是因為車身上的傳感器輸入信號多，而且它的模型尺寸大，具有很強的思考能力，再加上執(zhí)行速度快，所以處理起來更絲滑。

4、識別減速帶

圖片.png

減速帶對于智能駕駛來說是一個很難處理的問題，因為它離地面的高度并不高，通常又是一個平緩的過程，利用傳統(tǒng)的感知算法，是很難精確得到它的高度，所以更別說根據(jù)高度去調(diào)整自己通過的速度。之前一般的做法是，在高精地圖上會把有減速帶的位置標(biāo)記出來，這個地方有減速帶，高度是多少，應(yīng)該降速到多少，或者是另外一種只要是減速帶，就一定會減速，減到一個固定的值再去過。

第二代VLA的做法是并沒有明確的說這里有一條減速帶或者是標(biāo)記出來，也沒有做高精地圖。更多的是靠數(shù)據(jù)去驅(qū)動，當(dāng)整個模型看過上百萬條不同的減速帶數(shù)據(jù)時，它就會去理解這些減速帶的不同。所以核心還是有更多的數(shù)據(jù)，這些數(shù)據(jù)來自于真實場景，而不是在一條大直路上不停的開的單一場景。這樣它的泛化能力會得到很大的增強。這就是第二代VLA對不同的減速帶會做出不一樣反應(yīng)的原因。

5、避讓坑

圖片.png

它是怎么識別水坑的？其實這個就是得益于它使用的攝像頭，具有更多的色域，它的色域和動態(tài)范圍更大更寬，同時輸入信息更多，在配合上，攝像頭一般是800萬甚至更高像素的輸入密度。所以它有更多的信號可以判斷當(dāng)前的路況，因為在這里面它沒有一個可行駛區(qū)域的概念，它更多的還是判斷這個地方它真實的路況是什么？它的材質(zhì)是什么？所以見到水坑，如果數(shù)據(jù)足夠多的話，它就應(yīng)該知道見到這樣不可行駛的區(qū)域，要繞過去。而見到那些躲不過去的，選擇減速過去。

6、橫向避讓變道車輛

圖片.png

這個場景是一種時空聯(lián)合規(guī)劃，或者是橫縱，橫向和縱向同時去考慮。比如人去處理這種情況，會先看倒車鏡，看后面有沒有車，再看旁邊有沒有車，再去決定要不要超車，還是跟在后面。整個過程要考慮很多因素，要去看周圍的環(huán)境，同時考慮最小化風(fēng)險。

另外，還有一個概念叫解空間。雖然解空間很大，但要同時去探索在橫向和縱向不同維度上的可行性。所以得益于一個大算力的芯片，加上一個更大的模型，它的好處就是能同時去探索很多種不同解的可能性，從中去挑選出一個對我們來說最舒適最安全的解。

7、白天和夜晚的差距不大

第二代VLA白天和夜晚差距不大的原因主要是，小鵬從2024年更新視覺方案后，更換了新的傳感器，新的攝像頭具有更強的通光量，動態(tài)范圍更大，給整個模型泛化性帶來了很好的基礎(chǔ)。

另一個是整個模型的端到端延遲很低，反應(yīng)速度快，可以在極端的情況下有更好的處理速度。比如說打滑或者路面濕滑的情況下，車會更快的控制住，遇到暗光時，還會像人類司機一樣主動降速、小心行駛。

所以，在正常的工況下，不管是白天還是夜晚，第二代VLA還是有非常一致的表現(xiàn)，不會存在巨大的差距。

▍第二代VLA還有哪些問題？

1、園區(qū)和地庫的漫游

劉先明說道，“目前，園區(qū)跟地庫的漫游，還沒有達(dá)到像城區(qū)一樣的驚艷程度。所以為了大家的體驗和整體的使用性，我們還是決定在第一個版本的時候把它暫時的先停止推送。但是會在不久的下一個版本，給大家推送過去。”

2、不按導(dǎo)航路線行駛

第二代VLA偶爾會出現(xiàn)不按照導(dǎo)航路線走的問題。

為什么呢？之前的導(dǎo)航規(guī)劃基本上都是靠規(guī)則來做的，就相當(dāng)于有一個上帝之手，先畫了一條線，比如最早的高精地圖，或者是非常接近于高精地圖的車道級導(dǎo)航，再或者是在特定的路口，如果看不見，加一些提前畫好的路線，好比在鐵軌上開車，肯定是不會錯的。

而小鵬VLA 2.0是通過模型的迭代去解決問題的，并沒上加入規(guī)則和高精地圖，所以偶爾會出現(xiàn)導(dǎo)航不準(zhǔn)的情況。即便如此VLA 2.0仍然沒有加入規(guī)則和高精地圖，而是通過數(shù)據(jù)去解決問題，因為這樣以后只要有導(dǎo)航信息，就能地下開、地面開，村路、山路、土路都能開。

3、極端天氣

在面對暴雨、暴雪、沙塵暴等極端天氣時，會導(dǎo)致VLA 2.0退出。首先這是因為任何傳感器的都是物理極限的，傳感器本身的物理性能是有上限的。

其次是，VLA 2.0是依賴于海量的訓(xùn)練數(shù)據(jù)，所以它在什么情況下跑的好或者不好是取決于訓(xùn)練數(shù)據(jù)分布的。而它本身的訓(xùn)練數(shù)據(jù)又來自于所有車主每天正常開的工況，包括雨天、雪天、黑夜等，但極端天氣的數(shù)據(jù)不多。

4、識別馬路上平躺的四個小孩子，有減速，但不能剎停

圖片.png

“馬路上平躺著四個小孩，從遠(yuǎn)處看就像減速帶一樣，第二代VLA識別后是有減速的，但是這個減速度不足以剎停。這個是一個真實的情況，也給了我們一個動力，我們離做到完美還是有距離的。這個也是我們不停向前去解決這些問題的一個原動力。我們希望真的能做到，在任何的突發(fā)情況下都能有足夠的安全。所以我們希望能通過不停的迭代，讓這個事情做得越來越好，能真的有一天，不是開始減速，而是真正能安全的讓這種事情都處理的很好。”劉先明說道。

▍Ultra版和Max版有什么區(qū)別？

Max版本是面向L2的，但是它不是把所有場景都能解決，也不能把主要場景碰到的corner case都解決。而Ultra版本是一個面向L4的，是能夠千公里接管一次或者更少，Max版本則是百公里。

來源：第一電動網(wǎng)

作者：張芳超

本文地址：http://www.cbbreul.com/carnews/xinche/291741

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。