国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁
  2. 車訊
  3. 新車
  4. 小鵬第二代VLA有哪些變化,解決了哪些智駕難題?

小鵬第二代VLA有哪些變化,解決了哪些智駕難題?

第一電動張芳超

小鵬VLA 2.0在3月19日將開啟陸續(xù)推送,首批先推送全新P7 Ultra,再推送G7和X9。4月推送P7+、G9,G6等。同時,VLA 2.0量產(chǎn)推送的版本是第四個大版本的第28個小版本,與之前的媒體試駕版不同(第二個大版本),但不會因為量產(chǎn),把某些功能閹割掉。

圖片.png

第二代VLA對于小鵬來說至關(guān)重要,是小鵬從L2邁向L4的關(guān)鍵一戰(zhàn)。那么,它相比之前有了哪些變化?解決了智駕行業(yè)哪些難題?它還有哪些問題?

圖片.png

第二代VLA相比第一代有哪些變化?

小鵬第二代VLA(視覺-語言-動作)核心是顛覆了傳統(tǒng)VLA智駕“視覺-語言-動作”三段式架構(gòu),通過去顯式語言轉(zhuǎn)譯、端到端直接映射、物理世界因果推理實現(xiàn)技術(shù)突破,同時結(jié)合自研芯片算力、感知優(yōu)化等技術(shù)形成完整體系。

小鵬VLA 2.0的技術(shù)核心是構(gòu)建“視覺→隱式Token→動作”的端到端架構(gòu),去掉傳統(tǒng)架構(gòu)中顯式的語言轉(zhuǎn)譯中間層,讓模型直接從視覺信號生成車輛動作指令。它相比第一代有五大變化。

第一,核心架構(gòu)革新。最本質(zhì)突破是從“三段式語義轉(zhuǎn)譯”到“端到端直接映射”,傳統(tǒng)VLA(含小鵬第一代)采用視覺識別→語言轉(zhuǎn)譯→動作生成三段式架構(gòu),視覺特征需先轉(zhuǎn)譯為自然語言(如“前方50米有行人橫穿”),再生成動作,存在信息損耗、延遲高、語義誤判三大問題。

VLA 2.0重構(gòu)為視覺→隱式Token→動作的端到端架構(gòu),徹底去掉顯式語言轉(zhuǎn)譯層,視覺傳感器捕捉的路況直接轉(zhuǎn)化為模型內(nèi)部的隱式Token(非語言化的物理世界特征表征,無人工定義語義規(guī)則),隱式Token直接映射為方向盤、油門、剎車的連續(xù)動作指令,模型內(nèi)部完成對物理世界的認(rèn)知,但不進(jìn)行語言化表達(dá)。相比第一代VLA,VLA 2.0系統(tǒng)響應(yīng)速度提升,端到端推理時延降至80ms。

第二,模型體系重構(gòu)。VLA 2.0采用云端超大規(guī)?;?車端輕量化蒸餾,并支持自演進(jìn)學(xué)習(xí),即VLA 2.0采用“云端訓(xùn)練-車端推理”的兩級模型架構(gòu),兼顧推理能力與車端實時性。

云端基座模型:720億參數(shù)超大規(guī)模模型,依托小鵬3萬卡云端算力集群(10EFLOPS算力)訓(xùn)練,支持對抗訓(xùn)練、因果推理學(xué)習(xí),可推演未來駕駛場景,提升長尾場景應(yīng)對能力;

車端蒸餾模型:幾十億參數(shù)輕量化模型,通過知識蒸餾保留云端模型90%以上的推理能力,同時適配車端算力限制,可在小鵬自研圖靈芯片上實現(xiàn)實時推理;

自演進(jìn)學(xué)習(xí)能力:模型無需大量人工標(biāo)注,通過學(xué)習(xí)真實世界的物理交互規(guī)律自主優(yōu)化決策,新場景可通過實車數(shù)據(jù)閉環(huán)快速適配,實現(xiàn)“數(shù)據(jù)驅(qū)動自我進(jìn)化”。

第三,感知優(yōu)化。VLA 2.0的感知優(yōu)化核心是小鵬與北京大學(xué)聯(lián)合研發(fā)的FastDriveVLA視覺Token剪枝框架,解決了傳統(tǒng)VLA模型視覺Token過多、計算量高、無效信息干擾的問題,實現(xiàn)“去繁從簡”的高效感知。

剪枝架構(gòu)的核心技術(shù)點是利用ReconPruner即插即用剪枝器,基于MAE風(fēng)格像素重建訓(xùn)練,引入對抗性前景-背景重建策略,讓模型像人類司機(jī)一樣只聚焦核心駕駛信息(行人、車輛、交通標(biāo)識、障礙物等前景),自動過濾無效背景信息(樹葉、光影、路面紋理等)

第四,車端算力大幅提升。通過依托自研圖靈芯片(單顆750 TOPS)+全鏈路優(yōu)化,實現(xiàn)大模型車端部署。

第五,決策規(guī)劃層進(jìn)化。VLA 2.0并非簡單的“感知-動作”映射,而是構(gòu)建了具備因果推理能力的物理世界模型,讓智駕系統(tǒng)像人類司機(jī)一樣“理解路況、預(yù)判意圖”,而非單純識別障礙物。

模型能基于物理世界規(guī)律預(yù)判交通參與者的行為意圖,而非傳統(tǒng)算法的“僅識別障礙物并簡單減速”,它是有場景理解能力,比如遇到窄路會車,它會先停車讓行,然后有了通行空間后再行駛。

同時,它采用擴(kuò)散模型生成方向盤角度、油門/剎車力度的精細(xì)化連續(xù)控制指令,而非傳統(tǒng)的離散動作(如轉(zhuǎn)向、加速、剎車),在無保護(hù)左轉(zhuǎn)、窄路會車、加塞避讓等場景中,動作更貼近人類老司機(jī),銜接更平順。

第二代VLA解決了哪些問題?

1、突破窄路通行難題

圖片.png

針對窄路通行的復(fù)雜場景,通過重構(gòu)底層架構(gòu),解決了雙車道右側(cè)停滿臨停車、左側(cè)電動車和行人頻繁出現(xiàn)的難題,實現(xiàn)了既安全又流暢的通行。

在整個通行過程中,第二代VLA它是隱式的先去對周圍環(huán)境進(jìn)行3D建模,然后去嘗試?yán)斫庹麄€世界是什么樣,再去判斷自己的通行狀況到底能不能過去,最后再做出一個最舒適安全的選擇。所以在這個時候,可以看到它不僅僅通行距離是足夠的,而且并不會覺得特別緊張,因為它速度控制的很好,慢慢的過去,同時也是走一步看一步。當(dāng)通行空間特別窄,過不去的時候,它會停下等,并不會一路特別猛的沖過去,最后把自己卡死。

2、窄路壓低矮臺階通行

圖片.png

在窄路會車時,通行空間不夠,壓著右前方的低矮臺階通過。

因為在第二代VLA的眼里面,它不像傳統(tǒng)的智能駕駛一樣有感知。如果有感知,就要去識別可行駛區(qū)域或者道路。先去檢測道路的邊界,不可行駛區(qū)域。而在第二代VLA整套范式背后,是沒有這些概念的。當(dāng)一旦有規(guī)則,有檢測可行駛區(qū)域的邊界,它就會被壓在里面。這個時候一般的選擇會卡住不動,不知道干什么了。正常人是不會這么開車的,他會判斷這個地方可行駛的可能性。然后判斷對車的底盤,整體的安全性有沒有影響?比如說遇到臺階,如果卡在那兒不動,不去讓行的話,其實有被刮蹭風(fēng)險的。所以窄路會車時去借用一個還不算高的臺階,做一個通行空間的避讓,是最合理的選擇。第二代VLA會去嘗試?yán)斫庹麄€世界,通過COT去做推理,然后最終找到一個最合理的通行空間去往前走。

3、繞行開門殺

圖片.png

智駕在處理突然發(fā)生的開門殺場景中的技術(shù)難點,一是對整個空間的把握要非常準(zhǔn)。一般傳統(tǒng)的意義上來說,智能駕駛會把一個車當(dāng)成一個矩形框來處理。當(dāng)你開門的時候就會發(fā)現(xiàn)一個矩形框,上面多了一條,它一般會用一個多邊形去表示,而且還要去判斷開門的整體速度以及是否還會從里面下來一個人。這種情況下去判斷邊界是很難的。另外一個難點是反應(yīng)速度需要非??欤旧鲜切∮?秒的時間,迅速的去做出一個繞行,然后再回去這樣一個動作對。第二代VLA對處理這種突然發(fā)生的異常場景具有很強(qiáng)判斷能力,它不僅能做到很精準(zhǔn),而且做的非??臁_@是因為車身上的傳感器輸入信號多,而且它的模型尺寸大,具有很強(qiáng)的思考能力,再加上執(zhí)行速度快,所以處理起來更絲滑。

4、識別減速帶

圖片.png

減速帶對于智能駕駛來說是一個很難處理的問題,因為它離地面的高度并不高,通常又是一個平緩的過程,利用傳統(tǒng)的感知算法,是很難精確得到它的高度,所以更別說根據(jù)高度去調(diào)整自己通過的速度。之前一般的做法是,在高精地圖上會把有減速帶的位置標(biāo)記出來,這個地方有減速帶,高度是多少,應(yīng)該降速到多少,或者是另外一種只要是減速帶,就一定會減速,減到一個固定的值再去過。

第二代VLA的做法是并沒有明確的說這里有一條減速帶或者是標(biāo)記出來,也沒有做高精地圖。更多的是靠數(shù)據(jù)去驅(qū)動,當(dāng)整個模型看過上百萬條不同的減速帶數(shù)據(jù)時,它就會去理解這些減速帶的不同。所以核心還是有更多的數(shù)據(jù),這些數(shù)據(jù)來自于真實場景,而不是在一條大直路上不停的開的單一場景。這樣它的泛化能力會得到很大的增強(qiáng)。這就是第二代VLA對不同的減速帶會做出不一樣反應(yīng)的原因。

5、避讓坑

圖片.png

它是怎么識別水坑的?其實這個就是得益于它使用的攝像頭,具有更多的色域, 它的色域和動態(tài)范圍更大更寬,同時輸入信息更多,在配合上,攝像頭一般是800萬甚至更高像素的輸入密度。所以它有更多的信號可以判斷當(dāng)前的路況,因為在這里面它沒有一個可行駛區(qū)域的概念,它更多的還是判斷這個地方它真實的路況是什么?它的材質(zhì)是什么?所以見到水坑,如果數(shù)據(jù)足夠多的話,它就應(yīng)該知道見到這樣不可行駛的區(qū)域,要繞過去。而見到那些躲不過去的,選擇減速過去。

6、橫向避讓變道車輛

圖片.png

這個場景是一種時空聯(lián)合規(guī)劃,或者是橫縱,橫向和縱向同時去考慮。比如人去處理這種情況,會先看倒車鏡,看后面有沒有車,再看旁邊有沒有車,再去決定要不要超車,還是跟在后面。整個過程要考慮很多因素,要去看周圍的環(huán)境,同時考慮最小化風(fēng)險。

另外,還有一個概念叫解空間。雖然解空間很大,但要同時去探索在橫向和縱向不同維度上的可行性。所以得益于一個大算力的芯片,加上一個更大的模型,它的好處就是能同時去探索很多種不同解的可能性,從中去挑選出一個對我們來說最舒適最安全的解。

7、白天和夜晚的差距不大

第二代VLA白天和夜晚差距不大的原因主要是,小鵬從2024年更新視覺方案后,更換了新的傳感器,新的攝像頭具有更強(qiáng)的通光量,動態(tài)范圍更大,給整個模型泛化性帶來了很好的基礎(chǔ)。

另一個是整個模型的端到端延遲很低,反應(yīng)速度快,可以在極端的情況下有更好的處理速度。比如說打滑或者路面濕滑的情況下,車會更快的控制住,遇到暗光時,還會像人類司機(jī)一樣主動降速、小心行駛。

所以,在正常的工況下,不管是白天還是夜晚,第二代VLA還是有非常一致的表現(xiàn),不會存在巨大的差距。

第二代VLA還有哪些問題?

1、園區(qū)和地庫的漫游

劉先明說道,“目前,園區(qū)跟地庫的漫游,還沒有達(dá)到像城區(qū)一樣的驚艷程度。所以為了大家的體驗和整體的使用性,我們還是決定在第一個版本的時候把它暫時的先停止推送。但是會在不久的下一個版本,給大家推送過去?!?/p>

2、不按導(dǎo)航路線行駛

第二代VLA偶爾會出現(xiàn)不按照導(dǎo)航路線走的問題。

為什么呢?之前的導(dǎo)航規(guī)劃基本上都是靠規(guī)則來做的,就相當(dāng)于有一個上帝之手,先畫了一條線,比如最早的高精地圖,或者是非常接近于高精地圖的車道級導(dǎo)航,再或者是在特定的路口,如果看不見,加一些提前畫好的路線,好比在鐵軌上開車,肯定是不會錯的。

而小鵬VLA 2.0是通過模型的迭代去解決問題的,并沒上加入規(guī)則和高精地圖,所以偶爾會出現(xiàn)導(dǎo)航不準(zhǔn)的情況。即便如此VLA 2.0仍然沒有加入規(guī)則和高精地圖,而是通過數(shù)據(jù)去解決問題,因為這樣以后只要有導(dǎo)航信息,就能地下開、地面開,村路、山路、土路都能開。

3、極端天氣

在面對暴雨、暴雪、沙塵暴等極端天氣時,會導(dǎo)致VLA 2.0退出。首先這是因為任何傳感器的都是物理極限的,傳感器本身的物理性能是有上限的。

其次是,VLA 2.0是依賴于海量的訓(xùn)練數(shù)據(jù),所以它在什么情況下跑的好或者不好是取決于訓(xùn)練數(shù)據(jù)分布的。而它本身的訓(xùn)練數(shù)據(jù)又來自于所有車主每天正常開的工況,包括雨天、雪天、黑夜等,但極端天氣的數(shù)據(jù)不多。

4、識別馬路上平躺的四個小孩子,有減速,但不能剎停

圖片.png

圖片.png

“馬路上平躺著四個小孩,從遠(yuǎn)處看就像減速帶一樣,第二代VLA識別后是有減速的,但是這個減速度不足以剎停。這個是一個真實的情況,也給了我們一個動力,我們離做到完美還是有距離的。這個也是我們不停向前去解決這些問題的一個原動力。我們希望真的能做到,在任何的突發(fā)情況下都能有足夠的安全。所以我們希望能通過不停的迭代,讓這個事情做得越來越好,能真的有一天,不是開始減速,而是真正能安全的讓這種事情都處理的很好?!眲⑾让髡f道。

Ultra版和Max版有什么區(qū)別?

Max版本是面向L2的,但是它不是把所有場景都能解決,也不能把主要場景碰到的corner case都解決。而Ultra版本是一個面向L4的,是能夠千公里接管一次或者更少,Max版本則是百公里。

來源:第一電動網(wǎng)

作者:張芳超

本文地址:http://www.cbbreul.com/carnews/xinche/291741

返回第一電動網(wǎng)首頁 >

收藏
10
  • 分享到:
發(fā)表評論
新聞推薦
第一電動網(wǎng)官方微信

反饋和建議 在線回復(fù)

您的詢價信息
已經(jīng)成功提交我們稍后會聯(lián)系您進(jìn)行報價!

第一電動網(wǎng)
-->