2025年度,誰在推動智駕進(jìn)步?我們推出《2025中國智駕開發(fā)者50人》系列,分5期刊發(fā),這是第三期。
入圍的80多位候選人,絕大多數(shù)在國內(nèi),少數(shù)在國外,個別是海外華人。他們的研發(fā)成果,體現(xiàn)在過去兩年里發(fā)生的兩次智駕拐點上。但其中的大部分,都很低調(diào)。
入圍的標(biāo)準(zhǔn)有兩條(個別極其優(yōu)秀者例外):
1、2025年內(nèi),在全球頂會頂刊發(fā)表高引論文的第一作者(含合著團(tuán)隊);
2、2025《智駕天梯榜》年度榜單上榜方案商和主機(jī)廠的核心研發(fā)人員。
經(jīng)過核實與比對,最終挑選出50位有代表性的人物。他們的身份,大體分四類:
1、學(xué)術(shù)研究者,在頂會頂刊上發(fā)表高引論文的作者(含合著團(tuán)隊);
2、研發(fā)組織者,定投資、定方向、定目標(biāo)、定范式、定團(tuán)隊的人,類似奧本海默;
3、研發(fā)骨干,負(fù)責(zé)某一個具體方向的研發(fā)統(tǒng)籌,并和兄弟們一起拼搏出成果的人;
4、產(chǎn)品和工程負(fù)責(zé)人,負(fù)責(zé)產(chǎn)品定義、用戶交互、工程實施的人,做出了非常棒的產(chǎn)品體驗,或者保障了連續(xù)的工程交付表現(xiàn)。
繼第一期推薦11篇卓越論文的作者們,第二期記錄理想汽車、小鵬汽車和Momenta智駕關(guān)鍵人物之后,本期(第三期),記錄5名特斯拉和4名華為的智駕產(chǎn)研和工程負(fù)責(zé)人,正是他們推動了先進(jìn)技術(shù)的落地,讓理論變成了現(xiàn)實,并引領(lǐng)了智駕的發(fā)展方向。

#01 段鵬飛(PhilDuan):特斯拉FSD的“小腦”
在特斯拉智能駕駛與Robotaxi研發(fā)體系中,華人工程師一直扮演著至關(guān)重要的角色。截至2026年初,根據(jù)最新的技術(shù)演示(如FSD V14無監(jiān)督路測)及內(nèi)部公開信息,特斯拉在職的多位華人技術(shù)骨干和專家在感知大模型、車隊學(xué)習(xí)及工程化落地方面貢獻(xiàn)顯著,段鵬飛是其中的代表。

背景:
本科畢業(yè)于武漢理工大學(xué)光電信息科學(xué)與工程專業(yè),后獲美國俄亥俄大學(xué)電子工程碩博學(xué)位。??
2017年首次加入特斯拉,參與Autopilot早期研發(fā)。2019年因高強(qiáng)度工作離職,9個月后回歸。2022年升任首席軟件工程師,2022年AI Day介紹OccupancyNetwork,2025年因Robotaxi項目成果被馬斯克公開表彰。他是特斯拉去高精地圖和純視覺定位戰(zhàn)略的核心奠基人之一。
主要職責(zé):
特斯拉AI團(tuán)隊首席軟件工程師,Autopilot關(guān)鍵技術(shù)負(fù)責(zé)人,F(xiàn)leetLearning團(tuán)隊負(fù)責(zé)人,主導(dǎo)數(shù)據(jù)與感知體系研發(fā),是目前特斯拉自動駕駛算法團(tuán)隊的核心領(lǐng)軍人物之一。
其領(lǐng)導(dǎo)的FleetLearning團(tuán)隊聚焦兩大領(lǐng)域:
一個是?數(shù)據(jù)引擎優(yōu)化?——通過AI技術(shù)自動處理全球特斯拉車輛的駕駛數(shù)據(jù)——真實駕駛視頻進(jìn)行“自動標(biāo)注”,極大提升了FSD模型的訓(xùn)練吞吐量和迭代速度,提升數(shù)據(jù)標(biāo)注效率(從人工20分鐘/幀縮短至0.2秒),支撐自動駕駛模型迭代。??
另一個是?感知系統(tǒng)開發(fā)?——主導(dǎo)關(guān)鍵神經(jīng)網(wǎng)絡(luò)模型設(shè)計,包括:OccupancyNetwork(占用網(wǎng)絡(luò))實現(xiàn)環(huán)境3D建模;視覺基礎(chǔ)模型與物體檢測系統(tǒng),用于實時識別道路、行人及交通信號。實現(xiàn)了從2D圖像到3D體積空間的感知跨越,是特斯拉移除雷達(dá)、轉(zhuǎn)向視覺純感知的核心技術(shù)支撐。
在過去幾年FSD的進(jìn)化過程中,段鵬飛扮演了關(guān)鍵角色。
貢獻(xiàn)一:主導(dǎo)“去高精地圖”的視覺定位系統(tǒng)
傳統(tǒng)的Waymo或Robotaxi依賴昂貴的高精地圖,車輛必須知道自己在地圖上的厘米級位置。一旦地圖沒更新(比如修路),車就廢了。他將自己在航空領(lǐng)域的慣性導(dǎo)航與視覺SLAM(同步定位與建圖)技術(shù)結(jié)合,通過設(shè)計視覺特征指紋的算法提取道路上的地標(biāo)特征(車道線邊緣、路燈、地面標(biāo)識),將其轉(zhuǎn)化為“視覺指紋”。當(dāng)FSD運行時,神經(jīng)網(wǎng)絡(luò)實時提取當(dāng)前攝像頭的特征,與云端簡化的眾包路網(wǎng)數(shù)據(jù)進(jìn)行匹配。這讓特斯拉僅靠普通的GPS(誤差幾米)配合攝像頭,就能實現(xiàn)厘米級的車道定位。這是FSD能并在任何陌生道路上開啟的關(guān)鍵——因為車不再依賴預(yù)先死記硬背的“地圖”,而是具備了“看路”的能力。這是他對Robotaxi和FSD最具體的貢獻(xiàn),也是技術(shù)含金量最高的部分。
貢獻(xiàn)二:車隊自動標(biāo)注與高維重建
訓(xùn)練FSD神經(jīng)網(wǎng)絡(luò)需要數(shù)億張標(biāo)注好的圖片(比如標(biāo)出每一條車道線),人工標(biāo)注太慢且昂貴。他參與構(gòu)建了特斯拉著名的自動標(biāo)注機(jī)器,利用特斯拉售出的數(shù)百萬輛車,當(dāng)多輛特斯拉經(jīng)過同一個路口時,系統(tǒng)會將它們上傳的視頻片段聚合。然后在云端利用巨大的算力,通過SfM (Structure from Motion)技術(shù),把這些視頻“縫合”成一個完美的3D路口模型。在3D模型上標(biāo)好車道線后,再把結(jié)果“投影”回2D圖片上。這樣就自動生成了完美的訓(xùn)練數(shù)據(jù)。最終,段鵬飛團(tuán)隊利用這種方法,讓AI在云端“吃掉”了全美國復(fù)雜的路口數(shù)據(jù),訓(xùn)練出的FSD模型因此具備了超越人類的復(fù)雜路口處理能力。
貢獻(xiàn)三:Ego-Motion(自身運動估計)的極致優(yōu)化
如果車輛不知道自己的速度和轉(zhuǎn)向角度(哪怕有毫秒級的延遲或誤差),預(yù)測周圍車輛的軌跡就會出錯。他優(yōu)化了Autopilot底層的卡爾曼濾波(Kalman Filter)和 IMU (慣性測量單元)預(yù)處理算法。確保在攝像頭幀率波動或短暫失效(如強(qiáng)光刺眼)的瞬間,車輛依然能通過慣性傳感器精準(zhǔn)推算出未來幾秒的位姿。這是Robotaxi安全性的最后一道防線。
段鵬飛在特斯拉的核心任務(wù)可以總結(jié)為一句話:“讓汽車像人一樣,只用眼睛(攝像頭)就知道自己在哪里,該往哪里走,而不依賴早已過時的預(yù)制地圖?!?/span>
如果說FSD的大腦是神經(jīng)網(wǎng)絡(luò),那么段鵬飛就是負(fù)責(zé)小腦的人。他解決了“我是誰(定位)”和“我在哪(建圖)”這兩個最基礎(chǔ)但也最致命的自動駕駛問題。沒有他的工作,特斯拉的Robotaxi就必須依賴昂貴的激光雷達(dá)和高精地圖,無法實現(xiàn)馬斯克“低成本、全球通用”的商業(yè)愿景。
#02蔡云塔(Yun-TaTsai):特斯拉FSD的“眼睛”

背景:
蔡云塔本科畢業(yè)于臺灣交通大學(xué)(NationalChiaoTungUniversity),計算機(jī)科學(xué)專業(yè);碩士畢業(yè)于南加州大學(xué)(UniversityofSouthernCalifornia),計算機(jī)科學(xué)。
他的職業(yè)生涯貫穿了從移動端計算攝影到自動駕駛感知的頂尖領(lǐng)域,先后在諾基亞、英偉達(dá)、谷歌工作擁有超過10年的“軟硬結(jié)合”視覺算法落地經(jīng)驗,2021年加入特斯拉。
主要職責(zé):
特斯拉高級主任軟件工程師(TeslaSeniorStaffSoftwareEngineer),負(fù)責(zé)Autopilot視覺感知棧中最底層的圖像處理與神經(jīng)網(wǎng)絡(luò)設(shè)計,是Autopilot視覺底層架構(gòu)的關(guān)鍵把關(guān)人。
主要貢獻(xiàn):
蔡云塔在特斯拉的角色可以被形容為“讓汽車看清不可見之物”。
他的研發(fā)領(lǐng)域可以概括為:讓機(jī)器視覺超越人類視覺的動態(tài)范圍。在特斯拉移除雷達(dá)后,攝像頭必須在暴雨、逆光、漆黑深夜等極端環(huán)境下工作。而他的任務(wù)就是處理這些“看不清”的場景。
普通攝像頭在極低光照(如無路燈的鄉(xiāng)村道路)或惡劣天氣下,噪點極多,傳統(tǒng)ISP(圖像信號處理)會丟失大量細(xì)節(jié)。他開發(fā)了PhotonCountNetwork,這是一種直接處理傳感器原始光子/信號數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。它不依賴傳統(tǒng)的圖像降噪流程,而是用AI“猜”出黑暗中的物體輪廓和細(xì)節(jié)。這項技術(shù)是特斯拉FSD敢于移除雷達(dá)、僅靠攝像頭在黑夜中開啟自動駕駛的底氣來源。這是他最著名的技術(shù)貢獻(xiàn)之一。
自動駕駛最怕“光線劇變”,例如車輛從黑暗的隧道突然駛?cè)氪萄鄣年柟庀拢蛘咭雇韺ο蜍囬_遠(yuǎn)光燈。普通相機(jī)會瞬間“致盲”(過曝或欠曝)。他設(shè)計了專門的HDR遙測算法,確保Autopilot的攝像頭在這些極端動態(tài)范圍場景下,依然能提取出車道線、路障和行人的特征。
他還利用生成式AI(類似于他在Google做人像光影重建)的經(jīng)驗,改善FSD在雪天、大霧、雨天等低能見度環(huán)境下的感知穩(wěn)定性。這直接關(guān)系到Robotaxi能否在全天候條件下運營。
蔡云塔(Yun-Ta Tsai)是特斯拉FSD的“夜視儀”和“濾光鏡”,如果說其他架構(gòu)師在設(shè)計大腦,那么蔡云塔就是在設(shè)計視網(wǎng)膜。他通過Photon Count Network技術(shù),讓特斯拉普通的攝像頭發(fā)揮出了接近專有傳感器(如夜視儀/激光雷達(dá))的感知能力,這是Robotaxi能夠?qū)崿F(xiàn)低成本、全天候運營的關(guān)鍵物理基礎(chǔ)。
#03 PatrickCho(趙博):讓FSD理解物理世界

背景:
本科畢業(yè)于新加坡國立大學(xué)計算機(jī)科學(xué)專業(yè)(2013-2017),碩士畢業(yè)于斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)(2017-2019),研究方向為計算機(jī)視覺與深度學(xué)習(xí),導(dǎo)師為李飛飛團(tuán)隊關(guān)聯(lián)學(xué)者。
2019年入職特斯拉,歷任機(jī)器學(xué)習(xí)科學(xué)家、高級科學(xué)家、Staff科學(xué)家。
2024年底,升任視覺團(tuán)隊工程經(jīng)理,專注視覺機(jī)器學(xué)習(xí),被段鵬飛稱其為特斯拉多次視覺感知技術(shù)突破背后的“功臣”。
主要職責(zé):
視覺團(tuán)隊工程經(jīng)理,機(jī)器學(xué)習(xí)專家,隸屬段鵬飛領(lǐng)導(dǎo)的FleetLearning團(tuán)隊。
主要貢獻(xiàn):
Patrick Cho 解決了自動駕駛行業(yè)的一個痛點:“遇到訓(xùn)練集中沒有見過的物體怎么辦?”
貢獻(xiàn)一:主導(dǎo)開發(fā)“占用網(wǎng)絡(luò)” (Occupancy Network)
這是FSD以及Robotaxi安全性的基石。早期的Autopilot依靠“白名單”識別物體(這是否是車?這是否是人?)。如果路上出現(xiàn)了一輛側(cè)翻的卡車,或者一堆散落的貨物,系統(tǒng)可能因為“認(rèn)不出這是什么”而直接撞上去。而他參與設(shè)計的Occupancy Network占用網(wǎng)絡(luò)不再糾結(jié)“這是什么”,而是只關(guān)心“這里有沒有東西”。遇到此類場景首先用RegNet等骨干網(wǎng)絡(luò)從8個攝像頭提取圖像特征,再利用Transformer的注意力機(jī)制,將2D圖像特征映射到車輛周圍的3D向量空間中,系統(tǒng)再將車輛周圍的空間劃分成無數(shù)個微小的立方體(Voxels)。網(wǎng)絡(luò)會輸出每個立方體是“被占用(Occupied)”還是“空閑(Free)”的概率。最終得到哪怕路上有一塊奇怪的石頭或以前沒見過的外星飛船,只要它占據(jù)了空間,算法就能告訴控制系統(tǒng)“繞開它”。
貢獻(xiàn)二:解決“多攝融合”中的幾何一致性
特斯拉有8個攝像頭,每個角度不同。如果算法只是單獨處理每個攝像頭,當(dāng)一輛大卡車橫跨兩個攝像頭的視野時,系統(tǒng)可能會把它誤判為“兩輛車”或者直接把車切斷。他推動了將圖像特征直接轉(zhuǎn)換到BEV(鳥瞰圖)坐標(biāo)系下的算法落地,使用一組固定的“3D位置查詢(3D Positional Queries)”去各個攝像頭的特征圖中“抓取”信息。這確保了無論物體橫跨幾個攝像頭,最終在3D空間里重建出來的都是一個完整的、連續(xù)的物體。
貢獻(xiàn)三:利用 NeRF 提升感知分辨率
隨著FSD的發(fā)展,Patrick Cho所在的團(tuán)隊開始探索利用NeRF(神經(jīng)輻射場)技術(shù)。雖然NeRF通常用于離線重建,但視覺團(tuán)隊正在嘗試將其思想引入實時推理,通過分析光線在時間軸上的變化,來更精準(zhǔn)地判斷物體的體積和距離,這對于Robotaxi在狹窄街道(如兩邊停滿車的胡同)的通行能力有極大提升。
Patrick Cho 是特斯拉FSD空間感知能力”的賦予者。如果說之前的技術(shù)讓車“看懂圖片”,他的工作則是讓車“理解物理世界”,是確保車輛不撞上任何不明障礙物的技術(shù)守護(hù)者。
#04 張修明(XiumingZhang):利用生成式AI重構(gòu)3D場景,重建真實世界

背景:
清華大學(xué)自動化系學(xué)士,麻省理工學(xué)院計算機(jī)視覺與計算機(jī)圖形學(xué)博士;曾在Waymo從事3D感知算法研發(fā),2024年中加入特斯拉,擅長點云與視覺融合建模。特斯拉智駕團(tuán)隊中在3D感知和逆渲染(InverseRendering)領(lǐng)域的學(xué)術(shù)級頂尖人才。2025年7月離職,目前就職于英偉達(dá)擔(dān)任首席研究科學(xué)家。
主要職責(zé):
特斯拉FSD團(tuán)隊高級機(jī)器學(xué)習(xí)科學(xué)家,專注3D視覺與場景理解,隸屬段鵬飛FleetLearning團(tuán)隊。在特斯拉期間,他的主要任務(wù)是重建真實世界。不同于主要負(fù)責(zé)“識別物體”的感知團(tuán)隊,他的工作側(cè)重于利用生成式AI重構(gòu)3D場景。
主要貢獻(xiàn):
3D空間理解:利用其在MIT期間研究的逆渲染技術(shù),幫助FSD系統(tǒng)更精準(zhǔn)地重建3D駕駛環(huán)境,解決了傳統(tǒng)算法難以處理的復(fù)雜物體形狀和材質(zhì)反射問題。
物理規(guī)律對齊:將真實的物理模型注入神經(jīng)網(wǎng)絡(luò),使感知模型具備對周圍環(huán)境光影、遮擋的深度理解,提升了Robotaxi在復(fù)雜城市場景下的安全性。
參與OccupancyNetwork3D重建優(yōu)化,提升復(fù)雜路況下障礙物檢測精度;支撐Robotaxi在奧斯汀試點的場景泛化能力;優(yōu)化車端3D感知推理效率。
張修明代表了自動駕駛的一個新趨勢:從“判別式AI”(識別這是什么)轉(zhuǎn)向“生成式AI”(創(chuàng)造一個世界)。他在特斯拉的工作證明了,圖形學(xué)(Graphics)不再只是做游戲的工具,而是自動駕駛理解世界、進(jìn)行訓(xùn)練仿真不可或缺的核心技術(shù)。
#05查爾斯?祁(Charles . Qi):攻克空間理解痛點,奠定無激光雷達(dá)感知基石

背景:
斯坦福大學(xué)博士,他是著名的PointNet和PointNet++算法的發(fā)明者。他解決了“AI如何直接理解三維空間點云”的世界級難題。2023.5月至2025年在特斯拉任職期間擔(dān)任高級主任機(jī)器學(xué)習(xí)工程師,他是特斯拉FSD從規(guī)則代碼轉(zhuǎn)向端到端神經(jīng)網(wǎng)絡(luò)FSD V12以及Robotaxi 3D感知架構(gòu)成型的關(guān)鍵推動者之一。目前他已離職,現(xiàn)就職于OpenAI。
主要職責(zé):
將3D幾何處理的邏輯遷移到視覺系統(tǒng)上。
主要貢獻(xiàn):
他在特斯拉期間的工作,為Robotaxi解決了最核心的“空間理解”問題。
貢獻(xiàn)一:將PointNet思想引入Occupancy Network(占用網(wǎng)絡(luò))
特斯拉的攝像頭將視頻轉(zhuǎn)化為3D體素(Voxels)或稀疏點(Sparse Points)來表示障礙物。這些數(shù)據(jù)結(jié)構(gòu)在數(shù)學(xué)上與激光雷達(dá)的點云非常相似。Charles Qi 將他在PointNet++中提出的“多尺度特征提取”和“稀疏卷積”思想,應(yīng)用到了特斯拉的視覺占用網(wǎng)絡(luò)中,優(yōu)化了FSD處理稀疏空間數(shù)據(jù)的架構(gòu),使得系統(tǒng)能從攝像頭生成的“偽點云”中,極快地識別出物體(哪怕是不認(rèn)識的異形障礙物)的幾何輪廓。這讓特斯拉FSD在沒有激光雷達(dá)的情況下,依然具備了對空間距離和物體形狀的物理級理解能力。
貢獻(xiàn)二:FSD V12 / Robotaxi 的“端到端”感知底座
在端到端(End-to-End)架構(gòu)中,感知不再輸出“這是車、那是人”的方框,而是輸出“可行駛區(qū)域”和“潛在碰撞風(fēng)險”的高維特征。
Charles Qi 幫助構(gòu)建了這種基于幾何感知的Token(Geometry-aware Tokens),讓大模型在做決策時,不僅僅是基于2D圖像紋理,而是基于深層的3D空間結(jié)構(gòu)。這是FSD 能像人類一樣柔順駕駛的底層原因之一。
貢獻(xiàn)三:自動標(biāo)注(Auto-labeling)與數(shù)據(jù)仿真
他將Waymo成熟的“離線大模型指導(dǎo)車端小模型”的方法論帶入特斯拉。利用特斯拉巨大的云端算力,運行高精度的3D重建算法(類似于他擅長的3D Scene Understanding),自動為數(shù)百萬英里的視頻數(shù)據(jù)打上精準(zhǔn)的3D標(biāo)簽,用于訓(xùn)練Robotaxi的模型。
在特斯拉,他解決了“車怎么看懂路”的問題。盡管他已離職,但他為特斯拉留下的3D深度學(xué)習(xí)處理管線和稀疏感知架構(gòu),依然是目前FSD核心基石。正是因為有了他(以及他帶來的3D點云處理技術(shù)),特斯拉才得以在移除所有雷達(dá)后,依然具備了高精度的三維空間感知能力。
#06 FSD從V13到V14的跨越,段鵬飛團(tuán)隊貢獻(xiàn)了什么?
2025年特斯拉FSD V13到V14的跨越,并非簡單的軟件升級,而是從“輔助駕駛”向“機(jī)器獨立駕駛”的質(zhì)變。
第一,核心戰(zhàn)略定位的質(zhì)變:從“監(jiān)督”到“原生”。
FSD V13被定義為“無監(jiān)督駕駛的敲門磚”。它的核心使命是在現(xiàn)有的 Model 3/Y 車型上,將人類接管率降低到極低水平,主要是為了通過加州和中國監(jiān)管機(jī)構(gòu)的路考測試。此時,系統(tǒng)默認(rèn)駕駛位上仍有人。
而FSD V14 則被定義為“Robotaxi 原生架構(gòu)”。它是專為沒有方向盤、沒有踏板的Cybercab 設(shè)計的操作系統(tǒng)。它不僅關(guān)注如何“把車開好”,更關(guān)注如何“像網(wǎng)約車司機(jī)一樣服務(wù)乘客”以及處理極端邊緣情況(如災(zāi)害、警察指揮)。
第二,神經(jīng)網(wǎng)絡(luò)架構(gòu):從“模仿直覺”到“邏輯推理”。
在V13中,系統(tǒng)采用的是End-to-End V1.5(端到端1.5版)。
它的邏輯主要是“模仿學(xué)習(xí)”——通過觀看數(shù)百萬小時的人類駕駛視頻,模仿人類在特定場景下的反應(yīng)。比如看到紅燈就模仿人類停下來,但它缺乏深層的物理常識,遇到訓(xùn)練集中沒見過的怪事(如馬戲團(tuán)的大象上街)可能會猶豫。
在V14中,系統(tǒng)進(jìn)化為 World Model(世界模型)驅(qū)動的推理架構(gòu)。它不僅僅是模仿,而且具備了“預(yù)測未來”的能力。它會生成未來幾秒鐘的多種可能性視頻流(Simulated Futures),然后通過物理常識進(jìn)行推理(Reasoning)。
這一架構(gòu)的底層采用了Charles Qi 設(shè)計的Sparse Geometry Token(稀疏幾何令牌)技術(shù),使得AI能夠理解三維空間的物理本質(zhì),而不僅僅是二維圖像的紋理。這讓V14能夠處理從未見過的異形障礙物。
第三,感知能力的升維:從“幾何輪廓”到“材質(zhì)與時空”。
1. 材質(zhì)識別能力的突破
V13能夠通過Occupancy Network(占用網(wǎng)絡(luò))極其精準(zhǔn)地知道前方有障礙物,并描繪出它的形狀。
V14在此基礎(chǔ)上增加了材質(zhì)與語義感知。它不僅知道前面有個東西,還能判斷出那是“軟的黑色塑料袋”(可以直接壓過去)還是“硬的黑色石頭”(必須避讓)。
這是Patrick Cho團(tuán)隊在2025年的攻堅成果,極大地提升了Robotaxi的通行效率,避免了因為路上有個空紙箱就急剎車的情況。
2. 光線感知的極致化
V13引入了光子計數(shù),解決了夜間看不清的問題。
V14則實現(xiàn)了Full-Spectrum Perception(全譜感知)。它利用原始光子數(shù)據(jù),徹底解決了“致盲”問題(如出隧道瞬間的暴亮、夜間對向遠(yuǎn)光燈直射)。V14對光線的動態(tài)范圍處理能力是人眼的100倍以上。
這是Yun-Ta Tsai的核心貢獻(xiàn),他設(shè)計的HDR遙測算法保證了傳感器在任何極端光照下都不丟失數(shù)據(jù)。
3. 記憶能力的跨越(4D時空)
V13擁有短時記憶,能記得幾秒前的限速牌。
V14引入了4D Long-Term Memory(超長時序記憶)。如果車輛在兩分鐘前經(jīng)過路口時看到了警察的手勢,或者在500米外看到了施工預(yù)告,V14會一直“記著”這些信息直到通過該區(qū)域。
這同樣得益于Patrick Cho設(shè)計的時空體素存儲架構(gòu),解決了遮擋和視線盲區(qū)的問題。
第四,導(dǎo)航與決策,從“依賴地圖”到“語義理解”。
V13依然在一定程度上依賴導(dǎo)航地圖(GPS)的路徑規(guī)劃。如果地圖顯示直行,但前方實際上被臨時封路,V13可能會在路口猶豫,等待人類確認(rèn)。
V14實現(xiàn)了完全的Mapless Reasoning(無圖推理)。它不再死板地遵循GPS線路,而是像人類一樣通過閱讀路牌、錐桶擺放、甚至理解路邊工人的手勢來實時修改路線。它也能聽懂乘客的模糊指令,比如“就在那個穿紅衣服的人旁邊停”。
段鵬飛的視覺定位算法在V14中進(jìn)化為“語義導(dǎo)航”,讓車輛在完全陌生的環(huán)境中也能像老司機(jī)一樣認(rèn)路。
第五,優(yōu)化算力使用效率,從“暴力計算”到“混合專家”。
V13的模型參數(shù)量巨大,對老款HW 3.0芯片造成了極大的發(fā)熱和算力壓力,導(dǎo)致部分功能在老車上受限。
V14采用了Sparse MoE(稀疏混合專家)架構(gòu)。雖然總參數(shù)量更大,但在每一幀推理時,只激活當(dāng)前場景(如“高速公路”或“停車場”)所需的那一小部分神經(jīng)網(wǎng)絡(luò)。這使得V14運行起來反而比V13更高效、更省電。
這是段鵬飛在編譯器和底層系統(tǒng)優(yōu)化上的杰作,確保了Robotaxi不需要搭載昂貴的H100級芯片就能運行L4級算法。
第六,數(shù)據(jù)訓(xùn)練,從“真實世界”到“黑客帝國”。
V13的訓(xùn)練數(shù)據(jù)中,約80%來自真實車隊采集的視頻,20%來自仿真。
V14的訓(xùn)練數(shù)據(jù)發(fā)生了倒置,50%以上來自生成式仿真數(shù)據(jù)。因為在真實世界中,極端車禍(如小孩突然從卡車底鉆出來)的數(shù)據(jù)太少了,無法訓(xùn)練出足夠安全的模型。V14是在數(shù)千萬個由AI生成的“虛擬噩夢”中訓(xùn)練出來的。
這套強(qiáng)大的生成式世界模型(World Sim)是由張修明在離職前奠定的基礎(chǔ),它讓特斯拉擁有了上帝視角來制造訓(xùn)練場景。
總結(jié):
從FSD V13到FSD V14,本質(zhì)上是從“教車怎么開”變成了“教車怎么思考”。這五位華人專家的貢獻(xiàn)貫穿其中:蔡云塔讓它有了夜視眼;Patrick Cho讓它有了三維大腦和記憶;段鵬飛讓它有了強(qiáng)健的體魄(運行效率)和認(rèn)路能力;而 Charles Qi 和張修明的技術(shù)遺產(chǎn),則賦予了它理解物理世界和應(yīng)對未知風(fēng)險的本能。
#07 靳玉志:華為ADS 4.0升級的“決策者”

背景:
1977年生,華為20余年"技術(shù)派"高管,從華為光網(wǎng)絡(luò)產(chǎn)品線研發(fā)工程師做起,逐步晉升至傳送網(wǎng)波分產(chǎn)品領(lǐng)域總經(jīng)理(2011年)、傳送網(wǎng)產(chǎn)品線總裁(2017年)、光產(chǎn)品線總裁,2023年9月接任華為車BU CEO,2025年3月?lián)稳A為引望董事。
主要職責(zé):
統(tǒng)籌引望智能智駕業(yè)務(wù)整體戰(zhàn)略規(guī)劃與落地推進(jìn),主導(dǎo)乾崑智駕ADS系列解決方案的迭代與規(guī)模化商用,牽頭高速L3路測與商用籌備工作,為智駕技術(shù)研發(fā)與商業(yè)化落地提供支持。
主要貢獻(xiàn):
主導(dǎo)乾崑智駕WEWA架構(gòu)研發(fā),提出拋棄VLA“語言拐杖”的WA路徑,實現(xiàn)端到端處理時延減半,降低重殺率。推動ADS 4.0/4.1版本迭代,強(qiáng)化復(fù)雜場景連續(xù)決策能力。截至2025年7月,帶領(lǐng)團(tuán)隊實現(xiàn)搭載華為乾崑輔助駕駛系統(tǒng)的車輛突破100萬輛,激光雷達(dá)發(fā)貨量超100萬臺。
2025年核心貢獻(xiàn):定調(diào)L3商用元年,推動ADS從輔助向自動駕駛跨越,4月首發(fā)高速L3商用解決方案,使華為成為全球首個實現(xiàn)高速L3量產(chǎn)認(rèn)證的企業(yè),直接推動ADS 4.0成為行業(yè)L3落地的標(biāo)桿。在面對行業(yè)VLA大模型和世界模型,純視覺和多模態(tài)融合的路線爭議時,堅定選擇世界模型+多模態(tài)融合路線,明確激光雷達(dá)在極限場景(眩光、無光線)的必要性,為ADS 4.0的硬件配置(固態(tài)激光雷達(dá)、分布式毫米波雷達(dá))和軟件架構(gòu)(WEWA)定調(diào)。
#08卞紅林:華為ADS 4.0從技術(shù)到交付的“推動者”

背景:
1971年生,1997年畢業(yè)于中國科學(xué)技術(shù)大學(xué)電子工程專業(yè),同年加入華為,華為體系任職超28年。
2021年7月接任蘇箐任華為車BU智能駕駛產(chǎn)品部部長;9月任車BU CTO、研發(fā)管理部部長,統(tǒng)籌智駕技術(shù)路線。
2025年3月引望工商變更后任董事,現(xiàn)任引望董事、華為車BU CTO,統(tǒng)籌乾崑智駕WEWA架構(gòu)與全棧算法研發(fā),推動DriveVLA-W0等前沿算法落地。
主要職責(zé):
統(tǒng)籌智駕全棧算法技術(shù)路線、搭建WEWA技術(shù)架構(gòu)、負(fù)責(zé)前沿研發(fā)與技術(shù)標(biāo)準(zhǔn),對乾崑智駕算法體系迭代負(fù)責(zé)。
主要貢獻(xiàn):
第一,統(tǒng)籌WEWA架構(gòu)(世界引擎+世界行為模型)技術(shù)落地,支撐乾崑智駕ADS 4.0算法體系搭建,明確全棧智駕算法技術(shù)路線。
第二,推動乾崑智駕與中科院自動化所聯(lián)合研發(fā)DriveVLA-W0等前沿算法,聚焦世界模型、VLM在智駕場景的適配,強(qiáng)化感知與決策算法能力。
第三,主導(dǎo)ADS 4.0算法全棧技術(shù)評審,保障WEWA架構(gòu)下感知/決策/規(guī)劃算法的工程化適配,支撐規(guī)模推送。
他是ADS 4.0從技術(shù)概念到量產(chǎn)落地的核心管理者,其貢獻(xiàn)貫穿架構(gòu)設(shè)計-研發(fā)推進(jìn)-測試交付全流程。他并非ADS 4.0某一算法或模塊的直接設(shè)計者,而是技術(shù)整合者,進(jìn)度把控者,生態(tài)協(xié)調(diào)者。從技術(shù)層面,他以CTO視角整合通信、芯片、底盤技術(shù),解決ADS 4.0的算力、時延、傳感器融合痛點,支撐WEWA架構(gòu)落地。研發(fā)層面,他通過全鏈路管理確保ADS 4.0按時發(fā)布。產(chǎn)業(yè)層面,他推動ADS 4.0跨車企適配,成本下降30%,2025年搭載車輛近百萬輛,成為華為智駕從技術(shù)領(lǐng)先到市場領(lǐng)先的關(guān)鍵推手。
#08李文廣:華為ADS 4.0落地的“保障者”

背景:
李文廣加入華為后長期聚焦智能駕駛領(lǐng)域,早期任職于華為智能駕駛產(chǎn)品部,參與ADS全棧研發(fā),后隨華為車BU整合進(jìn)入引望,現(xiàn)任引望智能駕駛產(chǎn)品線總裁、華為智能駕駛產(chǎn)品部副部長,深度參與從技術(shù)研發(fā)到生態(tài)落地的全流程。
主要職責(zé):
負(fù)責(zé)智駕算法產(chǎn)品線交付,含感知/決策/規(guī)劃/控制等細(xì)分算法模塊研發(fā)、項目管理與落地。
主要貢獻(xiàn):
保障ADS 4.0從實驗室到量產(chǎn),統(tǒng)籌仿真驗證-實車測試-量產(chǎn)適配全流程,截至2025年9月,推動ADS 4.0完成6億公里高速L3仿真驗證、50億公里累計輔助駕駛實車測試,確保高速L3功能符合國家法規(guī)與安全標(biāo)準(zhǔn)。推動L3級自動駕駛的安全冗余與接管機(jī)制落地,公開明確2026年高速L3規(guī)模商用、2027年城區(qū)L4試點擴(kuò)展。
#10韓建華:華為ADS 4.0感知能力的“突破者”
背景:
韓建華上海交通大學(xué)碩士,擁有計算機(jī)視覺和自然語言處理雙重技術(shù)背景,具備“視覺感知-語言理解-動作決策”跨域融合能力。
2019年7月加入華為,參與早期VLM(視覺-語言模型)在駕駛場景的適配研究,探索“語言推理+視覺感知”融合方案。后隨華為車BU獨立并入引望智能,擔(dān)任自動駕駛VLA技術(shù)路線的核心負(fù)責(zé)人,是華為引望核心研究員(華為2030研究院團(tuán)隊)。他是引望智能VLA技術(shù)領(lǐng)域的靈魂人物,其研究成果直接推動了自動駕駛從傳統(tǒng)感知-決策分離向感知-理解-決策一體化的范式轉(zhuǎn)變。
主要職責(zé):
主導(dǎo)全球首個在單一VLM中隱式集成2D/3D感知能力的模型,解決傳統(tǒng)VLA模型空間定位漂移感知-規(guī)劃脫節(jié)問題,支撐引望智能WEWA架構(gòu)落地。
主要貢獻(xiàn):
韓建華的核心貢獻(xiàn)主要在“感知-理解-決策一體化”VLA模型研發(fā),他解決了自動駕駛領(lǐng)域空間感知弱的痛點。
眾所周知,智能輔助駕駛中的許多事故源于感知的不準(zhǔn)確與不穩(wěn)定性,尤其在長尾場景和復(fù)雜交匯場景中。這是因為智能駕駛高度依賴精準(zhǔn)且穩(wěn)定的空間感知能力,但是,當(dāng)前的視覺-語言模型(VLM)在空間定位與理解方面表現(xiàn)薄弱,基于這些模型構(gòu)建的視覺-語言-動作(VLA)系統(tǒng)存在感知和定位能力有限的問題。
為解決這些挑戰(zhàn),韓建華及團(tuán)隊提出Percept-WAM——一種感知增強(qiáng)型世界感知-動作模型,它首次在單一視覺-語言模型中隱式集成了2D/3D場景理解能力。不同于依賴問答式空間推理,Percept-WAM將2D/3D感知任務(wù)統(tǒng)一為世界-透視視圖(World-PV)和世界-鳥瞰圖(World-BEV),這兩種指令均編碼空間坐標(biāo)和置信度信息。然后再利用密集目標(biāo)感知的網(wǎng)格條件預(yù)測機(jī)制,融合IoU感知評分和并行自回歸解碼技術(shù),提升了長尾場景、遠(yuǎn)距離場景和小目標(biāo)場景下的感知穩(wěn)定性。此外,Percept-WAM利用預(yù)訓(xùn)練VLM參數(shù)保留通用智能(如邏輯推理),可直接輸出感知結(jié)果和軌跡控制指令。

2025年核心貢獻(xiàn):其貢獻(xiàn)聚焦ADS 4.0世界行為模型的感知層突破,為WEWA架構(gòu)提供2D/3D感知一體化的底層技術(shù)支撐。
貢獻(xiàn)一:核心技術(shù)突破,研發(fā)Percept-WAM模型,支撐世界行為模型的多模態(tài)感知。
統(tǒng)一2D/3D感知的“World令牌”設(shè)計:研發(fā)“World-PV(透視視圖)”與“World-BEV(鳥瞰圖)”雙令牌體系,將2D圖像特征、3D空間坐標(biāo)、置信度信息編碼為可復(fù)用令牌,解決傳統(tǒng)VLM(視覺-語言模型)“僅能理解語義、無法精準(zhǔn)定位”的缺陷,直接成為ADS 4.0世界行為模型的核心感知模塊:
貢獻(xiàn)二:長尾場景優(yōu)化,提升ADS4.0極端場景感知穩(wěn)定性。
IoU-aware置信度校準(zhǔn)技術(shù):針對大語言模型過置信導(dǎo)致的假陽性問題,為每個預(yù)測邊界框設(shè)計IoU置信度令牌,通過真實模型預(yù)測數(shù)據(jù)集(而非隨機(jī)擾動數(shù)據(jù))學(xué)習(xí)IoU分布,使ADS 4.0在雨天、夜間等長尾場景中,目標(biāo)識別假陽性率降低40%,直接支撐CAS 4.0全天候安全能力。
貢獻(xiàn)三:技術(shù)適配,支撐MoE架構(gòu)的專家模塊設(shè)計
參與ADS 4.0世界行為模型MoE多專家架構(gòu)的感知專家模塊設(shè)計,將Percept-WAM模型的2D/3D感知能力封裝為獨立專家網(wǎng)絡(luò),使系統(tǒng)可根據(jù)場景(高速/城區(qū)/泊車)動態(tài)調(diào)用,提升ADS 4.0在跨城車位到車位、施工區(qū)繞行等場景的感知-決策協(xié)同效率。
來源:第一電動網(wǎng)
作者:張芳超
本文地址:http://www.cbbreul.com/carnews/yongche/285835
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。