用車一電報道

2025中國智駕開發(fā)者50人（第三期）

第一電動張芳超 2026-01-26 13:22

2025年度，誰在推動智駕進(jìn)步？我們推出《2025中國智駕開發(fā)者50人》系列，分5期刊發(fā)，這是第三期。

入圍的80多位候選人，絕大多數(shù)在國內(nèi)，少數(shù)在國外，個別是海外華人。他們的研發(fā)成果，體現(xiàn)在過去兩年里發(fā)生的兩次智駕拐點上。但其中的大部分，都很低調(diào)。

入圍的標(biāo)準(zhǔn)有兩條（個別極其優(yōu)秀者例外）：

1、2025年內(nèi)，在全球頂會頂刊發(fā)表高引論文的第一作者（含合著團(tuán)隊）；

2、2025《智駕天梯榜》年度榜單上榜方案商和主機(jī)廠的核心研發(fā)人員。

經(jīng)過核實與比對，最終挑選出50位有代表性的人物。他們的身份，大體分四類：

1、學(xué)術(shù)研究者，在頂會頂刊上發(fā)表高引論文的作者（含合著團(tuán)隊）；

2、研發(fā)組織者，定投資、定方向、定目標(biāo)、定范式、定團(tuán)隊的人，類似奧本海默；

3、研發(fā)骨干，負(fù)責(zé)某一個具體方向的研發(fā)統(tǒng)籌，并和兄弟們一起拼搏出成果的人；

4、產(chǎn)品和工程負(fù)責(zé)人，負(fù)責(zé)產(chǎn)品定義、用戶交互、工程實施的人，做出了非常棒的產(chǎn)品體驗，或者保障了連續(xù)的工程交付表現(xiàn)。

繼第一期推薦11篇卓越論文的作者們，第二期記錄理想汽車、小鵬汽車和Momenta智駕關(guān)鍵人物之后，本期（第三期），記錄5名特斯拉和4名華為的智駕產(chǎn)研和工程負(fù)責(zé)人，正是他們推動了先進(jìn)技術(shù)的落地，讓理論變成了現(xiàn)實，并引領(lǐng)了智駕的發(fā)展方向。

圖片.png

#01 段鵬飛（PhilDuan）：特斯拉FSD的“小腦”

在特斯拉智能駕駛與Robotaxi研發(fā)體系中，華人工程師一直扮演著至關(guān)重要的角色。截至2026年初，根據(jù)最新的技術(shù)演示（如FSD V14無監(jiān)督路測）及內(nèi)部公開信息，特斯拉在職的多位華人技術(shù)骨干和專家在感知大模型、車隊學(xué)習(xí)及工程化落地方面貢獻(xiàn)顯著，段鵬飛是其中的代表。

圖片.png

背景：

本科畢業(yè)于武漢理工大學(xué)光電信息科學(xué)與工程專業(yè)，后獲美國俄亥俄大學(xué)電子工程碩博學(xué)位。??

2017年首次加入特斯拉，參與Autopilot早期研發(fā)。2019年因高強(qiáng)度工作離職，9個月后回歸。2022年升任首席軟件工程師，2022年AI Day介紹OccupancyNetwork，2025年因Robotaxi項目成果被馬斯克公開表彰。他是特斯拉去高精地圖和純視覺定位戰(zhàn)略的核心奠基人之一。

主要職責(zé)：

特斯拉AI團(tuán)隊首席軟件工程師，Autopilot關(guān)鍵技術(shù)負(fù)責(zé)人，F(xiàn)leetLearning團(tuán)隊負(fù)責(zé)人，主導(dǎo)數(shù)據(jù)與感知體系研發(fā)，是目前特斯拉自動駕駛算法團(tuán)隊的核心領(lǐng)軍人物之一。

其領(lǐng)導(dǎo)的FleetLearning團(tuán)隊聚焦兩大領(lǐng)域：

一個是?數(shù)據(jù)引擎優(yōu)化?——通過AI技術(shù)自動處理全球特斯拉車輛的駕駛數(shù)據(jù)——真實駕駛視頻進(jìn)行“自動標(biāo)注”，極大提升了FSD模型的訓(xùn)練吞吐量和迭代速度，提升數(shù)據(jù)標(biāo)注效率（從人工20分鐘/幀縮短至0.2秒），支撐自動駕駛模型迭代。??

另一個是?感知系統(tǒng)開發(fā)?——主導(dǎo)關(guān)鍵神經(jīng)網(wǎng)絡(luò)模型設(shè)計，包括：OccupancyNetwork（占用網(wǎng)絡(luò)）實現(xiàn)環(huán)境3D建模；視覺基礎(chǔ)模型與物體檢測系統(tǒng)，用于實時識別道路、行人及交通信號。實現(xiàn)了從2D圖像到3D體積空間的感知跨越，是特斯拉移除雷達(dá)、轉(zhuǎn)向視覺純感知的核心技術(shù)支撐。

在過去幾年FSD的進(jìn)化過程中，段鵬飛扮演了關(guān)鍵角色。

貢獻(xiàn)一：主導(dǎo)“去高精地圖”的視覺定位系統(tǒng)

傳統(tǒng)的Waymo或Robotaxi依賴昂貴的高精地圖，車輛必須知道自己在地圖上的厘米級位置。一旦地圖沒更新（比如修路），車就廢了。他將自己在航空領(lǐng)域的慣性導(dǎo)航與視覺SLAM（同步定位與建圖）技術(shù)結(jié)合，通過設(shè)計視覺特征指紋的算法提取道路上的地標(biāo)特征（車道線邊緣、路燈、地面標(biāo)識），將其轉(zhuǎn)化為“視覺指紋”。當(dāng)FSD運行時，神經(jīng)網(wǎng)絡(luò)實時提取當(dāng)前攝像頭的特征，與云端簡化的眾包路網(wǎng)數(shù)據(jù)進(jìn)行匹配。這讓特斯拉僅靠普通的GPS（誤差幾米）配合攝像頭，就能實現(xiàn)厘米級的車道定位。這是FSD能并在任何陌生道路上開啟的關(guān)鍵——因為車不再依賴預(yù)先死記硬背的“地圖”，而是具備了“看路”的能力。這是他對Robotaxi和FSD最具體的貢獻(xiàn)，也是技術(shù)含金量最高的部分。

貢獻(xiàn)二：車隊自動標(biāo)注與高維重建

訓(xùn)練FSD神經(jīng)網(wǎng)絡(luò)需要數(shù)億張標(biāo)注好的圖片（比如標(biāo)出每一條車道線），人工標(biāo)注太慢且昂貴。他參與構(gòu)建了特斯拉著名的自動標(biāo)注機(jī)器，利用特斯拉售出的數(shù)百萬輛車，當(dāng)多輛特斯拉經(jīng)過同一個路口時，系統(tǒng)會將它們上傳的視頻片段聚合。然后在云端利用巨大的算力，通過SfM （Structure from Motion）技術(shù)，把這些視頻“縫合”成一個完美的3D路口模型。在3D模型上標(biāo)好車道線后，再把結(jié)果“投影”回2D圖片上。這樣就自動生成了完美的訓(xùn)練數(shù)據(jù)。最終，段鵬飛團(tuán)隊利用這種方法，讓AI在云端“吃掉”了全美國復(fù)雜的路口數(shù)據(jù)，訓(xùn)練出的FSD模型因此具備了超越人類的復(fù)雜路口處理能力。

貢獻(xiàn)三：Ego-Motion（自身運動估計）的極致優(yōu)化

如果車輛不知道自己的速度和轉(zhuǎn)向角度（哪怕有毫秒級的延遲或誤差），預(yù)測周圍車輛的軌跡就會出錯。他優(yōu)化了Autopilot底層的卡爾曼濾波（Kalman Filter）和 IMU （慣性測量單元）預(yù)處理算法。確保在攝像頭幀率波動或短暫失效（如強(qiáng)光刺眼）的瞬間，車輛依然能通過慣性傳感器精準(zhǔn)推算出未來幾秒的位姿。這是Robotaxi安全性的最后一道防線。

段鵬飛在特斯拉的核心任務(wù)可以總結(jié)為一句話：“讓汽車像人一樣，只用眼睛（攝像頭）就知道自己在哪里，該往哪里走，而不依賴早已過時的預(yù)制地圖?！?/span>

如果說FSD的大腦是神經(jīng)網(wǎng)絡(luò)，那么段鵬飛就是負(fù)責(zé)小腦的人。他解決了“我是誰（定位）”和“我在哪（建圖）”這兩個最基礎(chǔ)但也最致命的自動駕駛問題。沒有他的工作，特斯拉的Robotaxi就必須依賴昂貴的激光雷達(dá)和高精地圖，無法實現(xiàn)馬斯克“低成本、全球通用”的商業(yè)愿景。

#02蔡云塔（Yun-TaTsai）：特斯拉FSD的“眼睛”

圖片.png

背景：

蔡云塔本科畢業(yè)于臺灣交通大學(xué)（NationalChiaoTungUniversity），計算機(jī)科學(xué)專業(yè)；碩士畢業(yè)于南加州大學(xué)（UniversityofSouthernCalifornia），計算機(jī)科學(xué)。

他的職業(yè)生涯貫穿了從移動端計算攝影到自動駕駛感知的頂尖領(lǐng)域，先后在諾基亞、英偉達(dá)、谷歌工作擁有超過10年的“軟硬結(jié)合”視覺算法落地經(jīng)驗，2021年加入特斯拉。

主要職責(zé)：

特斯拉高級主任軟件工程師（TeslaSeniorStaffSoftwareEngineer），負(fù)責(zé)Autopilot視覺感知棧中最底層的圖像處理與神經(jīng)網(wǎng)絡(luò)設(shè)計，是Autopilot視覺底層架構(gòu)的關(guān)鍵把關(guān)人。

主要貢獻(xiàn)：

蔡云塔在特斯拉的角色可以被形容為“讓汽車看清不可見之物”。

他的研發(fā)領(lǐng)域可以概括為：讓機(jī)器視覺超越人類視覺的動態(tài)范圍。在特斯拉移除雷達(dá)后，攝像頭必須在暴雨、逆光、漆黑深夜等極端環(huán)境下工作。而他的任務(wù)就是處理這些“看不清”的場景。

普通攝像頭在極低光照（如無路燈的鄉(xiāng)村道路）或惡劣天氣下，噪點極多，傳統(tǒng)ISP（圖像信號處理）會丟失大量細(xì)節(jié)。他開發(fā)了PhotonCountNetwork，這是一種直接處理傳感器原始光子/信號數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。它不依賴傳統(tǒng)的圖像降噪流程，而是用AI“猜”出黑暗中的物體輪廓和細(xì)節(jié)。這項技術(shù)是特斯拉FSD敢于移除雷達(dá)、僅靠攝像頭在黑夜中開啟自動駕駛的底氣來源。這是他最著名的技術(shù)貢獻(xiàn)之一。

自動駕駛最怕“光線劇變”，例如車輛從黑暗的隧道突然駛?cè)氪萄鄣年柟庀拢蛘咭雇韺ο蜍囬_遠(yuǎn)光燈。普通相機(jī)會瞬間“致盲”（過曝或欠曝）。他設(shè)計了專門的HDR遙測算法，確保Autopilot的攝像頭在這些極端動態(tài)范圍場景下，依然能提取出車道線、路障和行人的特征。

他還利用生成式AI（類似于他在Google做人像光影重建）的經(jīng)驗，改善FSD在雪天、大霧、雨天等低能見度環(huán)境下的感知穩(wěn)定性。這直接關(guān)系到Robotaxi能否在全天候條件下運營。

蔡云塔（Yun-Ta Tsai）是特斯拉FSD的“夜視儀”和“濾光鏡”，如果說其他架構(gòu)師在設(shè)計大腦，那么蔡云塔就是在設(shè)計視網(wǎng)膜。他通過Photon Count Network技術(shù)，讓特斯拉普通的攝像頭發(fā)揮出了接近專有傳感器（如夜視儀/激光雷達(dá)）的感知能力，這是Robotaxi能夠?qū)崿F(xiàn)低成本、全天候運營的關(guān)鍵物理基礎(chǔ)。

#03 PatrickCho（趙博）：讓FSD理解物理世界

圖片.png

背景：

本科畢業(yè)于新加坡國立大學(xué)計算機(jī)科學(xué)專業(yè)（2013-2017），碩士畢業(yè)于斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)（2017-2019），研究方向為計算機(jī)視覺與深度學(xué)習(xí)，導(dǎo)師為李飛飛團(tuán)隊關(guān)聯(lián)學(xué)者。

2019年入職特斯拉，歷任機(jī)器學(xué)習(xí)科學(xué)家、高級科學(xué)家、Staff科學(xué)家。

2024年底，升任視覺團(tuán)隊工程經(jīng)理，專注視覺機(jī)器學(xué)習(xí)，被段鵬飛稱其為特斯拉多次視覺感知技術(shù)突破背后的“功臣”。

主要職責(zé)：

視覺團(tuán)隊工程經(jīng)理，機(jī)器學(xué)習(xí)專家，隸屬段鵬飛領(lǐng)導(dǎo)的FleetLearning團(tuán)隊。

主要貢獻(xiàn)：

Patrick Cho 解決了自動駕駛行業(yè)的一個痛點：“遇到訓(xùn)練集中沒有見過的物體怎么辦？”

貢獻(xiàn)一：主導(dǎo)開發(fā)“占用網(wǎng)絡(luò)” （Occupancy Network）

這是FSD以及Robotaxi安全性的基石。早期的Autopilot依靠“白名單”識別物體（這是否是車？這是否是人？）。如果路上出現(xiàn)了一輛側(cè)翻的卡車，或者一堆散落的貨物，系統(tǒng)可能因為“認(rèn)不出這是什么”而直接撞上去。而他參與設(shè)計的Occupancy Network占用網(wǎng)絡(luò)不再糾結(jié)“這是什么”，而是只關(guān)心“這里有沒有東西”。遇到此類場景首先用RegNet等骨干網(wǎng)絡(luò)從8個攝像頭提取圖像特征，再利用Transformer的注意力機(jī)制，將2D圖像特征映射到車輛周圍的3D向量空間中，系統(tǒng)再將車輛周圍的空間劃分成無數(shù)個微小的立方體（Voxels）。網(wǎng)絡(luò)會輸出每個立方體是“被占用（Occupied）”還是“空閑（Free）”的概率。最終得到哪怕路上有一塊奇怪的石頭或以前沒見過的外星飛船，只要它占據(jù)了空間，算法就能告訴控制系統(tǒng)“繞開它”。

貢獻(xiàn)二：解決“多攝融合”中的幾何一致性

特斯拉有8個攝像頭，每個角度不同。如果算法只是單獨處理每個攝像頭，當(dāng)一輛大卡車橫跨兩個攝像頭的視野時，系統(tǒng)可能會把它誤判為“兩輛車”或者直接把車切斷。他推動了將圖像特征直接轉(zhuǎn)換到BEV（鳥瞰圖）坐標(biāo)系下的算法落地，使用一組固定的“3D位置查詢（3D Positional Queries）”去各個攝像頭的特征圖中“抓取”信息。這確保了無論物體橫跨幾個攝像頭，最終在3D空間里重建出來的都是一個完整的、連續(xù)的物體。

貢獻(xiàn)三：利用 NeRF 提升感知分辨率

隨著FSD的發(fā)展，Patrick Cho所在的團(tuán)隊開始探索利用NeRF（神經(jīng)輻射場）技術(shù)。雖然NeRF通常用于離線重建，但視覺團(tuán)隊正在嘗試將其思想引入實時推理，通過分析光線在時間軸上的變化，來更精準(zhǔn)地判斷物體的體積和距離，這對于Robotaxi在狹窄街道（如兩邊停滿車的胡同）的通行能力有極大提升。

Patrick Cho 是特斯拉FSD空間感知能力”的賦予者。如果說之前的技術(shù)讓車“看懂圖片”，他的工作則是讓車“理解物理世界”，是確保車輛不撞上任何不明障礙物的技術(shù)守護(hù)者。

#04 張修明（XiumingZhang）：利用生成式AI重構(gòu)3D場景，重建真實世界

圖片.png

背景：

清華大學(xué)自動化系學(xué)士，麻省理工學(xué)院計算機(jī)視覺與計算機(jī)圖形學(xué)博士；曾在Waymo從事3D感知算法研發(fā)，2024年中加入特斯拉，擅長點云與視覺融合建模。特斯拉智駕團(tuán)隊中在3D感知和逆渲染（InverseRendering）領(lǐng)域的學(xué)術(shù)級頂尖人才。2025年7月離職，目前就職于英偉達(dá)擔(dān)任首席研究科學(xué)家。

主要職責(zé)：

特斯拉FSD團(tuán)隊高級機(jī)器學(xué)習(xí)科學(xué)家，專注3D視覺與場景理解，隸屬段鵬飛FleetLearning團(tuán)隊。在特斯拉期間，他的主要任務(wù)是重建真實世界。不同于主要負(fù)責(zé)“識別物體”的感知團(tuán)隊，他的工作側(cè)重于利用生成式AI重構(gòu)3D場景。

主要貢獻(xiàn)：

3D空間理解：利用其在MIT期間研究的逆渲染技術(shù)，幫助FSD系統(tǒng)更精準(zhǔn)地重建3D駕駛環(huán)境，解決了傳統(tǒng)算法難以處理的復(fù)雜物體形狀和材質(zhì)反射問題。

物理規(guī)律對齊：將真實的物理模型注入神經(jīng)網(wǎng)絡(luò)，使感知模型具備對周圍環(huán)境光影、遮擋的深度理解，提升了Robotaxi在復(fù)雜城市場景下的安全性。

參與OccupancyNetwork3D重建優(yōu)化，提升復(fù)雜路況下障礙物檢測精度；支撐Robotaxi在奧斯汀試點的場景泛化能力；優(yōu)化車端3D感知推理效率。

張修明代表了自動駕駛的一個新趨勢：從“判別式AI”（識別這是什么）轉(zhuǎn)向“生成式AI”（創(chuàng)造一個世界）。他在特斯拉的工作證明了，圖形學(xué)（Graphics）不再只是做游戲的工具，而是自動駕駛理解世界、進(jìn)行訓(xùn)練仿真不可或缺的核心技術(shù)。

#05查爾斯?祁（Charles . Qi）：攻克空間理解痛點，奠定無激光雷達(dá)感知基石

圖片.png

背景：

斯坦福大學(xué)博士，他是著名的PointNet和PointNet++算法的發(fā)明者。他解決了“AI如何直接理解三維空間點云”的世界級難題。2023.5月至2025年在特斯拉任職期間擔(dān)任高級主任機(jī)器學(xué)習(xí)工程師，他是特斯拉FSD從規(guī)則代碼轉(zhuǎn)向端到端神經(jīng)網(wǎng)絡(luò)FSD V12以及Robotaxi 3D感知架構(gòu)成型的關(guān)鍵推動者之一。目前他已離職，現(xiàn)就職于OpenAI。

主要職責(zé)：

將3D幾何處理的邏輯遷移到視覺系統(tǒng)上。

主要貢獻(xiàn)：

他在特斯拉期間的工作，為Robotaxi解決了最核心的“空間理解”問題。

貢獻(xiàn)一：將PointNet思想引入Occupancy Network（占用網(wǎng)絡(luò)）

特斯拉的攝像頭將視頻轉(zhuǎn)化為3D體素（Voxels）或稀疏點（Sparse Points）來表示障礙物。這些數(shù)據(jù)結(jié)構(gòu)在數(shù)學(xué)上與激光雷達(dá)的點云非常相似。Charles Qi 將他在PointNet++中提出的“多尺度特征提取”和“稀疏卷積”思想，應(yīng)用到了特斯拉的視覺占用網(wǎng)絡(luò)中，優(yōu)化了FSD處理稀疏空間數(shù)據(jù)的架構(gòu)，使得系統(tǒng)能從攝像頭生成的“偽點云”中，極快地識別出物體（哪怕是不認(rèn)識的異形障礙物）的幾何輪廓。這讓特斯拉FSD在沒有激光雷達(dá)的情況下，依然具備了對空間距離和物體形狀的物理級理解能力。

貢獻(xiàn)二：FSD V12 / Robotaxi 的“端到端”感知底座

在端到端（End-to-End）架構(gòu)中，感知不再輸出“這是車、那是人”的方框，而是輸出“可行駛區(qū)域”和“潛在碰撞風(fēng)險”的高維特征。

Charles Qi 幫助構(gòu)建了這種基于幾何感知的Token（Geometry-aware Tokens），讓大模型在做決策時，不僅僅是基于2D圖像紋理，而是基于深層的3D空間結(jié)構(gòu)。這是FSD 能像人類一樣柔順駕駛的底層原因之一。

貢獻(xiàn)三：自動標(biāo)注（Auto-labeling）與數(shù)據(jù)仿真

他將Waymo成熟的“離線大模型指導(dǎo)車端小模型”的方法論帶入特斯拉。利用特斯拉巨大的云端算力，運行高精度的3D重建算法（類似于他擅長的3D Scene Understanding），自動為數(shù)百萬英里的視頻數(shù)據(jù)打上精準(zhǔn)的3D標(biāo)簽，用于訓(xùn)練Robotaxi的模型。

在特斯拉，他解決了“車怎么看懂路”的問題。盡管他已離職，但他為特斯拉留下的3D深度學(xué)習(xí)處理管線和稀疏感知架構(gòu)，依然是目前FSD核心基石。正是因為有了他（以及他帶來的3D點云處理技術(shù)），特斯拉才得以在移除所有雷達(dá)后，依然具備了高精度的三維空間感知能力。

#06 FSD從V13到V14的跨越，段鵬飛團(tuán)隊貢獻(xiàn)了什么？

2025年特斯拉FSD V13到V14的跨越，并非簡單的軟件升級，而是從“輔助駕駛”向“機(jī)器獨立駕駛”的質(zhì)變。

第一，核心戰(zhàn)略定位的質(zhì)變：從“監(jiān)督”到“原生”。

FSD V13被定義為“無監(jiān)督駕駛的敲門磚”。它的核心使命是在現(xiàn)有的 Model 3/Y 車型上，將人類接管率降低到極低水平，主要是為了通過加州和中國監(jiān)管機(jī)構(gòu)的路考測試。此時，系統(tǒng)默認(rèn)駕駛位上仍有人。

而FSD V14 則被定義為“Robotaxi 原生架構(gòu)”。它是專為沒有方向盤、沒有踏板的Cybercab 設(shè)計的操作系統(tǒng)。它不僅關(guān)注如何“把車開好”，更關(guān)注如何“像網(wǎng)約車司機(jī)一樣服務(wù)乘客”以及處理極端邊緣情況（如災(zāi)害、警察指揮）。

第二，神經(jīng)網(wǎng)絡(luò)架構(gòu)：從“模仿直覺”到“邏輯推理”。

在V13中，系統(tǒng)采用的是End-to-End V1.5（端到端1.5版）。

它的邏輯主要是“模仿學(xué)習(xí)”——通過觀看數(shù)百萬小時的人類駕駛視頻，模仿人類在特定場景下的反應(yīng)。比如看到紅燈就模仿人類停下來，但它缺乏深層的物理常識，遇到訓(xùn)練集中沒見過的怪事（如馬戲團(tuán)的大象上街）可能會猶豫。

在V14中，系統(tǒng)進(jìn)化為 World Model（世界模型）驅(qū)動的推理架構(gòu)。它不僅僅是模仿，而且具備了“預(yù)測未來”的能力。它會生成未來幾秒鐘的多種可能性視頻流（Simulated Futures），然后通過物理常識進(jìn)行推理（Reasoning）。

這一架構(gòu)的底層采用了Charles Qi 設(shè)計的Sparse Geometry Token（稀疏幾何令牌）技術(shù)，使得AI能夠理解三維空間的物理本質(zhì)，而不僅僅是二維圖像的紋理。這讓V14能夠處理從未見過的異形障礙物。

第三，感知能力的升維：從“幾何輪廓”到“材質(zhì)與時空”。

1. 材質(zhì)識別能力的突破

V13能夠通過Occupancy Network（占用網(wǎng)絡(luò)）極其精準(zhǔn)地知道前方有障礙物，并描繪出它的形狀。

V14在此基礎(chǔ)上增加了材質(zhì)與語義感知。它不僅知道前面有個東西，還能判斷出那是“軟的黑色塑料袋”（可以直接壓過去）還是“硬的黑色石頭”（必須避讓）。

這是Patrick Cho團(tuán)隊在2025年的攻堅成果，極大地提升了Robotaxi的通行效率，避免了因為路上有個空紙箱就急剎車的情況。

2. 光線感知的極致化

V13引入了光子計數(shù)，解決了夜間看不清的問題。

V14則實現(xiàn)了Full-Spectrum Perception（全譜感知）。它利用原始光子數(shù)據(jù)，徹底解決了“致盲”問題（如出隧道瞬間的暴亮、夜間對向遠(yuǎn)光燈直射）。V14對光線的動態(tài)范圍處理能力是人眼的100倍以上。

這是Yun-Ta Tsai的核心貢獻(xiàn)，他設(shè)計的HDR遙測算法保證了傳感器在任何極端光照下都不丟失數(shù)據(jù)。

3. 記憶能力的跨越（4D時空）

V13擁有短時記憶，能記得幾秒前的限速牌。

V14引入了4D Long-Term Memory（超長時序記憶）。如果車輛在兩分鐘前經(jīng)過路口時看到了警察的手勢，或者在500米外看到了施工預(yù)告，V14會一直“記著”這些信息直到通過該區(qū)域。

這同樣得益于Patrick Cho設(shè)計的時空體素存儲架構(gòu)，解決了遮擋和視線盲區(qū)的問題。

第四，導(dǎo)航與決策，從“依賴地圖”到“語義理解”。

V13依然在一定程度上依賴導(dǎo)航地圖（GPS）的路徑規(guī)劃。如果地圖顯示直行，但前方實際上被臨時封路，V13可能會在路口猶豫，等待人類確認(rèn)。

V14實現(xiàn)了完全的Mapless Reasoning（無圖推理）。它不再死板地遵循GPS線路，而是像人類一樣通過閱讀路牌、錐桶擺放、甚至理解路邊工人的手勢來實時修改路線。它也能聽懂乘客的模糊指令，比如“就在那個穿紅衣服的人旁邊停”。

段鵬飛的視覺定位算法在V14中進(jìn)化為“語義導(dǎo)航”，讓車輛在完全陌生的環(huán)境中也能像老司機(jī)一樣認(rèn)路。

第五，優(yōu)化算力使用效率，從“暴力計算”到“混合專家”。

V13的模型參數(shù)量巨大，對老款HW 3.0芯片造成了極大的發(fā)熱和算力壓力，導(dǎo)致部分功能在老車上受限。

V14采用了Sparse MoE（稀疏混合專家）架構(gòu)。雖然總參數(shù)量更大，但在每一幀推理時，只激活當(dāng)前場景（如“高速公路”或“停車場”）所需的那一小部分神經(jīng)網(wǎng)絡(luò)。這使得V14運行起來反而比V13更高效、更省電。

這是段鵬飛在編譯器和底層系統(tǒng)優(yōu)化上的杰作，確保了Robotaxi不需要搭載昂貴的H100級芯片就能運行L4級算法。

第六，數(shù)據(jù)訓(xùn)練，從“真實世界”到“黑客帝國”。

V13的訓(xùn)練數(shù)據(jù)中，約80%來自真實車隊采集的視頻，20%來自仿真。

V14的訓(xùn)練數(shù)據(jù)發(fā)生了倒置，50%以上來自生成式仿真數(shù)據(jù)。因為在真實世界中，極端車禍（如小孩突然從卡車底鉆出來）的數(shù)據(jù)太少了，無法訓(xùn)練出足夠安全的模型。V14是在數(shù)千萬個由AI生成的“虛擬噩夢”中訓(xùn)練出來的。

這套強(qiáng)大的生成式世界模型（World Sim）是由張修明在離職前奠定的基礎(chǔ)，它讓特斯拉擁有了上帝視角來制造訓(xùn)練場景。

總結(jié)：

從FSD V13到FSD V14，本質(zhì)上是從“教車怎么開”變成了“教車怎么思考”。這五位華人專家的貢獻(xiàn)貫穿其中：蔡云塔讓它有了夜視眼；Patrick Cho讓它有了三維大腦和記憶；段鵬飛讓它有了強(qiáng)健的體魄（運行效率）和認(rèn)路能力；而 Charles Qi 和張修明的技術(shù)遺產(chǎn)，則賦予了它理解物理世界和應(yīng)對未知風(fēng)險的本能。

#07 靳玉志：華為ADS 4.0升級的“決策者”

圖片.png

背景：

1977年生，華為20余年"技術(shù)派"高管，從華為光網(wǎng)絡(luò)產(chǎn)品線研發(fā)工程師做起，逐步晉升至傳送網(wǎng)波分產(chǎn)品領(lǐng)域總經(jīng)理（2011年）、傳送網(wǎng)產(chǎn)品線總裁（2017年）、光產(chǎn)品線總裁，2023年9月接任華為車BU CEO，2025年3月?lián)稳A為引望董事。

主要職責(zé)：

統(tǒng)籌引望智能智駕業(yè)務(wù)整體戰(zhàn)略規(guī)劃與落地推進(jìn)，主導(dǎo)乾崑智駕ADS系列解決方案的迭代與規(guī)模化商用，牽頭高速L3路測與商用籌備工作，為智駕技術(shù)研發(fā)與商業(yè)化落地提供支持。

主要貢獻(xiàn)：

主導(dǎo)乾崑智駕WEWA架構(gòu)研發(fā)，提出拋棄VLA“語言拐杖”的WA路徑，實現(xiàn)端到端處理時延減半，降低重殺率。推動ADS 4.0/4.1版本迭代，強(qiáng)化復(fù)雜場景連續(xù)決策能力。截至2025年7月，帶領(lǐng)團(tuán)隊實現(xiàn)搭載華為乾崑輔助駕駛系統(tǒng)的車輛突破100萬輛，激光雷達(dá)發(fā)貨量超100萬臺。

2025年核心貢獻(xiàn)：定調(diào)L3商用元年，推動ADS從輔助向自動駕駛跨越，4月首發(fā)高速L3商用解決方案，使華為成為全球首個實現(xiàn)高速L3量產(chǎn)認(rèn)證的企業(yè)，直接推動ADS 4.0成為行業(yè)L3落地的標(biāo)桿。在面對行業(yè)VLA大模型和世界模型，純視覺和多模態(tài)融合的路線爭議時，堅定選擇世界模型+多模態(tài)融合路線，明確激光雷達(dá)在極限場景（眩光、無光線）的必要性，為ADS 4.0的硬件配置（固態(tài)激光雷達(dá)、分布式毫米波雷達(dá)）和軟件架構(gòu)（WEWA）定調(diào)。

#08卞紅林：華為ADS 4.0從技術(shù)到交付的“推動者”

圖片.png

背景：

1971年生，1997年畢業(yè)于中國科學(xué)技術(shù)大學(xué)電子工程專業(yè)，同年加入華為，華為體系任職超28年。

2021年7月接任蘇箐任華為車BU智能駕駛產(chǎn)品部部長；9月任車BU CTO、研發(fā)管理部部長，統(tǒng)籌智駕技術(shù)路線。

2025年3月引望工商變更后任董事，現(xiàn)任引望董事、華為車BU CTO，統(tǒng)籌乾崑智駕WEWA架構(gòu)與全棧算法研發(fā)，推動DriveVLA-W0等前沿算法落地。

主要職責(zé)：

統(tǒng)籌智駕全棧算法技術(shù)路線、搭建WEWA技術(shù)架構(gòu)、負(fù)責(zé)前沿研發(fā)與技術(shù)標(biāo)準(zhǔn)，對乾崑智駕算法體系迭代負(fù)責(zé)。

主要貢獻(xiàn)：

第一，統(tǒng)籌WEWA架構(gòu)（世界引擎+世界行為模型）技術(shù)落地，支撐乾崑智駕ADS 4.0算法體系搭建，明確全棧智駕算法技術(shù)路線。

第二，推動乾崑智駕與中科院自動化所聯(lián)合研發(fā)DriveVLA-W0等前沿算法，聚焦世界模型、VLM在智駕場景的適配，強(qiáng)化感知與決策算法能力。

第三，主導(dǎo)ADS 4.0算法全棧技術(shù)評審，保障WEWA架構(gòu)下感知/決策/規(guī)劃算法的工程化適配，支撐規(guī)模推送。

他是ADS 4.0從技術(shù)概念到量產(chǎn)落地的核心管理者，其貢獻(xiàn)貫穿架構(gòu)設(shè)計-研發(fā)推進(jìn)-測試交付全流程。他并非ADS 4.0某一算法或模塊的直接設(shè)計者，而是技術(shù)整合者，進(jìn)度把控者，生態(tài)協(xié)調(diào)者。從技術(shù)層面，他以CTO視角整合通信、芯片、底盤技術(shù)，解決ADS 4.0的算力、時延、傳感器融合痛點，支撐WEWA架構(gòu)落地。研發(fā)層面，他通過全鏈路管理確保ADS 4.0按時發(fā)布。產(chǎn)業(yè)層面，他推動ADS 4.0跨車企適配，成本下降30%，2025年搭載車輛近百萬輛，成為華為智駕從技術(shù)領(lǐng)先到市場領(lǐng)先的關(guān)鍵推手。

#08李文廣：華為ADS 4.0落地的“保障者”

圖片.png

背景：

李文廣加入華為后長期聚焦智能駕駛領(lǐng)域，早期任職于華為智能駕駛產(chǎn)品部，參與ADS全棧研發(fā)，后隨華為車BU整合進(jìn)入引望，現(xiàn)任引望智能駕駛產(chǎn)品線總裁、華為智能駕駛產(chǎn)品部副部長，深度參與從技術(shù)研發(fā)到生態(tài)落地的全流程。

主要職責(zé)：

負(fù)責(zé)智駕算法產(chǎn)品線交付，含感知/決策/規(guī)劃/控制等細(xì)分算法模塊研發(fā)、項目管理與落地。

主要貢獻(xiàn)：

保障ADS 4.0從實驗室到量產(chǎn)，統(tǒng)籌仿真驗證-實車測試-量產(chǎn)適配全流程，截至2025年9月，推動ADS 4.0完成6億公里高速L3仿真驗證、50億公里累計輔助駕駛實車測試，確保高速L3功能符合國家法規(guī)與安全標(biāo)準(zhǔn)。推動L3級自動駕駛的安全冗余與接管機(jī)制落地，公開明確2026年高速L3規(guī)模商用、2027年城區(qū)L4試點擴(kuò)展。

#10韓建華：華為ADS 4.0感知能力的“突破者”

背景：

韓建華上海交通大學(xué)碩士，擁有計算機(jī)視覺和自然語言處理雙重技術(shù)背景，具備“視覺感知-語言理解-動作決策”跨域融合能力。

2019年7月加入華為，參與早期VLM（視覺-語言模型）在駕駛場景的適配研究，探索“語言推理+視覺感知”融合方案。后隨華為車BU獨立并入引望智能，擔(dān)任自動駕駛VLA技術(shù)路線的核心負(fù)責(zé)人，是華為引望核心研究員（華為2030研究院團(tuán)隊）。他是引望智能VLA技術(shù)領(lǐng)域的靈魂人物，其研究成果直接推動了自動駕駛從傳統(tǒng)感知-決策分離向感知-理解-決策一體化的范式轉(zhuǎn)變。

主要職責(zé)：

主導(dǎo)全球首個在單一VLM中隱式集成2D/3D感知能力的模型，解決傳統(tǒng)VLA模型空間定位漂移感知-規(guī)劃脫節(jié)問題，支撐引望智能WEWA架構(gòu)落地。

主要貢獻(xiàn)：

韓建華的核心貢獻(xiàn)主要在“感知-理解-決策一體化”VLA模型研發(fā)，他解決了自動駕駛領(lǐng)域空間感知弱的痛點。

眾所周知，智能輔助駕駛中的許多事故源于感知的不準(zhǔn)確與不穩(wěn)定性，尤其在長尾場景和復(fù)雜交匯場景中。這是因為智能駕駛高度依賴精準(zhǔn)且穩(wěn)定的空間感知能力，但是，當(dāng)前的視覺-語言模型（VLM）在空間定位與理解方面表現(xiàn)薄弱，基于這些模型構(gòu)建的視覺-語言-動作（VLA）系統(tǒng)存在感知和定位能力有限的問題。

為解決這些挑戰(zhàn)，韓建華及團(tuán)隊提出Percept-WAM——一種感知增強(qiáng)型世界感知-動作模型，它首次在單一視覺-語言模型中隱式集成了2D/3D場景理解能力。不同于依賴問答式空間推理，Percept-WAM將2D/3D感知任務(wù)統(tǒng)一為世界-透視視圖（World-PV）和世界-鳥瞰圖（World-BEV），這兩種指令均編碼空間坐標(biāo)和置信度信息。然后再利用密集目標(biāo)感知的網(wǎng)格條件預(yù)測機(jī)制，融合IoU感知評分和并行自回歸解碼技術(shù)，提升了長尾場景、遠(yuǎn)距離場景和小目標(biāo)場景下的感知穩(wěn)定性。此外，Percept-WAM利用預(yù)訓(xùn)練VLM參數(shù)保留通用智能（如邏輯推理），可直接輸出感知結(jié)果和軌跡控制指令。

圖片.png

2025年核心貢獻(xiàn)：其貢獻(xiàn)聚焦ADS 4.0世界行為模型的感知層突破，為WEWA架構(gòu)提供2D/3D感知一體化的底層技術(shù)支撐。

貢獻(xiàn)一：核心技術(shù)突破，研發(fā)Percept-WAM模型，支撐世界行為模型的多模態(tài)感知。

統(tǒng)一2D/3D感知的“World令牌”設(shè)計：研發(fā)“World-PV（透視視圖）”與“World-BEV（鳥瞰圖）”雙令牌體系，將2D圖像特征、3D空間坐標(biāo)、置信度信息編碼為可復(fù)用令牌，解決傳統(tǒng)VLM（視覺-語言模型）“僅能理解語義、無法精準(zhǔn)定位”的缺陷，直接成為ADS 4.0世界行為模型的核心感知模塊：

貢獻(xiàn)二：長尾場景優(yōu)化，提升ADS4.0極端場景感知穩(wěn)定性。

IoU-aware置信度校準(zhǔn)技術(shù)：針對大語言模型過置信導(dǎo)致的假陽性問題，為每個預(yù)測邊界框設(shè)計IoU置信度令牌，通過真實模型預(yù)測數(shù)據(jù)集（而非隨機(jī)擾動數(shù)據(jù)）學(xué)習(xí)IoU分布，使ADS 4.0在雨天、夜間等長尾場景中，目標(biāo)識別假陽性率降低40%，直接支撐CAS 4.0全天候安全能力。

貢獻(xiàn)三：技術(shù)適配，支撐MoE架構(gòu)的專家模塊設(shè)計

參與ADS 4.0世界行為模型MoE多專家架構(gòu)的感知專家模塊設(shè)計，將Percept-WAM模型的2D/3D感知能力封裝為獨立專家網(wǎng)絡(luò)，使系統(tǒng)可根據(jù)場景（高速/城區(qū)/泊車）動態(tài)調(diào)用，提升ADS 4.0在跨城車位到車位、施工區(qū)繞行等場景的感知-決策協(xié)同效率。

來源：第一電動網(wǎng)

作者：張芳超

本文地址：http://www.cbbreul.com/carnews/yongche/285835

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。