国产精品在线视频资源|av人人人人操爱香蕉视频|AAA黄色片子黄色a级片视频|亚洲综合视频网2|成人免费网站观影|国产天堂AV在线播放资源|成人无码精品一区二区黑寡妇在线|论理聚合视频一区二区三区|在线无码视频一区二区|淫荡人妻不卡av

  1. 首頁(yè)
  2. 車(chē)訊
  3. 用車(chē)
  4. 2025中國(guó)智駕開(kāi)發(fā)者50人(第三期)

2025中國(guó)智駕開(kāi)發(fā)者50人(第三期)

第一電動(dòng)張芳超

2025年度,誰(shuí)在推動(dòng)智駕進(jìn)步?我們推出《2025中國(guó)智駕開(kāi)發(fā)者50人》系列,分5期刊發(fā),這是第三期。

入圍的80多位候選人,絕大多數(shù)在國(guó)內(nèi),少數(shù)在國(guó)外,個(gè)別是海外華人。他們的研發(fā)成果,體現(xiàn)在過(guò)去兩年里發(fā)生的兩次智駕拐點(diǎn)上。但其中的大部分,都很低調(diào)。

入圍的標(biāo)準(zhǔn)有兩條(個(gè)別極其優(yōu)秀者例外):

1、2025年內(nèi),在全球頂會(huì)頂刊發(fā)表高引論文的第一作者(含合著團(tuán)隊(duì));

2、2025《智駕天梯榜》年度榜單上榜方案商和主機(jī)廠(chǎng)的核心研發(fā)人員。

經(jīng)過(guò)核實(shí)與比對(duì),最終挑選出50位有代表性的人物。他們的身份,大體分四類(lèi):

1、學(xué)術(shù)研究者,在頂會(huì)頂刊上發(fā)表高引論文的作者(含合著團(tuán)隊(duì));

2、研發(fā)組織者,定投資、定方向、定目標(biāo)、定范式、定團(tuán)隊(duì)的人,類(lèi)似奧本海默;

3、研發(fā)骨干,負(fù)責(zé)某一個(gè)具體方向的研發(fā)統(tǒng)籌,并和兄弟們一起拼搏出成果的人;

4、產(chǎn)品和工程負(fù)責(zé)人,負(fù)責(zé)產(chǎn)品定義、用戶(hù)交互、工程實(shí)施的人,做出了非常棒的產(chǎn)品體驗(yàn),或者保障了連續(xù)的工程交付表現(xiàn)。

繼第一期推薦11篇卓越論文的作者們,第二期記錄理想汽車(chē)、小鵬汽車(chē)和Momenta智駕關(guān)鍵人物之后,本期(第三期),記錄5名特斯拉和4名華為的智駕產(chǎn)研和工程負(fù)責(zé)人,正是他們推動(dòng)了先進(jìn)技術(shù)的落地,讓理論變成了現(xiàn)實(shí),并引領(lǐng)了智駕的發(fā)展方向。

圖片.png

#01 段鵬飛(PhilDuan):特斯拉FSD的“小腦”

在特斯拉智能駕駛與Robotaxi研發(fā)體系中,華人工程師一直扮演著至關(guān)重要的角色。截至2026年初,根據(jù)最新的技術(shù)演示(如FSD V14無(wú)監(jiān)督路測(cè))及內(nèi)部公開(kāi)信息,特斯拉在職的多位華人技術(shù)骨干和專(zhuān)家在感知大模型、車(chē)隊(duì)學(xué)習(xí)及工程化落地方面貢獻(xiàn)顯著,段鵬飛是其中的代表。

圖片.png

背景:

本科畢業(yè)于武漢理工大學(xué)光電信息科學(xué)與工程專(zhuān)業(yè),后獲美國(guó)俄亥俄大學(xué)電子工程碩博學(xué)位。??

2017年首次加入特斯拉,參與Autopilot早期研發(fā)。2019年因高強(qiáng)度工作離職,9個(gè)月后回歸。2022年升任首席軟件工程師,2022年AI Day介紹OccupancyNetwork,2025年因Robotaxi項(xiàng)目成果被馬斯克公開(kāi)表彰。他是特斯拉去高精地圖和純視覺(jué)定位戰(zhàn)略的核心奠基人之一。

主要職責(zé):

特斯拉AI團(tuán)隊(duì)首席軟件工程師,Autopilot關(guān)鍵技術(shù)負(fù)責(zé)人,F(xiàn)leetLearning團(tuán)隊(duì)負(fù)責(zé)人,主導(dǎo)數(shù)據(jù)與感知體系研發(fā),是目前特斯拉自動(dòng)駕駛算法團(tuán)隊(duì)的核心領(lǐng)軍人物之一。

其領(lǐng)導(dǎo)的FleetLearning團(tuán)隊(duì)聚焦兩大領(lǐng)域:

一個(gè)是?數(shù)據(jù)引擎優(yōu)化?——通過(guò)AI技術(shù)自動(dòng)處理全球特斯拉車(chē)輛的駕駛數(shù)據(jù)——真實(shí)駕駛視頻進(jìn)行“自動(dòng)標(biāo)注”,極大提升了FSD模型的訓(xùn)練吞吐量和迭代速度,提升數(shù)據(jù)標(biāo)注效率(從人工20分鐘/幀縮短至0.2秒),支撐自動(dòng)駕駛模型迭代。??

另一個(gè)是?感知系統(tǒng)開(kāi)發(fā)?——主導(dǎo)關(guān)鍵神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì),包括:OccupancyNetwork(占用網(wǎng)絡(luò))實(shí)現(xiàn)環(huán)境3D建模;視覺(jué)基礎(chǔ)模型與物體檢測(cè)系統(tǒng),用于實(shí)時(shí)識(shí)別道路、行人及交通信號(hào)。實(shí)現(xiàn)了從2D圖像到3D體積空間的感知跨越,是特斯拉移除雷達(dá)、轉(zhuǎn)向視覺(jué)純感知的核心技術(shù)支撐。

在過(guò)去幾年FSD的進(jìn)化過(guò)程中,段鵬飛扮演了關(guān)鍵角色。

貢獻(xiàn)一:主導(dǎo)“去高精地圖”的視覺(jué)定位系統(tǒng)

傳統(tǒng)的Waymo或Robotaxi依賴(lài)昂貴的高精地圖,車(chē)輛必須知道自己在地圖上的厘米級(jí)位置。一旦地圖沒(méi)更新(比如修路),車(chē)就廢了。他將自己在航空領(lǐng)域的慣性導(dǎo)航與視覺(jué)SLAM(同步定位與建圖)技術(shù)結(jié)合,通過(guò)設(shè)計(jì)視覺(jué)特征指紋的算法提取道路上的地標(biāo)特征(車(chē)道線(xiàn)邊緣、路燈、地面標(biāo)識(shí)),將其轉(zhuǎn)化為“視覺(jué)指紋”。當(dāng)FSD運(yùn)行時(shí),神經(jīng)網(wǎng)絡(luò)實(shí)時(shí)提取當(dāng)前攝像頭的特征,與云端簡(jiǎn)化的眾包路網(wǎng)數(shù)據(jù)進(jìn)行匹配。這讓特斯拉僅靠普通的GPS(誤差幾米)配合攝像頭,就能實(shí)現(xiàn)厘米級(jí)的車(chē)道定位。這是FSD能并在任何陌生道路上開(kāi)啟的關(guān)鍵——因?yàn)檐?chē)不再依賴(lài)預(yù)先死記硬背的“地圖”,而是具備了“看路”的能力。這是他對(duì)Robotaxi和FSD最具體的貢獻(xiàn),也是技術(shù)含金量最高的部分。

貢獻(xiàn)二:車(chē)隊(duì)自動(dòng)標(biāo)注與高維重建

訓(xùn)練FSD神經(jīng)網(wǎng)絡(luò)需要數(shù)億張標(biāo)注好的圖片(比如標(biāo)出每一條車(chē)道線(xiàn)),人工標(biāo)注太慢且昂貴。他參與構(gòu)建了特斯拉著名的自動(dòng)標(biāo)注機(jī)器,利用特斯拉售出的數(shù)百萬(wàn)輛車(chē),當(dāng)多輛特斯拉經(jīng)過(guò)同一個(gè)路口時(shí),系統(tǒng)會(huì)將它們上傳的視頻片段聚合。然后在云端利用巨大的算力,通過(guò)SfM (Structure from Motion)技術(shù),把這些視頻“縫合”成一個(gè)完美的3D路口模型。在3D模型上標(biāo)好車(chē)道線(xiàn)后,再把結(jié)果“投影”回2D圖片上。這樣就自動(dòng)生成了完美的訓(xùn)練數(shù)據(jù)。最終,段鵬飛團(tuán)隊(duì)利用這種方法,讓AI在云端“吃掉”了全美國(guó)復(fù)雜的路口數(shù)據(jù),訓(xùn)練出的FSD模型因此具備了超越人類(lèi)的復(fù)雜路口處理能力。

貢獻(xiàn)三:Ego-Motion(自身運(yùn)動(dòng)估計(jì))的極致優(yōu)化

如果車(chē)輛不知道自己的速度和轉(zhuǎn)向角度(哪怕有毫秒級(jí)的延遲或誤差),預(yù)測(cè)周?chē)?chē)輛的軌跡就會(huì)出錯(cuò)。他優(yōu)化了Autopilot底層的卡爾曼濾波(Kalman Filter)和 IMU (慣性測(cè)量單元)預(yù)處理算法。確保在攝像頭幀率波動(dòng)或短暫失效(如強(qiáng)光刺眼)的瞬間,車(chē)輛依然能通過(guò)慣性傳感器精準(zhǔn)推算出未來(lái)幾秒的位姿。這是Robotaxi安全性的最后一道防線(xiàn)。

段鵬飛在特斯拉的核心任務(wù)可以總結(jié)為一句話(huà):“讓汽車(chē)像人一樣,只用眼睛(攝像頭)就知道自己在哪里,該往哪里走,而不依賴(lài)早已過(guò)時(shí)的預(yù)制地圖。”

如果說(shuō)FSD的大腦是神經(jīng)網(wǎng)絡(luò),那么段鵬飛就是負(fù)責(zé)小腦的人。他解決了“我是誰(shuí)(定位)”和“我在哪(建圖)”這兩個(gè)最基礎(chǔ)但也最致命的自動(dòng)駕駛問(wèn)題。沒(méi)有他的工作,特斯拉的Robotaxi就必須依賴(lài)昂貴的激光雷達(dá)和高精地圖,無(wú)法實(shí)現(xiàn)馬斯克“低成本、全球通用”的商業(yè)愿景。

#02蔡云塔(Yun-TaTsai):特斯拉FSD的“眼睛”

圖片.png

背景:

蔡云塔本科畢業(yè)于臺(tái)灣交通大學(xué)(NationalChiaoTungUniversity),計(jì)算機(jī)科學(xué)專(zhuān)業(yè);碩士畢業(yè)于南加州大學(xué)(UniversityofSouthernCalifornia),計(jì)算機(jī)科學(xué)。

他的職業(yè)生涯貫穿了從移動(dòng)端計(jì)算攝影到自動(dòng)駕駛感知的頂尖領(lǐng)域,先后在諾基亞、英偉達(dá)、谷歌工作擁有超過(guò)10年的“軟硬結(jié)合”視覺(jué)算法落地經(jīng)驗(yàn),2021年加入特斯拉。

主要職責(zé):

特斯拉高級(jí)主任軟件工程師(TeslaSeniorStaffSoftwareEngineer),負(fù)責(zé)Autopilot視覺(jué)感知棧中最底層的圖像處理與神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),是Autopilot視覺(jué)底層架構(gòu)的關(guān)鍵把關(guān)人。

主要貢獻(xiàn):

蔡云塔在特斯拉的角色可以被形容為“讓汽車(chē)看清不可見(jiàn)之物”。

他的研發(fā)領(lǐng)域可以概括為:讓機(jī)器視覺(jué)超越人類(lèi)視覺(jué)的動(dòng)態(tài)范圍。在特斯拉移除雷達(dá)后,攝像頭必須在暴雨、逆光、漆黑深夜等極端環(huán)境下工作。而他的任務(wù)就是處理這些“看不清”的場(chǎng)景。

普通攝像頭在極低光照(如無(wú)路燈的鄉(xiāng)村道路)或惡劣天氣下,噪點(diǎn)極多,傳統(tǒng)ISP(圖像信號(hào)處理)會(huì)丟失大量細(xì)節(jié)。他開(kāi)發(fā)了PhotonCountNetwork,這是一種直接處理傳感器原始光子/信號(hào)數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。它不依賴(lài)傳統(tǒng)的圖像降噪流程,而是用AI“猜”出黑暗中的物體輪廓和細(xì)節(jié)。這項(xiàng)技術(shù)是特斯拉FSD敢于移除雷達(dá)、僅靠攝像頭在黑夜中開(kāi)啟自動(dòng)駕駛的底氣來(lái)源。這是他最著名的技術(shù)貢獻(xiàn)之一。

自動(dòng)駕駛最怕“光線(xiàn)劇變”,例如車(chē)輛從黑暗的隧道突然駛?cè)氪萄鄣年?yáng)光下,或者夜晚對(duì)向車(chē)開(kāi)遠(yuǎn)光燈。普通相機(jī)會(huì)瞬間“致盲”(過(guò)曝或欠曝)。他設(shè)計(jì)了專(zhuān)門(mén)的HDR遙測(cè)算法,確保Autopilot的攝像頭在這些極端動(dòng)態(tài)范圍場(chǎng)景下,依然能提取出車(chē)道線(xiàn)、路障和行人的特征。

他還利用生成式AI(類(lèi)似于他在Google做人像光影重建)的經(jīng)驗(yàn),改善FSD在雪天、大霧、雨天等低能見(jiàn)度環(huán)境下的感知穩(wěn)定性。這直接關(guān)系到Robotaxi能否在全天候條件下運(yùn)營(yíng)。

蔡云塔(Yun-Ta Tsai)是特斯拉FSD的“夜視儀”和“濾光鏡”,如果說(shuō)其他架構(gòu)師在設(shè)計(jì)大腦,那么蔡云塔就是在設(shè)計(jì)視網(wǎng)膜。他通過(guò)Photon Count Network技術(shù),讓特斯拉普通的攝像頭發(fā)揮出了接近專(zhuān)有傳感器(如夜視儀/激光雷達(dá))的感知能力,這是Robotaxi能夠?qū)崿F(xiàn)低成本、全天候運(yùn)營(yíng)的關(guān)鍵物理基礎(chǔ)。

#03 PatrickCho(趙博):讓FSD理解物理世界

圖片.png

背景:

本科畢業(yè)于新加坡國(guó)立大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)(2013-2017),碩士畢業(yè)于斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)(2017-2019),研究方向?yàn)橛?jì)算機(jī)視覺(jué)與深度學(xué)習(xí),導(dǎo)師為李飛飛團(tuán)隊(duì)關(guān)聯(lián)學(xué)者。

2019年入職特斯拉,歷任機(jī)器學(xué)習(xí)科學(xué)家、高級(jí)科學(xué)家、Staff科學(xué)家。

2024年底,升任視覺(jué)團(tuán)隊(duì)工程經(jīng)理,專(zhuān)注視覺(jué)機(jī)器學(xué)習(xí),被段鵬飛稱(chēng)其為特斯拉多次視覺(jué)感知技術(shù)突破背后的“功臣”。

主要職責(zé):

視覺(jué)團(tuán)隊(duì)工程經(jīng)理,機(jī)器學(xué)習(xí)專(zhuān)家,隸屬段鵬飛領(lǐng)導(dǎo)的FleetLearning團(tuán)隊(duì)。

主要貢獻(xiàn):

Patrick Cho 解決了自動(dòng)駕駛行業(yè)的一個(gè)痛點(diǎn):“遇到訓(xùn)練集中沒(méi)有見(jiàn)過(guò)的物體怎么辦?” 

貢獻(xiàn)一:主導(dǎo)開(kāi)發(fā)“占用網(wǎng)絡(luò)” (Occupancy Network)

這是FSD以及Robotaxi安全性的基石。早期的Autopilot依靠“白名單”識(shí)別物體(這是否是車(chē)?這是否是人?)。如果路上出現(xiàn)了一輛側(cè)翻的卡車(chē),或者一堆散落的貨物,系統(tǒng)可能因?yàn)椤罢J(rèn)不出這是什么”而直接撞上去。而他參與設(shè)計(jì)的Occupancy Network占用網(wǎng)絡(luò)不再糾結(jié)“這是什么”,而是只關(guān)心“這里有沒(méi)有東西”。遇到此類(lèi)場(chǎng)景首先用RegNet等骨干網(wǎng)絡(luò)從8個(gè)攝像頭提取圖像特征,再利用Transformer的注意力機(jī)制,將2D圖像特征映射到車(chē)輛周?chē)?D向量空間中,系統(tǒng)再將車(chē)輛周?chē)目臻g劃分成無(wú)數(shù)個(gè)微小的立方體(Voxels)。網(wǎng)絡(luò)會(huì)輸出每個(gè)立方體是“被占用(Occupied)”還是“空閑(Free)”的概率。最終得到哪怕路上有一塊奇怪的石頭或以前沒(méi)見(jiàn)過(guò)的外星飛船,只要它占據(jù)了空間,算法就能告訴控制系統(tǒng)“繞開(kāi)它”。

貢獻(xiàn)二:解決“多攝融合”中的幾何一致性

特斯拉有8個(gè)攝像頭,每個(gè)角度不同。如果算法只是單獨(dú)處理每個(gè)攝像頭,當(dāng)一輛大卡車(chē)橫跨兩個(gè)攝像頭的視野時(shí),系統(tǒng)可能會(huì)把它誤判為“兩輛車(chē)”或者直接把車(chē)切斷。他推動(dòng)了將圖像特征直接轉(zhuǎn)換到BEV(鳥(niǎo)瞰圖)坐標(biāo)系下的算法落地,使用一組固定的“3D位置查詢(xún)(3D Positional Queries)”去各個(gè)攝像頭的特征圖中“抓取”信息。這確保了無(wú)論物體橫跨幾個(gè)攝像頭,最終在3D空間里重建出來(lái)的都是一個(gè)完整的、連續(xù)的物體。

貢獻(xiàn)三:利用 NeRF 提升感知分辨率

隨著FSD的發(fā)展,Patrick Cho所在的團(tuán)隊(duì)開(kāi)始探索利用NeRF(神經(jīng)輻射場(chǎng))技術(shù)。雖然NeRF通常用于離線(xiàn)重建,但視覺(jué)團(tuán)隊(duì)正在嘗試將其思想引入實(shí)時(shí)推理,通過(guò)分析光線(xiàn)在時(shí)間軸上的變化,來(lái)更精準(zhǔn)地判斷物體的體積和距離,這對(duì)于Robotaxi在狹窄街道(如兩邊停滿(mǎn)車(chē)的胡同)的通行能力有極大提升。

Patrick Cho 是特斯拉FSD空間感知能力”的賦予者。如果說(shuō)之前的技術(shù)讓車(chē)“看懂圖片”,他的工作則是讓車(chē)“理解物理世界”,是確保車(chē)輛不撞上任何不明障礙物的技術(shù)守護(hù)者。

#04 張修明(XiumingZhang):利用生成式AI重構(gòu)3D場(chǎng)景,重建真實(shí)世界

圖片.png

背景:

清華大學(xué)自動(dòng)化系學(xué)士,麻省理工學(xué)院計(jì)算機(jī)視覺(jué)與計(jì)算機(jī)圖形學(xué)博士;曾在Waymo從事3D感知算法研發(fā),2024年中加入特斯拉,擅長(zhǎng)點(diǎn)云與視覺(jué)融合建模。特斯拉智駕團(tuán)隊(duì)中在3D感知和逆渲染(InverseRendering)領(lǐng)域的學(xué)術(shù)級(jí)頂尖人才。2025年7月離職,目前就職于英偉達(dá)擔(dān)任首席研究科學(xué)家。

主要職責(zé):

特斯拉FSD團(tuán)隊(duì)高級(jí)機(jī)器學(xué)習(xí)科學(xué)家,專(zhuān)注3D視覺(jué)與場(chǎng)景理解,隸屬段鵬飛FleetLearning團(tuán)隊(duì)。在特斯拉期間,他的主要任務(wù)是重建真實(shí)世界。不同于主要負(fù)責(zé)“識(shí)別物體”的感知團(tuán)隊(duì),他的工作側(cè)重于利用生成式AI重構(gòu)3D場(chǎng)景。

主要貢獻(xiàn):

3D空間理解:利用其在MIT期間研究的逆渲染技術(shù),幫助FSD系統(tǒng)更精準(zhǔn)地重建3D駕駛環(huán)境,解決了傳統(tǒng)算法難以處理的復(fù)雜物體形狀和材質(zhì)反射問(wèn)題。

物理規(guī)律對(duì)齊:將真實(shí)的物理模型注入神經(jīng)網(wǎng)絡(luò),使感知模型具備對(duì)周?chē)h(huán)境光影、遮擋的深度理解,提升了Robotaxi在復(fù)雜城市場(chǎng)景下的安全性。

參與OccupancyNetwork3D重建優(yōu)化,提升復(fù)雜路況下障礙物檢測(cè)精度;支撐Robotaxi在奧斯汀試點(diǎn)的場(chǎng)景泛化能力;優(yōu)化車(chē)端3D感知推理效率。

張修明代表了自動(dòng)駕駛的一個(gè)新趨勢(shì):從“判別式AI”(識(shí)別這是什么)轉(zhuǎn)向“生成式AI”(創(chuàng)造一個(gè)世界)。他在特斯拉的工作證明了,圖形學(xué)(Graphics)不再只是做游戲的工具,而是自動(dòng)駕駛理解世界、進(jìn)行訓(xùn)練仿真不可或缺的核心技術(shù)。

#05查爾斯?祁(Charles . Qi):攻克空間理解痛點(diǎn),奠定無(wú)激光雷達(dá)感知基石

圖片.png

背景:

斯坦福大學(xué)博士,他是著名的PointNet和PointNet++算法的發(fā)明者。他解決了“AI如何直接理解三維空間點(diǎn)云”的世界級(jí)難題。2023.5月至2025年在特斯拉任職期間擔(dān)任高級(jí)主任機(jī)器學(xué)習(xí)工程師,他是特斯拉FSD從規(guī)則代碼轉(zhuǎn)向端到端神經(jīng)網(wǎng)絡(luò)FSD V12以及Robotaxi 3D感知架構(gòu)成型的關(guān)鍵推動(dòng)者之一。目前他已離職,現(xiàn)就職于OpenAI。

主要職責(zé):

將3D幾何處理的邏輯遷移到視覺(jué)系統(tǒng)上。

主要貢獻(xiàn):

他在特斯拉期間的工作,為Robotaxi解決了最核心的“空間理解”問(wèn)題。

貢獻(xiàn)一:將PointNet思想引入Occupancy Network(占用網(wǎng)絡(luò))

特斯拉的攝像頭將視頻轉(zhuǎn)化為3D體素(Voxels)或稀疏點(diǎn)(Sparse Points)來(lái)表示障礙物。這些數(shù)據(jù)結(jié)構(gòu)在數(shù)學(xué)上與激光雷達(dá)的點(diǎn)云非常相似。Charles Qi 將他在PointNet++中提出的“多尺度特征提取”和“稀疏卷積”思想,應(yīng)用到了特斯拉的視覺(jué)占用網(wǎng)絡(luò)中,優(yōu)化了FSD處理稀疏空間數(shù)據(jù)的架構(gòu),使得系統(tǒng)能從攝像頭生成的“偽點(diǎn)云”中,極快地識(shí)別出物體(哪怕是不認(rèn)識(shí)的異形障礙物)的幾何輪廓。這讓特斯拉FSD在沒(méi)有激光雷達(dá)的情況下,依然具備了對(duì)空間距離和物體形狀的物理級(jí)理解能力。

貢獻(xiàn)二:FSD V12 / Robotaxi 的“端到端”感知底座

在端到端(End-to-End)架構(gòu)中,感知不再輸出“這是車(chē)、那是人”的方框,而是輸出“可行駛區(qū)域”和“潛在碰撞風(fēng)險(xiǎn)”的高維特征。

Charles Qi 幫助構(gòu)建了這種基于幾何感知的Token(Geometry-aware Tokens),讓大模型在做決策時(shí),不僅僅是基于2D圖像紋理,而是基于深層的3D空間結(jié)構(gòu)。這是FSD 能像人類(lèi)一樣柔順駕駛的底層原因之一。

貢獻(xiàn)三:自動(dòng)標(biāo)注(Auto-labeling)與數(shù)據(jù)仿真

他將Waymo成熟的“離線(xiàn)大模型指導(dǎo)車(chē)端小模型”的方法論帶入特斯拉。利用特斯拉巨大的云端算力,運(yùn)行高精度的3D重建算法(類(lèi)似于他擅長(zhǎng)的3D Scene Understanding),自動(dòng)為數(shù)百萬(wàn)英里的視頻數(shù)據(jù)打上精準(zhǔn)的3D標(biāo)簽,用于訓(xùn)練Robotaxi的模型。

在特斯拉,他解決了“車(chē)怎么看懂路”的問(wèn)題。盡管他已離職,但他為特斯拉留下的3D深度學(xué)習(xí)處理管線(xiàn)和稀疏感知架構(gòu),依然是目前FSD核心基石。正是因?yàn)橛辛怂ㄒ约八麕?lái)的3D點(diǎn)云處理技術(shù)),特斯拉才得以在移除所有雷達(dá)后,依然具備了高精度的三維空間感知能力。

#06 FSD從V13到V14的跨越,段鵬飛團(tuán)隊(duì)貢獻(xiàn)了什么?

2025年特斯拉FSD V13到V14的跨越,并非簡(jiǎn)單的軟件升級(jí),而是從“輔助駕駛”向“機(jī)器獨(dú)立駕駛”的質(zhì)變。

第一,核心戰(zhàn)略定位的質(zhì)變:從“監(jiān)督”到“原生”。

FSD V13被定義為“無(wú)監(jiān)督駕駛的敲門(mén)磚”。它的核心使命是在現(xiàn)有的 Model 3/Y 車(chē)型上,將人類(lèi)接管率降低到極低水平,主要是為了通過(guò)加州和中國(guó)監(jiān)管機(jī)構(gòu)的路考測(cè)試。此時(shí),系統(tǒng)默認(rèn)駕駛位上仍有人。

而FSD V14 則被定義為“Robotaxi 原生架構(gòu)”。它是專(zhuān)為沒(méi)有方向盤(pán)、沒(méi)有踏板的Cybercab 設(shè)計(jì)的操作系統(tǒng)。它不僅關(guān)注如何“把車(chē)開(kāi)好”,更關(guān)注如何“像網(wǎng)約車(chē)司機(jī)一樣服務(wù)乘客”以及處理極端邊緣情況(如災(zāi)害、警察指揮)。

第二,神經(jīng)網(wǎng)絡(luò)架構(gòu):從“模仿直覺(jué)”到“邏輯推理”。

在V13中,系統(tǒng)采用的是End-to-End V1.5(端到端1.5版)。

它的邏輯主要是“模仿學(xué)習(xí)”——通過(guò)觀(guān)看數(shù)百萬(wàn)小時(shí)的人類(lèi)駕駛視頻,模仿人類(lèi)在特定場(chǎng)景下的反應(yīng)。比如看到紅燈就模仿人類(lèi)停下來(lái),但它缺乏深層的物理常識(shí),遇到訓(xùn)練集中沒(méi)見(jiàn)過(guò)的怪事(如馬戲團(tuán)的大象上街)可能會(huì)猶豫。

在V14中,系統(tǒng)進(jìn)化為 World Model(世界模型)驅(qū)動(dòng)的推理架構(gòu)。它不僅僅是模仿,而且具備了“預(yù)測(cè)未來(lái)”的能力。它會(huì)生成未來(lái)幾秒鐘的多種可能性視頻流(Simulated Futures),然后通過(guò)物理常識(shí)進(jìn)行推理(Reasoning)。

這一架構(gòu)的底層采用了Charles Qi 設(shè)計(jì)的Sparse Geometry Token(稀疏幾何令牌)技術(shù),使得AI能夠理解三維空間的物理本質(zhì),而不僅僅是二維圖像的紋理。這讓V14能夠處理從未見(jiàn)過(guò)的異形障礙物。

第三,感知能力的升維:從“幾何輪廓”到“材質(zhì)與時(shí)空”。

1. 材質(zhì)識(shí)別能力的突破

V13能夠通過(guò)Occupancy Network(占用網(wǎng)絡(luò))極其精準(zhǔn)地知道前方有障礙物,并描繪出它的形狀。

V14在此基礎(chǔ)上增加了材質(zhì)與語(yǔ)義感知。它不僅知道前面有個(gè)東西,還能判斷出那是“軟的黑色塑料袋”(可以直接壓過(guò)去)還是“硬的黑色石頭”(必須避讓?zhuān)?/p>

這是Patrick Cho團(tuán)隊(duì)在2025年的攻堅(jiān)成果,極大地提升了Robotaxi的通行效率,避免了因?yàn)槁飞嫌袀€(gè)空紙箱就急剎車(chē)的情況。

2. 光線(xiàn)感知的極致化

V13引入了光子計(jì)數(shù),解決了夜間看不清的問(wèn)題。

V14則實(shí)現(xiàn)了Full-Spectrum Perception(全譜感知)。它利用原始光子數(shù)據(jù),徹底解決了“致盲”問(wèn)題(如出隧道瞬間的暴亮、夜間對(duì)向遠(yuǎn)光燈直射)。V14對(duì)光線(xiàn)的動(dòng)態(tài)范圍處理能力是人眼的100倍以上。

這是Yun-Ta Tsai的核心貢獻(xiàn),他設(shè)計(jì)的HDR遙測(cè)算法保證了傳感器在任何極端光照下都不丟失數(shù)據(jù)。

3. 記憶能力的跨越(4D時(shí)空)

V13擁有短時(shí)記憶,能記得幾秒前的限速牌。

V14引入了4D Long-Term Memory(超長(zhǎng)時(shí)序記憶)。如果車(chē)輛在兩分鐘前經(jīng)過(guò)路口時(shí)看到了警察的手勢(shì),或者在500米外看到了施工預(yù)告,V14會(huì)一直“記著”這些信息直到通過(guò)該區(qū)域。

這同樣得益于Patrick Cho設(shè)計(jì)的時(shí)空體素存儲(chǔ)架構(gòu),解決了遮擋和視線(xiàn)盲區(qū)的問(wèn)題。

第四,導(dǎo)航與決策,從“依賴(lài)地圖”到“語(yǔ)義理解”。

V13依然在一定程度上依賴(lài)導(dǎo)航地圖(GPS)的路徑規(guī)劃。如果地圖顯示直行,但前方實(shí)際上被臨時(shí)封路,V13可能會(huì)在路口猶豫,等待人類(lèi)確認(rèn)。

V14實(shí)現(xiàn)了完全的Mapless Reasoning(無(wú)圖推理)。它不再死板地遵循GPS線(xiàn)路,而是像人類(lèi)一樣通過(guò)閱讀路牌、錐桶擺放、甚至理解路邊工人的手勢(shì)來(lái)實(shí)時(shí)修改路線(xiàn)。它也能聽(tīng)懂乘客的模糊指令,比如“就在那個(gè)穿紅衣服的人旁邊停”。

段鵬飛的視覺(jué)定位算法在V14中進(jìn)化為“語(yǔ)義導(dǎo)航”,讓車(chē)輛在完全陌生的環(huán)境中也能像老司機(jī)一樣認(rèn)路。

第五,優(yōu)化算力使用效率,從“暴力計(jì)算”到“混合專(zhuān)家”。

V13的模型參數(shù)量巨大,對(duì)老款HW 3.0芯片造成了極大的發(fā)熱和算力壓力,導(dǎo)致部分功能在老車(chē)上受限。

V14采用了Sparse MoE(稀疏混合專(zhuān)家)架構(gòu)。雖然總參數(shù)量更大,但在每一幀推理時(shí),只激活當(dāng)前場(chǎng)景(如“高速公路”或“停車(chē)場(chǎng)”)所需的那一小部分神經(jīng)網(wǎng)絡(luò)。這使得V14運(yùn)行起來(lái)反而比V13更高效、更省電。

這是段鵬飛在編譯器和底層系統(tǒng)優(yōu)化上的杰作,確保了Robotaxi不需要搭載昂貴的H100級(jí)芯片就能運(yùn)行L4級(jí)算法。

第六,數(shù)據(jù)訓(xùn)練,從“真實(shí)世界”到“黑客帝國(guó)”。

V13的訓(xùn)練數(shù)據(jù)中,約80%來(lái)自真實(shí)車(chē)隊(duì)采集的視頻,20%來(lái)自仿真。

V14的訓(xùn)練數(shù)據(jù)發(fā)生了倒置,50%以上來(lái)自生成式仿真數(shù)據(jù)。因?yàn)樵谡鎸?shí)世界中,極端車(chē)禍(如小孩突然從卡車(chē)底鉆出來(lái))的數(shù)據(jù)太少了,無(wú)法訓(xùn)練出足夠安全的模型。V14是在數(shù)千萬(wàn)個(gè)由AI生成的“虛擬噩夢(mèng)”中訓(xùn)練出來(lái)的。

這套強(qiáng)大的生成式世界模型(World Sim)是由張修明在離職前奠定的基礎(chǔ),它讓特斯拉擁有了上帝視角來(lái)制造訓(xùn)練場(chǎng)景。

總結(jié):

從FSD V13到FSD V14,本質(zhì)上是從“教車(chē)怎么開(kāi)”變成了“教車(chē)怎么思考”。這五位華人專(zhuān)家的貢獻(xiàn)貫穿其中:蔡云塔讓它有了夜視眼;Patrick Cho讓它有了三維大腦和記憶;段鵬飛讓它有了強(qiáng)健的體魄(運(yùn)行效率)和認(rèn)路能力;而 Charles Qi 和張修明的技術(shù)遺產(chǎn),則賦予了它理解物理世界和應(yīng)對(duì)未知風(fēng)險(xiǎn)的本能。

#07 靳玉志:華為ADS 4.0升級(jí)的“決策者”

圖片.png

背景:

1977年生,華為20余年"技術(shù)派"高管,從華為光網(wǎng)絡(luò)產(chǎn)品線(xiàn)研發(fā)工程師做起,逐步晉升至傳送網(wǎng)波分產(chǎn)品領(lǐng)域總經(jīng)理(2011年)、傳送網(wǎng)產(chǎn)品線(xiàn)總裁(2017年)、光產(chǎn)品線(xiàn)總裁,2023年9月接任華為車(chē)BU CEO,2025年3月?lián)稳A為引望董事。

主要職責(zé):

統(tǒng)籌引望智能智駕業(yè)務(wù)整體戰(zhàn)略規(guī)劃與落地推進(jìn),主導(dǎo)乾崑智駕ADS系列解決方案的迭代與規(guī)?;逃茫瑺款^高速L3路測(cè)與商用籌備工作,為智駕技術(shù)研發(fā)與商業(yè)化落地提供支持。

主要貢獻(xiàn):

主導(dǎo)乾崑智駕WEWA架構(gòu)研發(fā),提出拋棄VLA“語(yǔ)言拐杖”的WA路徑,實(shí)現(xiàn)端到端處理時(shí)延減半,降低重殺率。推動(dòng)ADS 4.0/4.1版本迭代,強(qiáng)化復(fù)雜場(chǎng)景連續(xù)決策能力。截至2025年7月,帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)搭載華為乾崑輔助駕駛系統(tǒng)的車(chē)輛突破100萬(wàn)輛,激光雷達(dá)發(fā)貨量超100萬(wàn)臺(tái)。

2025年核心貢獻(xiàn):定調(diào)L3商用元年,推動(dòng)ADS從輔助向自動(dòng)駕駛跨越,4月首發(fā)高速L3商用解決方案,使華為成為全球首個(gè)實(shí)現(xiàn)高速L3量產(chǎn)認(rèn)證的企業(yè),直接推動(dòng)ADS 4.0成為行業(yè)L3落地的標(biāo)桿。在面對(duì)行業(yè)VLA大模型和世界模型,純視覺(jué)和多模態(tài)融合的路線(xiàn)爭(zhēng)議時(shí),堅(jiān)定選擇世界模型+多模態(tài)融合路線(xiàn),明確激光雷達(dá)在極限場(chǎng)景(眩光、無(wú)光線(xiàn))的必要性,為ADS 4.0的硬件配置(固態(tài)激光雷達(dá)、分布式毫米波雷達(dá))和軟件架構(gòu)(WEWA)定調(diào)。

#08卞紅林:華為ADS 4.0從技術(shù)到交付的“推動(dòng)者”

圖片.png

背景:

1971年生,1997年畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)電子工程專(zhuān)業(yè),同年加入華為,華為體系任職超28年。

2021年7月接任蘇箐任華為車(chē)BU智能駕駛產(chǎn)品部部長(zhǎng);9月任車(chē)BU CTO、研發(fā)管理部部長(zhǎng),統(tǒng)籌智駕技術(shù)路線(xiàn)。

2025年3月引望工商變更后任董事,現(xiàn)任引望董事、華為車(chē)BU CTO,統(tǒng)籌乾崑智駕WEWA架構(gòu)與全棧算法研發(fā),推動(dòng)DriveVLA-W0等前沿算法落地。

主要職責(zé):

統(tǒng)籌智駕全棧算法技術(shù)路線(xiàn)、搭建WEWA技術(shù)架構(gòu)、負(fù)責(zé)前沿研發(fā)與技術(shù)標(biāo)準(zhǔn),對(duì)乾崑智駕算法體系迭代負(fù)責(zé)。

主要貢獻(xiàn):

第一,統(tǒng)籌WEWA架構(gòu)(世界引擎+世界行為模型)技術(shù)落地,支撐乾崑智駕ADS 4.0算法體系搭建,明確全棧智駕算法技術(shù)路線(xiàn)。

第二,推動(dòng)乾崑智駕與中科院自動(dòng)化所聯(lián)合研發(fā)DriveVLA-W0等前沿算法,聚焦世界模型、VLM在智駕場(chǎng)景的適配,強(qiáng)化感知與決策算法能力。

第三,主導(dǎo)ADS 4.0算法全棧技術(shù)評(píng)審,保障WEWA架構(gòu)下感知/決策/規(guī)劃算法的工程化適配,支撐規(guī)模推送。

他是ADS 4.0從技術(shù)概念到量產(chǎn)落地的核心管理者,其貢獻(xiàn)貫穿架構(gòu)設(shè)計(jì)-研發(fā)推進(jìn)-測(cè)試交付全流程。他并非ADS 4.0某一算法或模塊的直接設(shè)計(jì)者,而是技術(shù)整合者,進(jìn)度把控者,生態(tài)協(xié)調(diào)者。從技術(shù)層面,他以CTO視角整合通信、芯片、底盤(pán)技術(shù),解決ADS 4.0的算力、時(shí)延、傳感器融合痛點(diǎn),支撐WEWA架構(gòu)落地。研發(fā)層面,他通過(guò)全鏈路管理確保ADS 4.0按時(shí)發(fā)布。產(chǎn)業(yè)層面,他推動(dòng)ADS 4.0跨車(chē)企適配,成本下降30%,2025年搭載車(chē)輛近百萬(wàn)輛,成為華為智駕從技術(shù)領(lǐng)先到市場(chǎng)領(lǐng)先的關(guān)鍵推手。

#08李文廣:華為ADS 4.0落地的“保障者”

圖片.png

背景:

李文廣加入華為后長(zhǎng)期聚焦智能駕駛領(lǐng)域,早期任職于華為智能駕駛產(chǎn)品部,參與ADS全棧研發(fā),后隨華為車(chē)BU整合進(jìn)入引望,現(xiàn)任引望智能駕駛產(chǎn)品線(xiàn)總裁、華為智能駕駛產(chǎn)品部副部長(zhǎng),深度參與從技術(shù)研發(fā)到生態(tài)落地的全流程。

主要職責(zé)

負(fù)責(zé)智駕算法產(chǎn)品線(xiàn)交付,含感知/決策/規(guī)劃/控制等細(xì)分算法模塊研發(fā)、項(xiàng)目管理與落地。

主要貢獻(xiàn):

保障ADS 4.0從實(shí)驗(yàn)室到量產(chǎn),統(tǒng)籌仿真驗(yàn)證-實(shí)車(chē)測(cè)試-量產(chǎn)適配全流程,截至2025年9月,推動(dòng)ADS 4.0完成6億公里高速L3仿真驗(yàn)證、50億公里累計(jì)輔助駕駛實(shí)車(chē)測(cè)試,確保高速L3功能符合國(guó)家法規(guī)與安全標(biāo)準(zhǔn)。推動(dòng)L3級(jí)自動(dòng)駕駛的安全冗余與接管機(jī)制落地,公開(kāi)明確2026年高速L3規(guī)模商用、2027年城區(qū)L4試點(diǎn)擴(kuò)展。

#10韓建華:華為ADS 4.0感知能力的“突破者”

背景:

韓建華上海交通大學(xué)碩士,擁有計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理雙重技術(shù)背景,具備“視覺(jué)感知-語(yǔ)言理解-動(dòng)作決策”跨域融合能力。

2019年7月加入華為,參與早期VLM(視覺(jué)-語(yǔ)言模型)在駕駛場(chǎng)景的適配研究,探索“語(yǔ)言推理+視覺(jué)感知”融合方案。后隨華為車(chē)BU獨(dú)立并入引望智能,擔(dān)任自動(dòng)駕駛VLA技術(shù)路線(xiàn)的核心負(fù)責(zé)人,是華為引望核心研究員(華為2030研究院團(tuán)隊(duì))。他是引望智能VLA技術(shù)領(lǐng)域的靈魂人物,其研究成果直接推動(dòng)了自動(dòng)駕駛從傳統(tǒng)感知-決策分離向感知-理解-決策一體化的范式轉(zhuǎn)變。

主要職責(zé):

主導(dǎo)全球首個(gè)在單一VLM中隱式集成2D/3D感知能力的模型,解決傳統(tǒng)VLA模型空間定位漂移感知-規(guī)劃脫節(jié)問(wèn)題,支撐引望智能WEWA架構(gòu)落地。

主要貢獻(xiàn):

韓建華的核心貢獻(xiàn)主要在“感知-理解-決策一體化”VLA模型研發(fā),他解決了自動(dòng)駕駛領(lǐng)域空間感知弱的痛點(diǎn)。

眾所周知,智能輔助駕駛中的許多事故源于感知的不準(zhǔn)確與不穩(wěn)定性,尤其在長(zhǎng)尾場(chǎng)景和復(fù)雜交匯場(chǎng)景中。這是因?yàn)橹悄荞{駛高度依賴(lài)精準(zhǔn)且穩(wěn)定的空間感知能力,但是,當(dāng)前的視覺(jué)-語(yǔ)言模型(VLM)在空間定位與理解方面表現(xiàn)薄弱,基于這些模型構(gòu)建的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)系統(tǒng)存在感知和定位能力有限的問(wèn)題。

為解決這些挑戰(zhàn),韓建華及團(tuán)隊(duì)提出Percept-WAM——一種感知增強(qiáng)型世界感知-動(dòng)作模型,它首次在單一視覺(jué)-語(yǔ)言模型中隱式集成了2D/3D場(chǎng)景理解能力。不同于依賴(lài)問(wèn)答式空間推理,Percept-WAM將2D/3D感知任務(wù)統(tǒng)一為世界-透視視圖(World-PV)和世界-鳥(niǎo)瞰圖(World-BEV),這兩種指令均編碼空間坐標(biāo)和置信度信息。然后再利用密集目標(biāo)感知的網(wǎng)格條件預(yù)測(cè)機(jī)制,融合IoU感知評(píng)分和并行自回歸解碼技術(shù),提升了長(zhǎng)尾場(chǎng)景、遠(yuǎn)距離場(chǎng)景和小目標(biāo)場(chǎng)景下的感知穩(wěn)定性。此外,Percept-WAM利用預(yù)訓(xùn)練VLM參數(shù)保留通用智能(如邏輯推理),可直接輸出感知結(jié)果和軌跡控制指令。

圖片.png

2025年核心貢獻(xiàn):其貢獻(xiàn)聚焦ADS 4.0世界行為模型的感知層突破,為WEWA架構(gòu)提供2D/3D感知一體化的底層技術(shù)支撐。

貢獻(xiàn)一:核心技術(shù)突破,研發(fā)Percept-WAM模型,支撐世界行為模型的多模態(tài)感知。

統(tǒng)一2D/3D感知的“World令牌”設(shè)計(jì):研發(fā)“World-PV(透視視圖)”與“World-BEV(鳥(niǎo)瞰圖)”雙令牌體系,將2D圖像特征、3D空間坐標(biāo)、置信度信息編碼為可復(fù)用令牌,解決傳統(tǒng)VLM(視覺(jué)-語(yǔ)言模型)“僅能理解語(yǔ)義、無(wú)法精準(zhǔn)定位”的缺陷,直接成為ADS 4.0世界行為模型的核心感知模塊:

貢獻(xiàn)二:長(zhǎng)尾場(chǎng)景優(yōu)化,提升ADS4.0極端場(chǎng)景感知穩(wěn)定性。

IoU-aware置信度校準(zhǔn)技術(shù):針對(duì)大語(yǔ)言模型過(guò)置信導(dǎo)致的假陽(yáng)性問(wèn)題,為每個(gè)預(yù)測(cè)邊界框設(shè)計(jì)IoU置信度令牌,通過(guò)真實(shí)模型預(yù)測(cè)數(shù)據(jù)集(而非隨機(jī)擾動(dòng)數(shù)據(jù))學(xué)習(xí)IoU分布,使ADS 4.0在雨天、夜間等長(zhǎng)尾場(chǎng)景中,目標(biāo)識(shí)別假陽(yáng)性率降低40%,直接支撐CAS 4.0全天候安全能力。

貢獻(xiàn)三:技術(shù)適配,支撐MoE架構(gòu)的專(zhuān)家模塊設(shè)計(jì)

參與ADS 4.0世界行為模型MoE多專(zhuān)家架構(gòu)的感知專(zhuān)家模塊設(shè)計(jì),將Percept-WAM模型的2D/3D感知能力封裝為獨(dú)立專(zhuān)家網(wǎng)絡(luò),使系統(tǒng)可根據(jù)場(chǎng)景(高速/城區(qū)/泊車(chē))動(dòng)態(tài)調(diào)用,提升ADS 4.0在跨城車(chē)位到車(chē)位、施工區(qū)繞行等場(chǎng)景的感知-決策協(xié)同效率。

來(lái)源:第一電動(dòng)網(wǎng)

作者:張芳超

本文地址:http://www.cbbreul.com/carnews/yongche/285835

返回第一電動(dòng)網(wǎng)首頁(yè) >

收藏
62
  • 分享到:
發(fā)表評(píng)論
新聞推薦
第一電動(dòng)網(wǎng)官方微信

您的詢(xún)價(jià)信息
已經(jīng)成功提交我們稍后會(huì)聯(lián)系您進(jìn)行報(bào)價(jià)!

第一電動(dòng)網(wǎng)
-->