NeRF具有顛覆性，但進(jìn)入自動駕駛仿真仍需強(qiáng)大的商業(yè)動因

第一電動大牛作者智車星球 2023-09-19 09:25

8月30日的直播我們邀請了51Sim CEO鮑世強(qiáng)以及清華AIR助理教授趙昊，共同討論當(dāng)前自動駕駛仿真難點以及新的方向。

嘉賓精彩發(fā)言及觀點：

Graphics 改變了整個動畫和游戲行業(yè)，但它不適合做重建；NeRF要直接改變所有的渲染框架，還需要有足夠強(qiáng)的商業(yè)動因。
無論是規(guī)控仿真還是感知仿真，核心挑戰(zhàn)之一是解決真實數(shù)據(jù)太死和仿真數(shù)據(jù)太假這兩個問題。
感知仿真關(guān)注的重點是在路面、路上和周圍的交通參與者、以及馬路上的一些標(biāo)識、道路標(biāo)牌等這些要素的真實性，道路旁邊一些建筑是不是具有真實性，其實不那么重要。
我們需要保證采集回來的數(shù)據(jù)本身價值比較高，否則可能存儲數(shù)據(jù)的成本會超過數(shù)據(jù)本身的價值。
越往后發(fā)展，仿真越不是數(shù)據(jù)的生成器，而是一個數(shù)據(jù)倍增器的作用。
測試主要兩個目標(biāo)，一個是發(fā)現(xiàn)問題，另外一個是證明沒有問題。
AIGC核心目的不是為了生成新的數(shù)據(jù)，而是為了幫助用戶更快捷地通過自然語言的方式提高場景制作的效率。

以下為直播聊天實錄，有所刪減，完整直播視頻請查看「智車星球」視頻號：

—

NeRF帶來的新方向

智車星球：傳統(tǒng)的渲染框架和剛剛說到神經(jīng)渲染框架有什么核心的區(qū)別？

趙昊：從CV界的視角來看，Modeling（建模）就是重建物理世界。這個世界上每個真實的物體都對應(yīng)一個幾何特征，物體本身會有一些表面的材質(zhì)。這個世界上有了光，我們有一個成像模型，通過這些我們就拿到了一張圖片，然后就要去解決 Inverse problem （逆問題）。這件事情從計算機(jī)視覺誕生的那一刻起，就是一個圣杯。

早期Graphics（圖形學(xué)）有很多種方式去渲染，最后打贏的一派是適合做動畫的和做游戲的，但是這一件東西就是這一套 rendering pipeline （渲染流水線），可能只適合做動畫和游戲，但不適合做重建。

所以在2020年的時候，谷歌的Graphics專家Jon Barron重新把 volume rendering（體積渲染）給了搬出來，這就直接把Inverse rendering（反向渲染）用一種全新的思路去解決了。

而NeRF有一個比較成功的點在于用一個MLP就讓大家都明白它是什么意思，所以我覺得Jon Barron的思想比較深刻，他把最后的結(jié)果以大道至簡的形式呈現(xiàn)出來，并觸發(fā)了這一場革命。當(dāng)然從純學(xué)術(shù)史的角度來講，他一開始并不是為了重建，他一開始是為了做Novel view synthesis（新視角合成）。NeRF的volume rendering這個范式的改變，直接打開了新思路，現(xiàn)在NeRF的formation已經(jīng)各種各樣了。

總的來說，圖形學(xué)改變了整個動畫和游戲行業(yè)，但它不適合做重建。然后inverse rendering被NeRF又給救了回來，進(jìn)而改變了我們?nèi)ニ伎既绾沃亟ㄎ锢硎澜绲姆绞健?/span>但如果NeRF要直接改變所有的渲染框架，改變整個電影和游戲工業(yè)界，甚至改變GPU的架構(gòu)為它適應(yīng)，我覺得還是比較遙遠(yuǎn)的事情，這更多是一個商業(yè)行為，要看后面有沒有足夠的商業(yè)動因。但我覺得大家對于圖像真實性的不懈追求肯定一直有，我覺得是慢慢朝著那個方向改變。

智車星球：自動駕駛仿真主要是感知仿真與規(guī)控仿真，從大框架看兩者都包括了仿真場景的建立、仿真執(zhí)行以及仿真評價，但在具體操作上，二者有哪些區(qū)別？核心的挑戰(zhàn)是什么？

鮑世強(qiáng)：如果大家對測試工作比較了解的話，就知道這個測試包括單元測試、模塊測試、集成測試等，是一個從小到大的過程，在不同的開發(fā)環(huán)節(jié)，會產(chǎn)生不同級別的一些測試。

對于智駕的仿真測試就涉及到感知系統(tǒng)、定位、規(guī)控系統(tǒng)的測試，實際執(zhí)行上又有比如說軟件層面的測試，一些硬件在環(huán)方面的測試。

所以大多數(shù)情況不能泛泛來講，要看我們到底要測什么，被測物的環(huán)節(jié)越小越集中，測試的針對性越強(qiáng)，如果發(fā)現(xiàn)了一些問題，指向性也非常明顯。

感知系統(tǒng)單獨的測試，一般通過開環(huán)、回灌的這樣一些方式可能居多，其實某種程度上來講它其實很難算仿真，因為用真實數(shù)據(jù)更多一點，當(dāng)然也可以用仿真生成的虛擬數(shù)據(jù)集去做回灌，這也是未來的一個趨勢。

目前規(guī)控測試更成熟一點，大家對它的確定性并沒有太大的異議。

感知的仿真，我覺得其實目前還在于比較偏前瞻的領(lǐng)域，現(xiàn)在也有兩種方法，一種基于傳統(tǒng)圖形的方法，另外是基于神經(jīng)渲染NeRF的方式。

兩者的挑戰(zhàn)在于數(shù)據(jù)，無論是規(guī)控仿真還是感知仿真，從我的角度，可以在一個框架下來理解，可以看作是一個軸的兩端，一端完全是真實數(shù)據(jù)，一端完全是虛擬數(shù)據(jù)，然后他們各有優(yōu)缺點，下一步工作是去平衡兩端。

真實數(shù)據(jù)它是歷史上某一些時刻的記錄，是一個比較死的數(shù)據(jù)，怎么讓它具備一定的靈活性是一個核心挑戰(zhàn)。而仿真數(shù)據(jù)是一個人造的東西，有的時候可能跟真實數(shù)據(jù)有一定的差異，所以我覺得核心挑戰(zhàn)是解決真實數(shù)據(jù)太死和仿真數(shù)據(jù)太假這兩個問題。

那么現(xiàn)在的一個趨勢我覺得是互相滲透的方式，比如把真實數(shù)據(jù)的某一部分進(jìn)行邏輯化和智能化，以解決真實數(shù)據(jù)太死的問題。然后依托大量真實數(shù)據(jù)去做仿真數(shù)據(jù)的合成，解決仿真數(shù)據(jù)太假的問題，我覺得這是兩個核心的方向。

智車星球：您曾經(jīng)提過關(guān)于感知用仿真場景的構(gòu)建，下一步方向就是程序化生成結(jié)合NeRF重建，這個方向它有什么樣的好處，又有哪些短板？

鮑世強(qiáng)：可能對現(xiàn)代圖形沒有那么了解的人一般會質(zhì)疑真實感，但真實感首先并不是不可逾越的，比如我們做一個電影特效，其實可以達(dá)到非常真實的效果。但這有另外的一個問題，成本的問題，我們不可能不考慮成本去談?wù)鎸嵏?。做感知仿真測試需要生成大量的數(shù)據(jù)，不可能每一個東西都做得和電影一樣，否則成本上是完全不能承受的。所以會考慮采用一些新的技術(shù)，比如說用一些程序化生成的技術(shù)。

NeRF這個方案我認(rèn)為有非常強(qiáng)的顛覆性，甚至對圖形領(lǐng)域都會產(chǎn)生沖擊，它不僅會對感知仿真領(lǐng)域帶來一些新的思路和方案，對于傳統(tǒng)的基于圖形的體系架構(gòu)也會產(chǎn)生一些影響。我認(rèn)為這個方向非常好，他有一個非常長的長板式真實性，潛力非常大，但是目前應(yīng)該還是處于相對比較早期的階段，還需要解決很多的問題。比如性能、動靜態(tài)場景的解耦、可編輯性以及生成泛化性等。我覺得NeRF的長板和短板正好跟傳統(tǒng)圖形是比較互補(bǔ)的，所以未來的方向可能是兩者結(jié)合的一個方案。

說到真實性，因為我們是做智駕感知仿真這個專門的應(yīng)用落地場景，關(guān)注的重點是在路面、路上和周圍的交通參與者、以及馬路上的一些標(biāo)識、道路標(biāo)牌等這些要素的真實性，道路旁邊一些建筑是不是具有真實性，其實不那么重要。真正核心還是圍繞路面交通這一特別具體的場景，能否重現(xiàn)一些車道線的涂改變化和破損、路面上出現(xiàn)的一些特種車輛、摩托車?yán)恍┤?，各種各樣長尾的小概率場景，光照條件，傳感器的一些工況，比如濺水，臟污，這種特點能不能針對這些具體的場景，發(fā)揮虛擬仿真技術(shù)的放大作用，通過合成數(shù)據(jù)的方式補(bǔ)全充一些訓(xùn)練數(shù)據(jù)，提升感知系統(tǒng)面對這些長尾場景的性能。

這里面有幾個關(guān)鍵的要素，一個是場景的真實感，一個是場景的多樣性，一個是傳感器模型的精確性，一個是成本。如果你要讓我排第一名，我認(rèn)為應(yīng)該是場景的多樣性。傳感器的精度和場景真實度要求是很高的，但我們可以設(shè)置一個較高的門檻，過了門檻再往上提升，它的性價比就會下降。

這時候我們要解決的重點問題就轉(zhuǎn)移到怎么樣通過盡量低的成本去解決場景多樣性的問題。NeRF在真實性方面有很大的幫助，但是多樣性的方面其實帶來的改變不大，一些生成式AI的方向會更有幫助。

智車星球：激光雷達(dá)基于物理方式的建模和基于真值加噪聲的建模方式，哪種更適合算法去做測試訓(xùn)練。

鮑世強(qiáng)：我們的方式還是采用實采，比如實際的某種品牌的激光雷達(dá)，它的數(shù)據(jù)采過來，看點云是什么樣的，包括它的掃描的方式、強(qiáng)度的映射等。我們還是把激光雷達(dá)當(dāng)做一個黑盒的方式來做，按物理的方式做也行，但實時性很難。

對于數(shù)據(jù)集來講，我還是秉持這樣的一個觀點，目前還是在精度達(dá)到一個較高水平的基礎(chǔ)上以最便宜的方式獲得最高的多樣性，實際上是目前要解決的核心的問題。其他深入的東西也許不要糾結(jié)得過于細(xì)節(jié)，這些可能對實際的結(jié)果產(chǎn)生的影響并沒有你想象的那么大。

—

如何提升數(shù)據(jù)閉環(huán)效率

智車星球：現(xiàn)在大家都在談數(shù)據(jù)閉環(huán)，51Sim其實也算是數(shù)據(jù)的消費者，你們是如何定義數(shù)據(jù)閉環(huán)的？數(shù)據(jù)驅(qū)動閉環(huán)仿真的挑戰(zhàn)有哪些？

鮑世強(qiáng)：數(shù)據(jù)閉環(huán)我覺得概念非常大，它涉及到的流程非常長，首先是數(shù)據(jù)的采集，后邊當(dāng)然有很多合規(guī)性的問題，要進(jìn)行脫密脫敏，

然后需要說清楚數(shù)據(jù)本身是什么數(shù)據(jù)，有一些是感知用的，有一些結(jié)構(gòu)化的規(guī)控數(shù)據(jù)，有一些是給定位用的。然后就是數(shù)據(jù)怎么樣去采集和利用。

目前我們碰到的最核心的問題是數(shù)據(jù)的閉環(huán)效率其實并沒有那么高，絕大多數(shù)的數(shù)據(jù)實際上沒有任何價值，然后就變成了怎樣把有價值的數(shù)據(jù)挑出來并有效利用的問題。這里有很多的問題要去解決，比如說數(shù)據(jù)采集，研發(fā)階段可以全量去采集，量產(chǎn)之后可能要通過觸發(fā)式的方式進(jìn)行采集。我們需要保證采集回來的數(shù)據(jù)本身價值比較高，否則后期要處理的時候，如果對數(shù)據(jù)進(jìn)行挑選的效率和機(jī)制不健全，可能存儲這些數(shù)據(jù)的成本會超過數(shù)據(jù)本身的價值，這個就比較悲劇了。

而且，隨著大家智駕水平的不斷提高，有價值的數(shù)據(jù)比例越低。這就意味著必須提升數(shù)據(jù)的采集、挖掘、有效利用的能力以及數(shù)據(jù)的識別能力。比如說新的算法可能接口改了或者中間件發(fā)生了變化，怎么樣利用舊的數(shù)據(jù)，提升數(shù)據(jù)靈活性和利用率，我覺得這是一個長期話題。

比如還是拿NeRF來舉例，我覺得NeRF某種程度上提升了感知數(shù)據(jù)集采和利用的靈活性，因為它比一幀一幀的圖片靈活性高，我可能換一些視角和傳感器配置，舊的數(shù)據(jù)還是能用。

智車星球：現(xiàn)在的量產(chǎn)的智能駕駛車在路上跑的越來越多了，車企能采集到的數(shù)據(jù)也越來越多，對于仿真來說。是能利用的數(shù)據(jù)變多了嗎？

鮑世強(qiáng)：能利用數(shù)據(jù)是變多了，但仿真實際上是整個數(shù)據(jù)閉環(huán)的下游，我們現(xiàn)在的問題不是數(shù)據(jù)太少，而是數(shù)據(jù)太多的問題。

首先仿真你可以理解是一個數(shù)據(jù)生成器，仿真原本就是做一些場景做一些數(shù)據(jù)。但越往后發(fā)展，它越不是數(shù)據(jù)的生成器，它其實起到的是一個數(shù)據(jù)倍增器，或者叫放大器的作用。

比如說我們從真實世界采集到的corner case，有針對感知的，也有針對規(guī)控的，然后仿真怎樣從這些數(shù)據(jù)出發(fā)去構(gòu)建出更多類似的case，是仿真往后發(fā)展要解決的根本問題。

仿真本質(zhì)上我覺得起到兩個作用，一個叫保下限，就是當(dāng)你迭代算法時，怎么保證改的東西起到正面作用而不是搞壞了其他地方，需要有測試；另一個就是剛才我說的放大器作用，我們管它叫提上限，當(dāng)碰到了一些case，怎樣在仿真的環(huán)境里重建。當(dāng)然，我們可以先用真實數(shù)據(jù)去回放重現(xiàn)，然后在此基礎(chǔ)之上看能不能產(chǎn)生一些額外的變化，讓整個修改做一些局部的覆蓋性，然后更具有代表性，我覺得這是仿真往后發(fā)展的一個核心思路。

智車星球：合成的數(shù)據(jù)它對比這種真實采集來的數(shù)據(jù)來說，它的價值有哪些？

鮑世強(qiáng)：合成數(shù)據(jù)現(xiàn)在討論得很多，但是我覺得憑空合成3D場景這件事還是挺難的。我理解就兩種方式，一種是自然語言生成圖像，然后通過NeRF 把3D的場景創(chuàng)建出來，但這個圖像怎么保證多視角的連續(xù)性是一個問題，另外一種方式是直接拿3D模型去做訓(xùn)練。

3D的AIGC方面我認(rèn)為目前還很不成熟，難度也比較大，但是另外的一個角度其實也有人在探索，因為我們最終的目的是給比如說智駕的感知算法去進(jìn)行訓(xùn)練或者是測試，那么是否3D場景是必須的？這其實也是可以探討的，因為你的目的是同時生成多傳感器的數(shù)據(jù)來完成訓(xùn)練和測試，只是要保障多傳感器數(shù)據(jù)的一致性，還有一些物理的規(guī)律，也可以不構(gòu)建3D場景，完全通過圖像合成的方式去做。

—

AIGC助力場景描述

智車星球：現(xiàn)在很多車企也是在做城市NOA，跟之前高速場景下的仿真相比，你們遇見過哪些不同的問題？

鮑世強(qiáng)：既有的規(guī)控仿真體系，一個是基于數(shù)據(jù)回灌的logSim的體系，一個是基于WordSim的體系，一般是基于OpenX這樣的一些場景描述語言。

但是進(jìn)入到這個城市NOA后，場景已經(jīng)非常難以描述，然后純數(shù)據(jù)回放有很多適配性的問題，我覺得整體難度還是要大很多。

OpenX這套體系，我覺得是一套具體場景邏輯場景的體系，對于高速場景來講可能是比較完備的。

從測試的角度來講，測試我覺得有兩個目標(biāo)，一個目標(biāo)是發(fā)現(xiàn)問題，另外一個目標(biāo)其實更高級，證明沒有問題，這是一個非常難的目標(biāo)。通過剛才那套體系，試圖在類似于高速這樣的場景達(dá)到這樣的目標(biāo)，當(dāng)然需要非常多的數(shù)據(jù)。但如果在城市的場景，你會發(fā)現(xiàn)描述場景就變得非常的困難，因為參與交互的車非常多。寫出這樣的場景本身對于一個場景制作的人員來講，是一個技術(shù)含量非常高的工作，我們需要有新方法新思路

智車星球：AIGC對于場景描述是否是一個助力？

鮑世強(qiáng)：當(dāng)然是一個幫助，OpenX動態(tài)場景有1.0的體系，有2.0的體系，2.0其實已經(jīng)是一種類似于領(lǐng)域語言的方式，交互非常復(fù)雜，對于用戶來講，門檻其實非常高。面向更復(fù)雜的場景時，交互編輯效率也比較差。

目前GPT的應(yīng)用很廣泛，從自然語言變成這個領(lǐng)域相關(guān)語言的一些工作，GPT是可以做到的，當(dāng)然可能需要一些比如上下文的保證和輸入，怎么樣和交互式場景的編輯去做結(jié)合，這是我們在做一個方向。但是核心目的不是為了生成新的數(shù)據(jù)，而是幫助用戶更快捷地通過自然語言的方式提高場景制作的效率。

智車星球：OpenX系列是不是不太適合于去做對抗場景的自動生成？

鮑世強(qiáng)：我覺得這是兩個思路，一個從測試的角度來講，我們希望兩次測試跑出來的結(jié)果是完全一致，否則這個測試就沒有確定性，從測試角度來講這其實是不可以接受的。但是另外一個角度我們可能會需要比如說有多智能體交互的智能的行為，可以和你形成一些博弈，這是另外的一個case。顯然Open體系不太適合做這樣的一個case。

智車星球：如何去評價真實？我們?nèi)搜劭吹降恼鎸嵑退惴吹降恼鎸嵤欠袷且恢碌模?/span>

鮑世強(qiáng)：目前這個東西從理論上證明我認(rèn)為難度還是非常大的，我們現(xiàn)在更多的是從實踐的方向，比如說有多少比例的虛擬數(shù)據(jù)混合進(jìn)來，會對實際的性能產(chǎn)生多大的影響，或者我拿虛擬數(shù)據(jù)訓(xùn)練一個模型，然后去識別一些真實的數(shù)據(jù)到大概的性能會有多少。

同時我們也在做一些交叉的驗證，比如說在測試場的純物理環(huán)境下，實際構(gòu)建一個場景去觸發(fā)，然后在虛擬的環(huán)境中1:1還原，去對比結(jié)果。

智車星球：現(xiàn)在的數(shù)據(jù)生成、訓(xùn)練、測試整個閉環(huán)有沒有可能直接端到端來做？

鮑世強(qiáng)：端到端仿真我們內(nèi)部叫大閉環(huán)仿真，是可以實現(xiàn)的，但是整個流程比較長，非常有挑戰(zhàn)性。

現(xiàn)在的車堆料其實比較嚴(yán)重，動不動就是11個攝像頭，如果做端到端的測試，相當(dāng)于要生成11個攝像頭的原始數(shù)據(jù)，可能還有雷達(dá)，對算力的需求是比較大的。這需要弄一個很大的臺架，如果要做規(guī)模化的閉環(huán)仿真，我認(rèn)為整體投入是比較大的。

來源：第一電動網(wǎng)

作者：智車星球

本文地址：http://www.cbbreul.com/kol/210279

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。