英偉達機器人主管“銳評”VLA，大佬博弈世界模型路線

第一電動大牛作者 NE時代 2025-12-30 16:01

一邊開源押注，一邊公開存疑？

近日，英偉達機器人主管Jim Fan在社交媒體上發(fā)表了對具身智能機器人領域的年度“銳評”。

“當業(yè)界普遍為“氛圍編程”（vibe coding）熱潮感到興奮之時，恰逢歲末年初的佳節(jié)節(jié)點，我想借此機會，分享對機器人這一尚處蠻荒探索階段領域的些許思考與焦慮。”

以下，便是Jim Fan在2025年深耕機器人領域所收獲的三條核心經(jīng)驗與教訓：

一、硬件發(fā)展超前于軟件能力，可靠性制約迭代效率

當下，我們已然見證了Optimus、e-Atlas、Figure、Neo、G1等一系列具備精湛工程水準的機器人產(chǎn)品問世。即便如此，當前最先進的人工智能技術(shù)，仍未能充分釋放這些前沿硬件的全部潛能——機器人本體的機能上限，顯著高于其“大腦”的指令輸出能力。

更為關(guān)鍵的是，維持這些機器人的穩(wěn)定運行，往往需要一整支專業(yè)運維團隊的支撐。

與人類不同，機器人不具備自我修復能力，過熱、電機故障、各類非常規(guī)固件問題等故障場景，每日都在實踐中反復出現(xiàn)。一旦故障發(fā)生，往往會造成不可逆的損失，且難以通過簡單干預實現(xiàn)恢復。在這一過程中，唯一得以增長的，便是從業(yè)者的耐心。

二、機器人領域基準測試體系仍深陷混亂

在大模型領域，MMLU、SWE-Bench等基準測試已成為行業(yè)共識，成為衡量技術(shù)水平的通用標尺。

但這一成熟范式，尚無法直接遷移至機器人領域。從硬件平臺的選型、任務目標的定義、評分標準的設定，到模擬器的搭建與真實場景的部署，整個行業(yè)尚未形成統(tǒng)一的規(guī)范與共識。

在此背景下，幾乎所有從業(yè)者都宣稱自身技術(shù)達到“最先進水平”（SOTA），但這一“最先進水平”的定義，往往是為適配每次技術(shù)發(fā)布而臨時設定的基準。

更普遍的現(xiàn)象是，多數(shù)從業(yè)者會從數(shù)十次甚至上百次的嘗試中，篩選出效果最優(yōu)的演示樣本（demo）用于對外發(fā)布。

展望2026年，機器人領域必須打破這一亂象，不再將可復現(xiàn)性與科學規(guī)范置于次要地位，推動行業(yè)朝著更嚴謹、更有序的方向發(fā)展。

三、基于VLM的VLA路線或非最優(yōu)解

VLA（視覺-語言-動作模型）已成為當前機器人大腦方案的主流選擇，其核心實現(xiàn)邏輯是：基于預訓練的VLM（視覺-語言模型）檢查點，接入動作生成模塊。

但深入剖析后不難發(fā)現(xiàn)，這一技術(shù)路線存在先天局限。VLM模型在訓練過程中，過度針對視覺問答等“爬坡式”基準測試進行優(yōu)化，這直接導致了兩個核心問題：

其一，VLM模型中的大部分參數(shù)，主要服務于語言理解與知識處理任務，而非適配物理世界的交互需求；

其二，為適配問答任務對高級語義理解的需求，視覺編碼器被主動調(diào)校為舍棄低級視覺細節(jié)——但對于機器人靈巧操作而言，這些細微的視覺細節(jié)恰恰是決定任務成敗的關(guān)鍵。

基于這一邏輯，VLA的性能提升，并不具備隨VLM參數(shù)規(guī)模增加而同步提升的合理性，核心癥結(jié)在于預訓練目標與機器人的實際需求存在根本性錯配。相較之下，視頻世界模型更符合機器人策略學習的預訓練目標，這一判斷已成為我深耕領域后的堅定認知。

針對此番“銳評”，也有網(wǎng)友表示質(zhì)疑。

一網(wǎng)友認為，若視頻世界模型是更優(yōu)的預訓練目標，為何Helix、GR00T N1及π0等模型仍以VLM（視覺語言模型）為骨干網(wǎng)絡進行構(gòu)建，并成功交付實際成果？與此同時，世界模型方法為何主要應用于策略評估與合成數(shù)據(jù)生成場景，而非直接用于運動控制任務的執(zhí)行？此外，關(guān)于“硬件瓶頸限制迭代速度”的觀點，似乎同樣適用于各類預訓練方案——除非機器人數(shù)據(jù)缺口這一核心問題得到解決。

Jim Fan回答道，上述提及的Helix、GR00T N1及π0均為2025年推出的模型，對于更貼合視頻世界模型預訓練目標的技術(shù)方案，可期待2026年下一代大型模型的表現(xiàn)。

01.

英偉達：物理AI戰(zhàn)略下的智駕VLA布局

Jim Fan的銳評精準戳中了當前機器人領域的核心爭議與痛點，尤其是關(guān)于VLA技術(shù)路線的優(yōu)劣之爭，成為行業(yè)關(guān)注的焦點。

值得注意的是，就在業(yè)界圍繞這一爭議展開討論之際，英偉達近日開源最新自動駕駛VLA模型Alpamayo-R1，這一動作不僅是全球首個面向智能駕駛的開源VLA模型發(fā)布，也是其汽車事業(yè)部負責人吳新宙入職后的首份智駕領域答卷。

更核心的是，這也印證了黃仁勛此前提及的英偉達在物理AI賽道的戰(zhàn)略布局：在計算基礎設施之外，打造鏈接AI與物理世界的底層“安卓”生態(tài)，覆蓋機器人、自動駕駛等核心場景。

從行業(yè)影響來看，此次開源意味著AI巨頭英偉達正式加入VLA技術(shù)路線，為VLA陣營注入重量級力量。

此次開源內(nèi)容包含VLA架構(gòu)及100TB數(shù)據(jù)集（覆蓋美國、歐盟多國道路數(shù)據(jù)，不含中國數(shù)據(jù)），向全球開發(fā)者開放了其相關(guān)技術(shù)方法論。

但需明確的是，英偉達尚未實現(xiàn)VLA技術(shù)的商業(yè)化落地，此次開源更多是技術(shù)思路的示范，并非可直接應用的成熟VLA方案，開源架構(gòu)的商業(yè)化價值仍有限。

技術(shù)層面，Alpamayo-R1雖歸屬VLA模型范疇，但與業(yè)內(nèi)主流的“端到端+大語言模型外掛”VLA存在本質(zhì)區(qū)別，其核心是原生多模態(tài)模型，基座源于英偉達年初CES發(fā)布的Cosmos基礎世界模型中的Cosmos Reason。

作為鏈接AI與物理世界的“中間層”，Cosmos本質(zhì)是“通才”型世界模型，為千行百業(yè)提供基礎物理AI“安卓”模板，而Alpamayo-R1正是Cosmos AI推理模型的擴展，核心能力在于通過思維鏈推理理解視頻數(shù)據(jù)。

具體來看，Alpamayo-R1的預訓練依托Chain of Causation“因果鏈”（CoC）數(shù)據(jù)集展開，其基座模型Cosmos的訓練則采用擴散模型與自回歸模型兩種方法：前者包含“文本到世界生成預訓練”“頻到世界生成預訓練”，后者涵蓋“下一個token生成”“文本條件的視頻到世界生成”。

這一技術(shù)路徑也契合黃仁勛多次強調(diào)的物理AI核心邏輯——構(gòu)建AI與物理世界的“中間層”，讓缺乏強AI算法能力的企業(yè)與個人，也能借助強大基座模型和工具打造專屬產(chǎn)品。

總的來看，Alpamayo-R1的開源并非單純的技術(shù)輸出，而是英偉達物理AI戰(zhàn)略在智能駕駛領域的具體落地，標志著其在計算基礎設施之外，進一步向自動駕駛等物理AI場景的底層生態(tài)延伸，試圖構(gòu)建覆蓋千行百業(yè)的物理AI基礎體系。

然而，這與前文Jim Fan提及的機器人領域“基于VLM的VLA路線或非最優(yōu)解”的觀點有所出入。

02.

宇樹王興興：VLA是相對“傻瓜式”的架構(gòu)

一邊是英偉達智駕押注VLA的實踐探索，一邊是Jim Fan對該路線的存疑。而在這場爭議中，宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興和Jim Fan的觀點高度一致。

在2025世界機器人大會主論壇上，王興興發(fā)表主旨演講，拋出核心論斷：當前智能體機器人整機硬件已能滿足需求，行業(yè)最關(guān)鍵的挑戰(zhàn)并非數(shù)據(jù)而是模型問題，機器人大模型的臨界點或?qū)⒃谖磥?-5年到來。

王興興指出，現(xiàn)階段人形機器人硬件、靈巧手整機等核心硬件雖未達到完美成熟的狀態(tài)，但已能適配當前發(fā)展階段的使用需求。

未來硬件領域的核心發(fā)展方向?qū)⒓杏谌齻€維度：一是持續(xù)完善硬件細節(jié)設計，提升產(chǎn)品體驗；二是著力降低制造成本，為規(guī)?；瘧娩伮罚蝗窃鰪娫O備的使用壽命與運行可靠性，夯實商業(yè)化基礎。

在王興興看來，機器人大模型是當前及未來限制智能體機器人（尤其是人形機器人）大規(guī)模應用的最大阻礙。在9月的2025 外灘大會上，王興興再次強調(diào)，現(xiàn)有的硬件（甚至一兩年前的硬件）足夠用，核心問題是AI模型能力不足，無法充分利用硬件（比如難用好靈巧手，數(shù)據(jù)采集及實現(xiàn)靈巧動作具挑戰(zhàn)性）。

從發(fā)展進度來看，當前機器人大模型的發(fā)展階段類似ChatGPT發(fā)布前1-3年的狀態(tài)——業(yè)界已明確大致的技術(shù)方向與路線，但尚未有成熟的落地成果。

他明確了機器人大模型“ChatGPT時刻”的臨界點標志：機器人能在完全陌生的環(huán)境中精準聽懂指令并流暢完成任務。具體場景包括比如在全新會場中完成“向指定觀眾傳遞水瓶”，或在陌生房間內(nèi)按指令整理環(huán)境等。

王興興預判，這一臨界點最快1-2年可實現(xiàn)，慢則需要3-5年。

針對行業(yè)普遍關(guān)注的數(shù)據(jù)問題，王興興提出不同看法：當前全球?qū)?shù)據(jù)的關(guān)注度偏高，反而忽視了更核心的模型問題，這也是機器人尚未達到上述臨界點的關(guān)鍵原因。

王興興認為，數(shù)據(jù)存在采集、質(zhì)量、類型、規(guī)模無標準的問題，現(xiàn)在還處于比較模糊的階段；需提高數(shù)據(jù)利用率，讓模型本身對數(shù)據(jù)的理解能力更強，可識別高價值數(shù)據(jù)，比如說語言模型需特征性的數(shù)據(jù)而非單純看量。

對于當前熱門的具身智能模型——VLA模型，王興興持懷疑態(tài)度。他認為該模型實用性存在明顯局限，屬于相對“傻瓜式架構(gòu)”，在與真實世界交互時存在數(shù)據(jù)質(zhì)量不足的問題；即便疊加RL（強化學習）技術(shù)，其架構(gòu)仍需進一步升級優(yōu)化。

與之相對，王興興認為“世界模型”是更值得關(guān)注的技術(shù)路線，甚至可能比VLA模型更快落地。

世界模型被視為邁向通用人工智能（AGI）的重要階梯，核心價值在于通過學習環(huán)境的時空動態(tài)，實現(xiàn)對未來狀態(tài)的預測及自身行動后果的評估。

以谷歌DeepMind發(fā)布的第三代通用世界模型Genie 3為例，其可為機器人等智能體提供低成本虛擬訓練環(huán)境，支持復雜任務的長時程模擬。

此外，王興興還指出，當前機器人存在“學習新技能需從頭訓練、無法復用舊知識”的痛點，亟需實現(xiàn)類似大模型的持續(xù)學習能力。

“如今多模態(tài)的融合不太理想，盡管單純的語言或多模態(tài)模型表現(xiàn)優(yōu)異。”王興興補充道，但在機器人領域，用語言或圖像、視頻生成內(nèi)容來控制機器人仍存在重大挑戰(zhàn)。

王興興總結(jié)了未來2-5年智能機器人技術(shù)的三大發(fā)展重心：其一，構(gòu)建統(tǒng)一的端到端智能機器人大模型，突破核心技術(shù)瓶頸；其二，攻堅更低成本、更高壽命的硬件產(chǎn)品，并實現(xiàn)超大批量制造，推進規(guī)?；涞兀黄淙?，搭建低成本、大規(guī)模的算力體系，尤其要發(fā)力分布式算力領域。

03.

寫在最后

“VLA就是自動駕駛最好的模型方案?！崩硐胱詣玉{駛負責人朗咸朋表達了與王興興、Jim Fan 看法不一致的觀點，他強調(diào)具身智能最終拼的是整體的系統(tǒng)能力。

朗咸朋解釋，理想的VLA本質(zhì)是生成式模型，區(qū)別于生成文本Token的傳統(tǒng)生成式模型，其生成的是軌跡與控制信號。從用戶反饋來看，該VLA在部分場景下已呈現(xiàn)出對物理世界的認知涌現(xiàn)，具體體現(xiàn)為擬人化行為表現(xiàn)優(yōu)異。

針對世界模型與VLA的對比，朗咸朋指出，世界模型更適合扮演“考場”角色——用于仿真環(huán)境構(gòu)建與強化訓練，而非作為“考生”直接部署于車端。

核心原因在于世界模型的算力需求遠高于VLA，這決定了其更適配云端場景，可用于數(shù)據(jù)生成、高逼真度仿真測試及強化訓練。他同時透露，理想汽車已在云端應用世界模型，規(guī)模達數(shù)E flops級別。

另外，真實數(shù)據(jù)被朗咸朋視為理想研發(fā)VLA的核心底氣。目前理想已構(gòu)建起由數(shù)百萬輛車組成的閉環(huán)數(shù)據(jù)體系，為VLA的落地實現(xiàn)與持續(xù)優(yōu)化提供了關(guān)鍵支撐。

關(guān)于VLA的未來應用，朗咸朋透露，該技術(shù)不僅將服務于當前的理想汽車，還將延伸至未來的汽車類具身機器人領域。不過，兩者是否會采用同一套技術(shù)架構(gòu)，他并未給出明確答案。

可以預見的是，Jim Fan的銳評與行業(yè)內(nèi)的實踐探索相互印證，清晰揭示了當前具身智能機器人領域的核心矛盾與發(fā)展瓶頸。硬件的相對成熟與軟件的滯后性、技術(shù)路線的分歧與基準體系的缺失，共同構(gòu)成了行業(yè)前進路上的主要障礙。

未來數(shù)年內(nèi)，隨著世界模型等新興技術(shù)路線的探索深入、統(tǒng)一基準體系的逐步構(gòu)建以及端到端機器人大模型的持續(xù)突破，具身智能機器人領域或?qū)⒂瓉韽男U荒探索到有序發(fā)展的關(guān)鍵轉(zhuǎn)折。

至于VLA是“最優(yōu)解”還是“過渡品”？這場關(guān)乎技術(shù)路線選擇與行業(yè)生態(tài)構(gòu)建的探索，不僅將決定相關(guān)企業(yè)的競爭格局，更將深刻影響人工智能與物理世界交互的最終形態(tài)。

來源：第一電動網(wǎng)

作者：NE時代

本文地址：http://www.cbbreul.com/kol/282492

返回第一電動網(wǎng)首頁 >

文中圖片源自互聯(lián)網(wǎng)，如有侵權(quán)請聯(lián)系admin#d1ev.com（#替換成@）刪除。

贊6

分享到：

發(fā)表評論

新聞推薦

選擇車型
上牌城市	購車城市
姓名
手機號
驗證碼
	xxx

電動汽車

英偉達機器人主管“銳評”VLA，大佬博弈世界模型路線

電動汽車用戶聯(lián)盟

NE時代

汽車之心

HiEV

阿喵汽車