一邊開源押注,一邊公開存疑?
近日,英偉達機器人主管Jim Fan在社交媒體上發(fā)表了對具身智能機器人領域的年度“銳評”。
“當業(yè)界普遍為“氛圍編程”(vibe coding)熱潮感到興奮之時,恰逢歲末年初的佳節(jié)節(jié)點,我想借此機會,分享對機器人這一尚處蠻荒探索階段領域的些許思考與焦慮。”

以下,便是Jim Fan在2025年深耕機器人領域所收獲的三條核心經(jīng)驗與教訓:
一、硬件發(fā)展超前于軟件能力,可靠性制約迭代效率
當下,我們已然見證了Optimus、e-Atlas、Figure、Neo、G1等一系列具備精湛工程水準的機器人產(chǎn)品問世。即便如此,當前最先進的人工智能技術(shù),仍未能充分釋放這些前沿硬件的全部潛能——機器人本體的機能上限,顯著高于其“大腦”的指令輸出能力。
更為關(guān)鍵的是,維持這些機器人的穩(wěn)定運行,往往需要一整支專業(yè)運維團隊的支撐。
與人類不同,機器人不具備自我修復能力,過熱、電機故障、各類非常規(guī)固件問題等故障場景,每日都在實踐中反復出現(xiàn)。一旦故障發(fā)生,往往會造成不可逆的損失,且難以通過簡單干預實現(xiàn)恢復。在這一過程中,唯一得以增長的,便是從業(yè)者的耐心。
二、機器人領域基準測試體系仍深陷混亂
在大模型領域,MMLU、SWE-Bench等基準測試已成為行業(yè)共識,成為衡量技術(shù)水平的通用標尺。
但這一成熟范式,尚無法直接遷移至機器人領域。從硬件平臺的選型、任務目標的定義、評分標準的設定,到模擬器的搭建與真實場景的部署,整個行業(yè)尚未形成統(tǒng)一的規(guī)范與共識。
在此背景下,幾乎所有從業(yè)者都宣稱自身技術(shù)達到“最先進水平”(SOTA),但這一“最先進水平”的定義,往往是為適配每次技術(shù)發(fā)布而臨時設定的基準。
更普遍的現(xiàn)象是,多數(shù)從業(yè)者會從數(shù)十次甚至上百次的嘗試中,篩選出效果最優(yōu)的演示樣本(demo)用于對外發(fā)布。
展望2026年,機器人領域必須打破這一亂象,不再將可復現(xiàn)性與科學規(guī)范置于次要地位,推動行業(yè)朝著更嚴謹、更有序的方向發(fā)展。
三、基于VLM的VLA路線或非最優(yōu)解
VLA(視覺-語言-動作模型)已成為當前機器人大腦方案的主流選擇,其核心實現(xiàn)邏輯是:基于預訓練的VLM(視覺-語言模型)檢查點,接入動作生成模塊。
但深入剖析后不難發(fā)現(xiàn),這一技術(shù)路線存在先天局限。VLM模型在訓練過程中,過度針對視覺問答等“爬坡式”基準測試進行優(yōu)化,這直接導致了兩個核心問題:
其一,VLM模型中的大部分參數(shù),主要服務于語言理解與知識處理任務,而非適配物理世界的交互需求;
其二,為適配問答任務對高級語義理解的需求,視覺編碼器被主動調(diào)校為舍棄低級視覺細節(jié)——但對于機器人靈巧操作而言,這些細微的視覺細節(jié)恰恰是決定任務成敗的關(guān)鍵。
基于這一邏輯,VLA的性能提升,并不具備隨VLM參數(shù)規(guī)模增加而同步提升的合理性,核心癥結(jié)在于預訓練目標與機器人的實際需求存在根本性錯配。相較之下,視頻世界模型更符合機器人策略學習的預訓練目標,這一判斷已成為我深耕領域后的堅定認知。
針對此番“銳評”,也有網(wǎng)友表示質(zhì)疑。
一網(wǎng)友認為,若視頻世界模型是更優(yōu)的預訓練目標,為何Helix、GR00T N1及π0等模型仍以VLM(視覺語言模型)為骨干網(wǎng)絡進行構(gòu)建,并成功交付實際成果?與此同時,世界模型方法為何主要應用于策略評估與合成數(shù)據(jù)生成場景,而非直接用于運動控制任務的執(zhí)行?此外,關(guān)于“硬件瓶頸限制迭代速度”的觀點,似乎同樣適用于各類預訓練方案——除非機器人數(shù)據(jù)缺口這一核心問題得到解決。
Jim Fan回答道,上述提及的Helix、GR00T N1及π0均為2025年推出的模型,對于更貼合視頻世界模型預訓練目標的技術(shù)方案,可期待2026年下一代大型模型的表現(xiàn)。
01.
英偉達:物理AI戰(zhàn)略下的智駕VLA布局
Jim Fan的銳評精準戳中了當前機器人領域的核心爭議與痛點,尤其是關(guān)于VLA技術(shù)路線的優(yōu)劣之爭,成為行業(yè)關(guān)注的焦點。
值得注意的是,就在業(yè)界圍繞這一爭議展開討論之際,英偉達近日開源最新自動駕駛VLA模型Alpamayo-R1,這一動作不僅是全球首個面向智能駕駛的開源VLA模型發(fā)布,也是其汽車事業(yè)部負責人吳新宙入職后的首份智駕領域答卷。

更核心的是,這也印證了黃仁勛此前提及的英偉達在物理AI賽道的戰(zhàn)略布局:在計算基礎設施之外,打造鏈接AI與物理世界的底層“安卓”生態(tài),覆蓋機器人、自動駕駛等核心場景。
從行業(yè)影響來看,此次開源意味著AI巨頭英偉達正式加入VLA技術(shù)路線,為VLA陣營注入重量級力量。
此次開源內(nèi)容包含VLA架構(gòu)及100TB數(shù)據(jù)集(覆蓋美國、歐盟多國道路數(shù)據(jù),不含中國數(shù)據(jù)),向全球開發(fā)者開放了其相關(guān)技術(shù)方法論。
但需明確的是,英偉達尚未實現(xiàn)VLA技術(shù)的商業(yè)化落地,此次開源更多是技術(shù)思路的示范,并非可直接應用的成熟VLA方案,開源架構(gòu)的商業(yè)化價值仍有限。
技術(shù)層面,Alpamayo-R1雖歸屬VLA模型范疇,但與業(yè)內(nèi)主流的“端到端+大語言模型外掛”VLA存在本質(zhì)區(qū)別,其核心是原生多模態(tài)模型,基座源于英偉達年初CES發(fā)布的Cosmos基礎世界模型中的Cosmos Reason。
作為鏈接AI與物理世界的“中間層”,Cosmos本質(zhì)是“通才”型世界模型,為千行百業(yè)提供基礎物理AI“安卓”模板,而Alpamayo-R1正是Cosmos AI推理模型的擴展,核心能力在于通過思維鏈推理理解視頻數(shù)據(jù)。
具體來看,Alpamayo-R1的預訓練依托Chain of Causation“因果鏈”(CoC)數(shù)據(jù)集展開,其基座模型Cosmos的訓練則采用擴散模型與自回歸模型兩種方法:前者包含“文本到世界生成預訓練”“頻到世界生成預訓練”,后者涵蓋“下一個token生成”“文本條件的視頻到世界生成”。
這一技術(shù)路徑也契合黃仁勛多次強調(diào)的物理AI核心邏輯——構(gòu)建AI與物理世界的“中間層”,讓缺乏強AI算法能力的企業(yè)與個人,也能借助強大基座模型和工具打造專屬產(chǎn)品。
總的來看,Alpamayo-R1的開源并非單純的技術(shù)輸出,而是英偉達物理AI戰(zhàn)略在智能駕駛領域的具體落地,標志著其在計算基礎設施之外,進一步向自動駕駛等物理AI場景的底層生態(tài)延伸,試圖構(gòu)建覆蓋千行百業(yè)的物理AI基礎體系。
然而,這與前文Jim Fan提及的機器人領域“基于VLM的VLA路線或非最優(yōu)解”的觀點有所出入。
02.
宇樹王興興:VLA是相對“傻瓜式”的架構(gòu)
一邊是英偉達智駕押注VLA的實踐探索,一邊是Jim Fan對該路線的存疑。而在這場爭議中,宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興和Jim Fan的觀點高度一致。
在2025世界機器人大會主論壇上,王興興發(fā)表主旨演講,拋出核心論斷:當前智能體機器人整機硬件已能滿足需求,行業(yè)最關(guān)鍵的挑戰(zhàn)并非數(shù)據(jù)而是模型問題,機器人大模型的臨界點或?qū)⒃谖磥?-5年到來。

王興興指出,現(xiàn)階段人形機器人硬件、靈巧手整機等核心硬件雖未達到完美成熟的狀態(tài),但已能適配當前發(fā)展階段的使用需求。
未來硬件領域的核心發(fā)展方向?qū)⒓杏谌齻€維度:一是持續(xù)完善硬件細節(jié)設計,提升產(chǎn)品體驗;二是著力降低制造成本,為規(guī)?;瘧娩伮罚蝗窃鰪娫O備的使用壽命與運行可靠性,夯實商業(yè)化基礎。
在王興興看來,機器人大模型是當前及未來限制智能體機器人(尤其是人形機器人)大規(guī)模應用的最大阻礙。在9月 的2025 外灘大會上,王興興再次強調(diào),現(xiàn)有的硬件(甚至一兩年前的硬件)足夠用,核心問題是AI模型能力不足,無法充分利用硬件(比如難用好靈巧手,數(shù)據(jù)采集及實現(xiàn)靈巧動作具挑戰(zhàn)性)。
從發(fā)展進度來看,當前機器人大模型的發(fā)展階段類似ChatGPT發(fā)布前1-3年的狀態(tài)——業(yè)界已明確大致的技術(shù)方向與路線,但尚未有成熟的落地成果。
他明確了機器人大模型“ChatGPT時刻”的臨界點標志:機器人能在完全陌生的環(huán)境中精準聽懂指令并流暢完成任務。具體場景包括比如在全新會場中完成“向指定觀眾傳遞水瓶”,或在陌生房間內(nèi)按指令整理環(huán)境等。
王興興預判,這一臨界點最快1-2年可實現(xiàn),慢則需要3-5年。
針對行業(yè)普遍關(guān)注的數(shù)據(jù)問題,王興興提出不同看法:當前全球?qū)?shù)據(jù)的關(guān)注度偏高,反而忽視了更核心的模型問題,這也是機器人尚未達到上述臨界點的關(guān)鍵原因。
王興興認為,數(shù)據(jù)存在采集、質(zhì)量、類型、規(guī)模無標準的問題,現(xiàn)在還處于比較模糊的階段;需提高數(shù)據(jù)利用率,讓模型本身對數(shù)據(jù)的理解能力更強,可識別高價值數(shù)據(jù),比如說語言模型需特征性的數(shù)據(jù)而非單純看量。
對于當前熱門的具身智能模型——VLA模型,王興興持懷疑態(tài)度。他認為該模型實用性存在明顯局限,屬于相對“傻瓜式架構(gòu)”,在與真實世界交互時存在數(shù)據(jù)質(zhì)量不足的問題;即便疊加RL(強化學習)技術(shù),其架構(gòu)仍需進一步升級優(yōu)化。
與之相對,王興興認為“世界模型”是更值得關(guān)注的技術(shù)路線,甚至可能比VLA模型更快落地。
世界模型被視為邁向通用人工智能(AGI)的重要階梯,核心價值在于通過學習環(huán)境的時空動態(tài),實現(xiàn)對未來狀態(tài)的預測及自身行動后果的評估。
以谷歌DeepMind發(fā)布的第三代通用世界模型Genie 3為例,其可為機器人等智能體提供低成本虛擬訓練環(huán)境,支持復雜任務的長時程模擬。
此外,王興興還指出,當前機器人存在“學習新技能需從頭訓練、無法復用舊知識”的痛點,亟需實現(xiàn)類似大模型的持續(xù)學習能力。
“如今多模態(tài)的融合不太理想,盡管單純的語言或多模態(tài)模型表現(xiàn)優(yōu)異。”王興興補充道,但在機器人領域,用語言或圖像、視頻生成內(nèi)容來控制機器人仍存在重大挑戰(zhàn)。
王興興總結(jié)了未來2-5年智能機器人技術(shù)的三大發(fā)展重心:其一,構(gòu)建統(tǒng)一的端到端智能機器人大模型,突破核心技術(shù)瓶頸;其二,攻堅更低成本、更高壽命的硬件產(chǎn)品,并實現(xiàn)超大批量制造,推進規(guī)?;涞兀黄淙?,搭建低成本、大規(guī)模的算力體系,尤其要發(fā)力分布式算力領域。
03.
寫在最后
“VLA就是自動駕駛最好的模型方案?!崩硐胱詣玉{駛負責人朗咸朋表達了與王興興、Jim Fan 看法不一致的觀點,他強調(diào)具身智能最終拼的是整體的系統(tǒng)能力。
朗咸朋解釋,理想的VLA本質(zhì)是生成式模型,區(qū)別于生成文本Token的傳統(tǒng)生成式模型,其生成的是軌跡與控制信號。從用戶反饋來看,該VLA在部分場景下已呈現(xiàn)出對物理世界的認知涌現(xiàn),具體體現(xiàn)為擬人化行為表現(xiàn)優(yōu)異。
針對世界模型與VLA的對比,朗咸朋指出,世界模型更適合扮演“考場”角色——用于仿真環(huán)境構(gòu)建與強化訓練,而非作為“考生”直接部署于車端。
核心原因在于世界模型的算力需求遠高于VLA,這決定了其更適配云端場景,可用于數(shù)據(jù)生成、高逼真度仿真測試及強化訓練。他同時透露,理想汽車已在云端應用世界模型,規(guī)模達數(shù)E flops級別。
另外,真實數(shù)據(jù)被朗咸朋視為理想研發(fā)VLA的核心底氣。目前理想已構(gòu)建起由數(shù)百萬輛車組成的閉環(huán)數(shù)據(jù)體系,為VLA的落地實現(xiàn)與持續(xù)優(yōu)化提供了關(guān)鍵支撐。

關(guān)于VLA的未來應用,朗咸朋透露,該技術(shù)不僅將服務于當前的理想汽車,還將延伸至未來的汽車類具身機器人領域。不過,兩者是否會采用同一套技術(shù)架構(gòu),他并未給出明確答案。
可以預見的是,Jim Fan的銳評與行業(yè)內(nèi)的實踐探索相互印證,清晰揭示了當前具身智能機器人領域的核心矛盾與發(fā)展瓶頸。硬件的相對成熟與軟件的滯后性、技術(shù)路線的分歧與基準體系的缺失,共同構(gòu)成了行業(yè)前進路上的主要障礙。
未來數(shù)年內(nèi),隨著世界模型等新興技術(shù)路線的探索深入、統(tǒng)一基準體系的逐步構(gòu)建以及端到端機器人大模型的持續(xù)突破,具身智能機器人領域或?qū)⒂瓉韽男U荒探索到有序發(fā)展的關(guān)鍵轉(zhuǎn)折。
至于VLA是“最優(yōu)解”還是“過渡品”?這場關(guān)乎技術(shù)路線選擇與行業(yè)生態(tài)構(gòu)建的探索,不僅將決定相關(guān)企業(yè)的競爭格局,更將深刻影響人工智能與物理世界交互的最終形態(tài)。
來源:第一電動網(wǎng)
作者:NE時代
本文地址:http://www.cbbreul.com/kol/282492
文中圖片源自互聯(lián)網(wǎng),如有侵權(quán)請聯(lián)系admin#d1ev.com(#替換成@)刪除。