機器人的「物理圖靈測試」,英偉達Jim Fan 17分鐘演講揭秘具身Scaling Law
Jim Fan,英偉達機器人部門主管和杰出科學家、GEAR 實驗室聯合領導人、OpenAI 的首位實習生,最近在紅杉資本主辦的 AI Ascent 上做了一場 17 分鐘的演講,介紹了「解決通用機器人問題的第一性原理」,包括訓練機器人 AI 的數據策略、Scaling Law 以及基于物理 API 的美好未來。
其中尤其提到了「物理圖靈測試」,大意是說對于一個真實的物理場景和一個指令,會有人類或機器人根據該指令對這個場景進行相應的處理,然后看其他人能否分辨這個場景是人類處理的還是機器人處理的。
很顯然,Jim Fan 以及英偉達正在朝著讓機器人和 AI 通過這個物理圖靈測試而努力。在文本中,我們梳理了 Jim Fan 的主要演講內容,另外還在文末發起了一個投票,看你覺得物理圖靈測試會在什么時候被攻克?
以下為經過梳理的演講內容。
幾天前,一篇博客文章引起了我的注意。它說:「我們通過了圖靈測試,卻沒人注意到?!箞D靈測試曾經是神圣的,堪稱計算機科學的圣杯,結果我們就這么通過了。
Jim Fan 提到的博客:https://signull.substack.com/p/we-passed-the-turing-test-and-nobody
當 o3 mini 多花幾秒鐘思考,或者 Claude 無法調試你那些討厭的代碼時,你會感到不滿,對吧?然后我們把每一個大語言模型的突破都當作只是又一個普通的星期二。在座的各位是最難打動的人。
所以我想提出一個非常簡單的東西,叫做「物理圖靈測試(Physical Turing Test)」。
物理圖靈測試
想象一下,你在周日晚上舉辦了一個黑客馬拉松派對,最后你的房子變成了這樣:
你的伴侶對你大喊大叫,你想:「哎呀,周一早上,我想告訴某人清理這個爛攤子,然后為我準備一頓很好的燭光晚餐,這樣我的伴侶就能開心了?!?/span>
然后你回到家,看到這一切(實現了),但你無法分辨是人還是機器幫你弄的。物理圖靈測試就是這么簡單。
那我們現在進展到什么程度了?接近了嗎?看看這個準備開始工作的機器人:
再看看機器狗遇到香蕉皮:
機器人為你準備燕麥早餐:
這就是我們的現狀。
那么,為什么解決物理圖靈測試如此困難呢?
你們知道大語言模型研究人員經常抱怨,對吧?最近有個叫 Ilya 的人抱怨說:大語言模型預訓練的數據快用完了。他甚至稱互聯網為「AI 的化石燃料」。他說我們快沒有數據來訓練大語言模型了。但是,如果你了解機器人模型,你就會知道大語言模型研究人員被寵壞了。我們甚至連化石燃料都沒有。
下圖是英偉達總部的一個數據收集環節。英偉達有一個咖啡廳,我們設置了這些人形機器人,我們操作它們并收集數據。
收集到的數據如下圖所示。這是機器人關節控制信號,是隨時間變化的連續值。你在維基百科、YouTube、Reddit 或任何地方都找不到這種數據,所以你必須自己收集。
那我們是怎么收集的呢?
我們有一種非常復雜但也非常昂貴的方法,叫做遙操作(teleoperation)。你可以讓人佩戴某種 VR 頭顯,它能識別你的手勢并將其傳輸給機器人。這樣你就可以教機器人技能,比如從烤面包機中取出面包,然后倒上蜂蜜。但可以想象,這是一個非常緩慢且痛苦的過程。
如果你把這個方法放到 scaling 圖上,你會發現它根本不能 scale。真實機器人數據的獲取是在拿人力當燃料,這比用化石燃料更糟糕。而且,一個機器人每天只有 24 小時的時間可以用。實際可利用的時間更少,因為人會疲勞,機器人比人類更容易疲勞。
那我們該怎么辦呢?機器人的核能在哪里?我們必須有清潔能源。不能永遠依靠化石燃料。
模擬很重要
接下來進入「模擬」。我們必須離開物理世界,進入模擬的世界。
我們訓練了一個機器手,能在模擬中完成超人般的靈巧任務,如轉筆。對我來說這是超人的,因為我不能轉筆,我很高興我的機器人至少在模擬中能做得比我好。
那么如何訓練機器手來完成這樣復雜的任務呢?我們有兩個想法。一是你必須以比實時快 10000 倍的速度進行模擬。這意味著你應該在單個 GPU 上并行運行 10000 個環境進行物理模擬。
第二點,10000 個環境副本不能都相同。你必須改變一些參數,如重力、摩擦力和重量。我們稱之為域隨機化。
這給了我們模擬原則。
為什么這種做法能 work?想象一下,如果一個神經網絡能夠控制機器人掌握一百萬個不同的世界,那么它很可能也能掌握第一百萬零一個世界 —— 即我們的物理現實。換句話說,我們的物理世界處于這種訓練的分布之中。
接下來,我們如何應用這些模擬結果呢?你可以建立一個數字孿生(digital twin),即機器人和世界的一對一副本,然后你在模擬中訓練,直接在真實世界中測試,零樣本遷移。
機器手也是如此:
我們能做的最令人印象深刻的任務是讓狗站在瑜伽球上走,我們把它從虛擬遷移到現實世界。
我們的研究人員看起來超級奇怪,就像《黑鏡》的一集。
接下來,我們還可以將其應用于更復雜的機器人,如人形機器人。在短短兩小時的模擬時間內,這些人形機器人就經歷了 10 年的訓練,學習行走,然后你可以把它們遷移到現實世界。無論實體是什么,只要你有機器人模型,你就可以模擬它,并且可以實現行走。
我們能做的不僅僅是行走。當你控制自己的身體時,你可以跟蹤任何你想要的姿勢,跟蹤任何關鍵點,遵循任何你想要的速度向量,這被稱為人形機器人的全身控制問題,是個非常困難的問題。
但我們可以訓練它,在 10000 個并行運行的模擬上,我們可以將其零樣本遷移到真實機器人上,無需任何微調。
這是在英偉達實驗室進行的一個演示。你可以看到它所做的動作的復雜性。它模仿人類所有這些敏捷的動作,同時保持平衡。
做這個需要多大的神經網絡?它只需要 150 萬參數,不是 15 億。150 萬參數足以捕捉人體的潛意識處理。
所以,如果我們將其放在這個圖表上,縱軸是速度,橫軸是模擬的多樣性,我們稱之為模擬 1.0,數字孿生范式,它是一個經典的向量化物理引擎,你可以運行到每秒 10000 幀甚至一百萬幀。但問題是你必須建立一個數字孿生。你需要有人建造機器人,建造環境和一切。這非常繁瑣,且需要手動完成。
用生成式 AI 生成模擬數據
那么,我們能否用生成的方式獲得模擬環境的一部分?下圖這些 3D 資產都是由 3D 生成模型生成的:
這些紋理來自 Stable Diffusion 或任何你喜歡的擴散模型:
這些布局也是可以用工具生成的:
將所有這些放在一起,我們構建了一個名為 RoboCasa 的框架,它是日常任務的一個組合模擬。這里的一切,除了機器人,都是生成的。你可以組合不同的場景,但它仍然依賴于這個經典引擎來運行,但你已經可以從中獲得很多任務。
接下來,同樣讓人類來操作。但這一次,人類是在模擬中進行操作。
基于這一個放杯子的演示,我們可以得到人類操作的軌跡,然后便可以在模擬中重放這一軌跡。
而在模擬中,我們可以通過各種技術修改場景,甚至還可以修改運動,比如可以通過 GR00T Mimic 等技術模擬出相似的動作。
也就是說,只需一個人類演示,就能通過環境生成得到 N 個演示,如果在執行動作生成,則能得到 N×M 個不同的模擬樣本。如此一樣,便實現了數據的倍增。
如下所示,第一和三列是真實的機器人,第二和四列是生成的模擬??吹贸鰜恚傻囊曨l的紋理真實感依然很差,但它們已經足夠接近了。
那么,我們如何稱呼這些足夠接近的生成樣本呢?數字表親(digital cousin)。這與數字孿生不一樣,但也在一定程度上捕捉到了真實感。
這些模擬運行速度較慢,但目前存在一種混合生成物理引擎 —— 先生成部分內容,然后將剩余部分委托給經典圖形管道。
現在,假如我們要模擬這個場景。可以看到,里面有固體、有液體,各種東西。如果讓人類來建模,所需的時間會很長。
但現在,有計算機模擬了。
要知道,從左邊的視覺效果到右邊的視覺效果,可是足足花了 30 多年時間。但視頻生成模型只用了一年時間從實現從左邊到右邊的跨越。
還記得我之前展示的這個視頻嗎?我騙了你們。這個視頻里的像素沒一個是真的。它完全是由一個自定義模型生成的。
我們是怎么做的呢?我們會使用一個開源的通用 SOTA 視頻生成模型,然后在真實收集的數據的數據域上進行微調。
然后,使用不同的語言命令,你可以讓模型想象不同的未來 —— 即便這個場景從未在真實世界中發生過。
這些也都是生成的。
其中有個例子是機器手彈奏尤克里里,但實際上,這個機器手還完全做不到這一點,但 AI 依然可以生成這樣的視頻。
這就是模擬 2.0。視頻生成的多樣性大大增加,但目前執行起來速度很慢。我稱之為 Digital Nomad(數字游民),可以說它已經進入了視頻擴散模型的夢境空間。它是將數億個互聯網視頻壓縮成這種多元宇宙的模擬,就像奇異博士一樣 —— 在夢境空間中實例化機器人,基本上機器人現在可以與任何地方的所有事物都同時互動。
具身 Scaling Law
下面來看具身 Scaling Law。
在模擬 1.x 時代,大規模模擬需要大規模的計算。問題是,隨著規模的擴大,物理 IQ 會撞墻,因為這個人工構建的系統的多樣性有限。
而在神經世界模型的模擬 2.0 時代,物理 IQ 會隨計算的擴展而指數級增長。圖中的交匯點便是神經網絡超越傳統圖形工程的地方。
這兩者加在一起,將成為我們擴展下一代機器人系統的核能。
引用黃仁勛的話就是:「買得越多,省得越多?!?/span>
然后,我們把這些數據用來訓練「視覺-語言-動作模型」。它能接收像素和指令輸入,然后輸出電機控制信號。這就是三月份 GTC 上黃仁勛主題演講中開源的 GR00T N1 模型的訓練方式。
這里展示了一個在實際機器人上運行它的案例??雌饋砗芾寺?,但你無法想象我們在訓練期間做了多少清潔工作。在這個示例中,它能夠完美地抓起香檳。
不僅如此,它還可以執行一些工業任務,拿取一些工廠物件,還可以進行多機器人協調。
GR00T N1 模型是開源的,事實上這個系列的后續模型都將繼續開源。
展望未來:物理 API
那么,下一步是什么呢?我認為是物理 API(Physical API)。
想一想,5000 年來,雖然人類的生活整體好了很多,但做晚餐的方式可能與古埃及人沒有本質差別。
也許人類歷史的 99% 的時間里,我們都保持著這樣的結構:用人力方式處理原材料,最終建立起文明。但在最近的 1% 時間里,大概最近 50 年的時間里,人工勞動量正在減少,我們擁有高度專業化、高度復雜的機器人系統,它們一次只能做一件事。而且它們的編程成本很高。目前,我們處于人類勞力與機器人共存的時代。
未來,物理 API 將無處不在。
類似于 LLM API 移動數字和比特構成的塊,物理 API 能移動原子構成的塊,也就是給軟件一個物理執行器來改變物理世界。
在這個物理 API 之上,將會有新的經濟范式。我們會有新的物理提示技術(physical prompting)來給機器人下達指令,教它們學習新任務。語言有時候是不夠的。
我們還會有物理應用商店和技能經濟。舉個例子,米其林大廚不必每天都親自去廚房了 —— 他可以教會機器人,把晚餐作為一項服務提供。
這里再次引用黃仁勛的一句話:「所有會動的東西都將自動化?!?/span>
未來某天,當你回家,你會看到干凈的沙發和燭光晚餐,你的伴侶會對你微笑,而不是因為你沒有洗臟衣服而對你大喊大叫。
這是因為你上個月買了兩臺人形機器人,可能是 GR00T N7,它們默默工作,與你生活的背景融為一體,就像是環境智能(ambient intelligence)。你甚至不會注意到它們通過物理圖靈測試那一刻,因為那就是像是另一個平常的星期二一樣。