用于城市空間的具身人工智能仿真平臺:MetaUrban
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
公共城市空間的街道和廣場可以為居住在城市中的市民提供各種各樣的便捷服務從而適應如今豐富多彩的社會生活。各大城市中的公共空間具有非常不同且廣泛的類型、形式和空間大小,包括街道、廣場以及公園等各個區域。此外,它們也是日常交通和運輸離不開的重要空間。這些重要的城市空間不僅為我們人類日常舉辦各種社會活動提供了機會,同時也為市民其提供各式各樣的休閑娛樂活動。
近年來,隨著機器人技術和具身人工智能技術的快速發展使得城市當中的公共區域空間不再是我們人類所獨有的區域。比如:移動送餐機器人和電動輪椅已經開始與行人共享人行道、各種各樣的機器狗和人形機器人最近也開始在街道上陸續出現,如下圖所示。此外各種移動腿式機器人,如波士頓動力公司的機器狗和特斯拉的人形機器人也即將問世。所以在不久的將來極大概率將會出現未來的城市公共空間將由人類和具身人工智能的移動機器共享和共同居住的場景。所以,如果想要在城市空間的繁華街道上進行導航,一個至關重要的問題就是需要確保這些即將到來的移動機器的通用性和安全性。
仿真平臺在實現具身人工智能的系統性和可擴展性訓練以及在實際部署之前的安全評估方面發揮了至關重要的作用。然而,現有的大多數仿真模擬器主要聚焦于室內家庭環境或者室外的駕駛環境。然而,對于具有多樣化布局和物體、行人變化動態復雜的城市空間的模擬探索較少。
基于上述提到的相關問題,本文提出了一個可以用于城市中的空間具身人工智能研究的組合模擬平臺,稱之為MetaUrban。此外,我們基于設計的MetaUrban仿真平臺構建了一個大型的數據集MetaUrban-12K,該數據集包含了12800個訓練場景以及1000個測試場景。同時,我們進一步創建了一個包含100個手工設計的從未見過的場景作為測試集來評估我們算法模型的泛化性。相關的實驗結果表明,通過模擬環境的組合特性可以顯著提高訓練好的移動具身人工智能的通用性和安全性。
論文鏈接:https://arxiv.org/abs/2407.08725
網絡模型的整體架構&細節梳理
MetaUrban作為一個可以為具身人工智能在城市空間中生成無限訓練和評估環境的模擬平臺,在詳細介紹其內部的各個技術實現細節之前,下圖展示了MetaUrban模擬平臺整體的生成流程。
MetaUrban模擬平臺整體的生成流程
通過上圖可以看出,MetaUrban可以根據提供的街區、道路以及人行道,從街區地圖開始,通過劃分不同的功能區規劃地面布局,然后放置靜態物體,最后填充動態智能體。此外,MetaUrban模擬器通過提出的三個關鍵核心設計來支持展示三種獨特的都市空間特性。
- Hierarchical Layout Generation:層級布局生成設計可以無限的生成具有不同功能區劃分和物體位置的多樣性布局,這對于智能體的泛化性至關重要
- Scalable Object Retrieval:可擴展的目標檢索利用全球城市場景數據來獲取不同地方的真實世界對象分布,然后使用支持VLM的開放詞匯搜索構建大規模、高質量的靜態對象集。這對于專門針對城市場景的訓練智能體有很大的幫助
- Cohabitant Populating:通過采用數字人來豐富行人和弱勢道路使用者的外觀、運動和軌跡,并整合其他智能體以形成生動的共存環境。這對于提高移動智能體的社會一致性和安全性至關重要
Hierarchical Layout Generation
由于考慮到場景布局的多樣性,比如街區的連接和類別、人行道和人行橫道的規格以及物體的放置,對于增強經過訓練的智能體在公共空間中機動的泛化性至關重要。因此,我們在層級布局生成的設計當中,首先對街區類別進行采樣并劃分人行道和人行橫道,然后分配各種物體,這樣我們就可以得到具有任意大小和地圖規格的無限城市場景布局。
如下圖所示,我們一共設計了5種街區種類,分別是直路、交叉路口、環形交叉路口、環形交叉路口和T型路口。
如上圖中的左圖所示,我們將人行道劃分為四個功能區建筑,分別是建筑區、臨街區、空地區和裝飾區。根據不同的功能區組合,我們進一步構建了7個典型的人行道模板(如上圖的右側所示)。如果想要形成一條人行道,我們可以先從模板中采樣布局,然后為不同的功能區分配比例。對于人行橫道而言,我們可以在每條道路的起止處提供候選,支持指定所需的人行橫道或通過密度參數對其進行采樣。最后,道路、人行道和人行橫道可以以地形圖為基底,形成不同的地面情況。
在確定好地面上的整體布局之后,我們可以在地面上放置不同的物體。在本文中,我們將物體分為三種類別
- 標準基礎設施:標準的基礎設施可以包括電線桿、樹木和標志和定期沿道路放置的物品
- 非標準基礎設施:非標準的基礎設施可以包括建筑物、盆景和垃圾箱,隨機放置在指定的功能區
- 雜物:雜物可以包括飲料罐、袋子和自行車,隨機放置在所有功能區
根據上述的相關劃分,我們可以通過指定對象池來獲得不同的街道風格,同時通過指定密度參數來獲得不同的緊湊度。下圖展示了使用采樣的地面平面圖和對象位置放置的不同物體。
Scalable Object Retrieval
雖然層級布局生成的設計決定了場景的布局以及放置物體的擺放位置。但是,為了使訓練后的智能體能夠在由各種物體組成的現實世界中導航時具有通用性,放置什么物體同樣至關重要。因此,我們首先從網絡數據中獲取真實世界的對象分布,然后通過基于VLM的開放詞匯搜索模式從3D存儲庫中檢索目標。整個流程靈活且可擴展:隨著我們繼續利用更多網絡數據進行場景描述并將更多3D資產作為候選對象,檢索到的對象可以縮放到任意大小。
由于城市空間具有獨特的結構和物體分布,因此,我們設計了一種真實世界分布提取方法來獲得一個描述城市空間中頻繁出現的物體的描述池,如下圖所示。
圖片
具體而言,我們首先利用現成的學術數據集CityScape以及Mapillary Vistas進行場景理解,以獲得90個在城市空間中出現頻率較高的物體列表。然而,由于上述數據集都是閉集,目標的種類數量是有限的。我們引入了兩個開集數據集Google Street以及Urban planning description,用于實現從現實世界中獲得更廣泛的物體分布。最后,通過結合上述提到的數據集,我們可以構建現實世界的目標類別分布。
為了解決當前的大型3D存儲庫中存在的數據質量參差不齊、缺少可靠的屬性注釋以及大部分數據與城市場景無關的問題,我們引入了一種開放詞匯搜索方法來解決這些問題,如上圖中的右側子圖所示。具體而言,我們首先從Objaverse以及Objaverse-XL中得到目標投影后的多視圖圖像,然后,我們利用視覺語言模型的編碼器分別從投影圖像和對象描述池中的采樣描述中提取特征,以計算相關分數。然后,我們可以獲得相關分數達到閾值的目標對象。這種方法讓我們獲得了一個城市特定的數據集,其中包含10000個現實世界類別分布中的高質量對象。
Cohabitant Populating
接下來,我們將要介紹如何通過具有不同外觀、運動和軌跡的智能體填充這些靜態城市場景。我們在提出的MetaUrban模擬器中提供了兩種人體動作,分別是日常動作和獨特動作。其中,日常動作提供了日常生活中的基本人體動態,即直立、行走和跑步。獨特動作是在公共空間中隨機出現的復雜動態,例如跳舞和鍛煉。對于人類和其他有日常活動的智能體,我們利用ORCA模型以及PR算法來仿真他們的軌跡。
MetaUrban-12K數據集
基于我們提出的MetaUrban模擬器我們構建了MetaUrban-12K的數據集,其中包括了12800個用于訓練的交互式城市場景MetaUrban-train以及1000個用于測試的場景MetaUrban-test,下圖展示了我們提出的MetaUrban-12K數據集中的一些信息統計。具體關于該數據集的相關詳細信息可以參考論文原文。
實驗部分
定量實驗部分
在實驗環節中,我們設計了城市場景中的兩個常見任務來驗證我們提出的MetaUrban模擬器,分別是點導航以及交互式導航任務。具體而言,在點導航任務當中,智能體的目標是在靜態環境中導航到目標坐標,而無需訪問預構建的環境地圖。在社交導航任務中,智能體需要在包含移動智能體的動態環境中到達點目標。
在所有任務當中,智能體應該避免與其它環境中的智能體發生碰撞或者超出一定的閾值,實驗中的智能體行動包括加速、減速以及轉向。下表展示了點導航以及交互式導航的Benchmark。
通過上表的相關實驗結果可以得出一些結論
- PointNav以及SocialNav任務還未得到很好的解決,基線實現的PointNav和SocialNav任務的最高成功率僅為66%和36%,這表明在MetaUrban組成的城市環境中完成這些任務非常困難。
- 在MetaUrban-12K數據集上訓練的模型在未見過的環境中具有很強的泛化能力。在零樣本測試的情況下,模型在PointNav和 SocialNav任務中仍可實現平均41%和26%的成功率。由于訓練好的模型不僅可以泛化到未見過的物體和布局,還可以泛化到未見過的智能體,因此具有很好的表現性能。同時相關的實驗結果也進一步的證明了,MetaUrban的組合特性支持覆蓋大量復雜的城市場景,可以成功地增強訓練模型的泛化能力
- 由于移動環境智能體的動態特性,SocialNav任務比PointNav任務更有難度。平均而言,從PointNav任務到SocialNav任務,成功率下降了15%,這表明動態智能體對訓練好的智能體提出了重大挑戰
- 在所有任務和設置當中,Safe RL模型取得了最佳表現,表明這些模型能夠成功避免與行人和物體發生碰撞。然而,成功率會相應降低,這表明需要平衡復雜城市場景中智能體的安全性和有效性。
此外,為了評估使用MetaUrban生成的數據訓練的智能體的泛化能力,我們比較了四種設置的成功率,相關結果匯總在下圖的子圖(a)中。設置1和設置2分別是在MetaUrban-train數據集上進行訓練,在MetaUrban-test測試集和MetaUrban-unseen數據集上進行測試的結果。設置3和設置4是在MetaUrban-finetune上直接訓練的結果,并在MetaUrban-finetune上對MetaUrban-train上的預訓練模型進行微調的實驗結果。
我們為了評估MetaUrban組合架構的擴展能力,我們在不同數量的生成場景上訓練模型,如下圖的子圖(b)所示,隨著我們加入更多場景進行訓練,性能從12%顯著提高到46%,證明了MetaUrban強大的擴展能力。
下圖中的子圖(c)和(d)展示了我們為了評估靜態物體密度和動態環境智能體的影響,我們分別評估了它們在PointNav和 SocialNav任務中的不同比例,通過實驗結果可以看出,隨著靜態物體和動態智能體的密度增加,訓練和測試的成功率都會急劇下降,這表明智能體在面對城市場景中擁擠的街道時面臨挑戰。
定性實驗部分
下圖展示了我們提出的MetaUrban模擬器一些生成結果的可視化,詳細的介紹請參考我們論文中的附錄部分。
- 我們設計了五種典型的街道街區類別,分別是直路、彎道、交叉路口、T 型路口和環形交叉路口,可視化結果如下圖所示
- 生成的靜態場景下的可視化樣例,對于每一行我們選擇了四個視角來進行可視化
- 生成的動態場景下的可視化樣例
結論
在本文中,我們提出了一種新穎的組合模擬器MetaUrban用于促進城市場景中的具身人工智能和機器人研究相關方向的研究。提出的MetaUrban模擬器可以生成具有復雜場景結構和行人及其他移動智能體多樣化運動的無限城市環環境,希望本文提出的方法可以促進開源模擬器社區的進一步發展。