卡耐基梅隆大學 | 世界模型終將驅動自動駕駛!全新SOTA規劃算法
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
運動規劃對于復雜城市環境中的安全航行至關重要。從歷史上看,運動規劃器(MP)是在仿真環境(如CARLA)進行評估的。然而,這種合成基準并不能捕捉現實世界中的多智能體交互。最近發布的MP基準測試nuPlan通過使用閉環仿真邏輯增強現實世界的駕駛日志來解決這一限制,有效地將固定數據集變成了反應仿真器。我們分析了nuPlan記錄日志的特征,發現每個城市都有自己獨特的駕駛行為,這表明穩健的規劃者必須適應不同的環境。我們學習使用BehaviorNet對這種獨特的行為進行建模,BehaviorNetwork是一種圖卷積神經網絡(GCNN),它使用從最近觀察到的代理歷史中導出的特征來預測反應性代理行為;憑直覺,一些激進的agent可能會尾隨車輛,而其他agent則可能不會。為了對這些現象進行建模,BehaviorNet預測代理的運動控制器的參數,而不是預測其時空軌跡(就像大多數預測者所做的那樣)。最后,我們介紹了AdaptiveDriver,這是一種基于模型預測控制(MPC)的規劃器,它以Behav-iorNet的預測為條件展開不同的世界模型。我們的大量實驗表明,AdaptiveDriver在nuPlan閉環規劃基準上取得了最先進的結果,將測試誤差從6.4%降低到4.6%,即使應用于從未見過的城市。
項目主頁:https://arunbalajeev.github.io/world_models_planning/world_model_paper.html
總結來說,本文的主要貢獻如下:
- 我們證明,每個城市都有自己獨特的駕駛行為,適應這些不同的環境會顯著提高規劃性能。此外,我們發現一個城市的行為甚至會有所不同,從而激勵我們下一步的貢獻。
- 我們提出了BehaviorNet,這是一種圖卷積神經網絡(GCNN),它使用最近在周圍場景中觀察到的代理的特征來預測參數化為IDM控制的駕駛行為。
- 本文介紹了AdaptiveDriver,這是一款基于模型預測控制(MPC)的規劃器,它可以展開并執行自適應世界模型,以在各種環境中安全導航,在nuPlan上實現最先進的閉環規劃性能。
相關工作回顧
基于規則的規劃。盡管最近的工作側重于通過預測目標條件下的路線點、成本量和獎勵函數來學習穩健的政策,但基于規則的規劃者仍然優于基于實際數據的學習方法。基于規則的規劃者得到了很好的研究,并因其安全保障和可解釋性而被廣泛采用。給定當前位置、速度和到引導車輛的距離,基于規則的規劃者估計縱向加速度,以安全地朝著目標前進。智能駕駛員模型(IDM)是一種用于車輛運動規劃的經典非學習算法,它依靠基于圖的搜索來到達目標,同時使用PID速度控制器來避免與其他車輛碰撞。Dauner等人通過對多個軌跡進行采樣并展開等速世界模型來升級IDM,以選擇成本最低的最優軌跡。這改進了碰撞避免,而不會導致過于保守的運動計劃。
軌跡優化。運動規劃通常被定義為手工設計的成本函數的優化問題,然后將其最小化以生成最優軌跡。為了簡化這一過程,成本函數采用平方目標函數,或將規劃任務劃分為橫向和縱向部分。通常使用A*、RRT和動態規劃等方法來搜索最優解。CoverNet生成一組軌跡,并根據成本函數對其進行評估,選擇成本最低的軌跡。雖然這些方法由于其并行性、可解釋性和功能保證而具有吸引力,但當應用于真實世界的場景時,它們并不健壯,需要進行重大的超參數調整。傳統的軌跡優化方法通常旨在計算從初始配置到期望目標配置的完整軌跡。然而,考慮到駕駛環境固有的動態和不確定性,無法提前預測精確的長期運動計劃。因此,模型預測控制(MPC)近年來在實時路徑規劃中獲得了突出地位,因為它采用迭代成本最小化策略為每個時間步長選擇局部最優軌跡。這使得基于MPC的算法能夠快速適應環境的變化。
數據驅動的仿真。近年來,利用CARLA、AirSim等模擬器環境的可用性,出現了許多基于學習的規劃者。然而,目前的仿真環境是有限的,因為它們依賴于游戲引擎生成的合成數據,并且視覺逼真度不足。重要的是,他們缺乏全面培訓和評估所需的駕駛場景的必要多樣性。為了解決這些限制,提出了多智能體行為模型,用于生成多樣化和現實的交通模擬。最近,推出了Waymo模擬agent挑戰,通過將所有仿真代理的軌跡與其地面實況軌跡進行比較來評估模擬器。此外,CommonRoad提供了一個駕駛數據集和規劃基準,它結合了真實世界的數據和基于規則的啟發式方法。相比之下,nuPlan通過閉環模擬邏輯增強了真實世界的駕駛日志,有效地將固定數據集變成了反應式模擬器。nuPlan發布了來自拉斯維加斯、波士頓、匹茲堡和新加坡等多個城市的1300小時真實駕駛日志。在每個城市開車都會帶來一系列獨特的駕駛挑戰。例如,拉斯維加斯有許多高密度的上下車地點,每個方向有8條平行車道的十字路口。在波士頓,司機們傾向于雙停車,這給規劃帶來了獨特的挑戰。
Planning With An Ensemble of World Models
在本節中,我們分析了PDM-C的局限性,并提出了AdaptiveDriver,這是一種模型預測控制的替代實例,在nuPlan基準上實現了最先進的閉環規劃性能。
nuPlan在反應仿真中評估規劃者。nuPlan通過閉環模擬邏輯增強了真實世界的駕駛日志,允許其他代理對自我車輛做出反應。代理以基于其軌跡歷史的初始速度實例化,并將從記錄的駕駛日志中重新模擬其空間軌跡。所有代理的封閉世界模擬邏輯用固定的目標速度(h0)、最小間隙(h1)、車頭時距(h2)、最大加速度(h3)和最大減速度(h4)初始化。
理解PDM-C的局限性。PDM-C是一種最先進的基于規則的規劃器,它改進了智能駕駛員模型(IDM),這是一種沿參考路徑使用簡單縱向PID速度控制器的跟車算法。PDM-C通過用不同的縱向速度和橫向偏移調制IDM的參考路徑來生成候選軌跡,在內部展開其他代理的世界模型,并選擇使該世界模型的成本函數最小化的軌跡,將IDM升級為基于MPC的規劃器。值得注意的是,PDM-C使用了一個更簡單的“軌道上的世界”內部世界模型,其中其他代理是無反應的,在推出過程中以恒定速度移動。盡管具有恒定速度預測的“軌道上的世界”模型可能適用于短期預測,但它無法正確模擬多智能體的相互作用,如車道變更、車道合并和紅綠燈停車。
用BehaviorNet預測未來Agent行為。我們通過學習使用BehaviorNet預測未來的代理行為,改進了“軌道上的世界”模型。我們通過編碼自車輛周圍半徑為R的矢量化道路圖和所有附近代理的兩秒軌跡歷史,對每個場景的獨特駕駛特征進行建模。BehaviorNet由幾個多尺度圖卷積和注意力模塊組成,后面是一個全連接層,用于預測IDM控制參數。我們在補充中進一步描述了BehaviorNet的架構。值得注意的是,與傳統的預測器不同,BehaviorNet直接預測IDM控制參數,然后可以用來展開反應世界模型。
學習自適應行為參數。我們用過去的代理軌跡和目標IDM控制參數的配對例子來訓練BehaviorNet,這些參數最能解釋未來的代理行為。我們通過使用網格搜索擬合訓練日志來優化目標IDM參數:
Training Log-BehaviorNet。盡管每個城市都有不同的駕駛特征,但代理人在一個城市內的行為仍然不同。例如,波士頓的司機可能會在市內使用尾門,但在高速公路上駕駛時更容易造成事故。為了對此進行建模,我們只需在每個單獨的訓練日志上優化Eq.1。圖3(a)用tSNE可視化了一組特定于日志的IDM參數{},按城市進行顏色編碼。我們沒有訓練BehaviorNet來直接回歸這些參數,而是將問題重新定義為一個簡單的離散分類任務。具體來說,我們將{}的集合聚類為K個聚類,并用K路softmax損失訓練BehaviorNet。我們將此網絡稱為日志行為網絡,與城市行為網絡形成對比。圖3-b)將學習到的行為集群與(a)中的原始城市“集群”進行了比較。圖3-(c)繪制了兩個不同集群的最小間隙分布,表明每個集群松散地對應于原型行為,如“攻擊性”或“被動”。我們調整行為集群的數量(K),以便最大化nuPlan val集上的C3性能。有趣的是,最優數量(16)遠大于不同城市的數量(4)。重要的是,我們表明,與城市特定模型相比,城市不可知集群的泛化能力更強,尤其是在從未見過的城市上進行評估時。
將學習的先驗納入基于規則的規劃器。盡管像PDM-C這樣的基于規則的規劃者在真實數據上仍然優于基于學習的方法,但它們無法在世界模型的推出中準確地對未來的代理行為建模。我們的目標是通過AdaptiveDriver(參見圖4)彌合基于規則和學習的規劃者之間的差距,AdaptiveDrive是一種模型預測控制(MPC)規劃者,使用行為參數預測來提高世界模型推出的質量。值得注意的是,盡管AdaptiveDriver和PDM-C都是基于MPC的規劃者的實例,但我們的模型(1)使用了一個反應世界模型,該模型(2)使用從過去的代理行為中導出的特征來適應每個日志。
實驗
結論
在本文中,我們證明了每個城市都有自己獨特的駕駛行為(例如,波士頓司機比匹茲堡司機更傾向于尾門),并學習使用BehaviorNet對獨特的駕駛特征進行建模。我們提出了AdaptiveDriver,這是一種模型預測控制(MPC),它以BehaviorNet的預測為條件展開并執行特定行為的世界模型,并在nuPlan閉環反應基準上實現最先進的性能。