卡耐基梅隆大學 | 世界模型終將驅動自動駕駛！全新SOTA規劃算法

作者：自動駕駛Daily 2024-07-11 11:40:18

今天分享一篇卡耐基梅隆大學團隊基于自適應世界模型的自動駕駛規劃工作！

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

寫在前面&筆者的個人理解

運動規劃對于復雜城市環境中的安全航行至關重要。從歷史上看，運動規劃器（MP）是在仿真環境（如CARLA）進行評估的。然而，這種合成基準并不能捕捉現實世界中的多智能體交互。最近發布的MP基準測試nuPlan通過使用閉環仿真邏輯增強現實世界的駕駛日志來解決這一限制，有效地將固定數據集變成了反應仿真器。我們分析了nuPlan記錄日志的特征，發現每個城市都有自己獨特的駕駛行為，這表明穩健的規劃者必須適應不同的環境。我們學習使用BehaviorNet對這種獨特的行為進行建模，BehaviorNetwork是一種圖卷積神經網絡（GCNN），它使用從最近觀察到的代理歷史中導出的特征來預測反應性代理行為；憑直覺，一些激進的agent可能會尾隨車輛，而其他agent則可能不會。為了對這些現象進行建模，BehaviorNet預測代理的運動控制器的參數，而不是預測其時空軌跡（就像大多數預測者所做的那樣）。最后，我們介紹了AdaptiveDriver，這是一種基于模型預測控制（MPC）的規劃器，它以Behav-iorNet的預測為條件展開不同的世界模型。我們的大量實驗表明，AdaptiveDriver在nuPlan閉環規劃基準上取得了最先進的結果，將測試誤差從6.4%降低到4.6%，即使應用于從未見過的城市。

項目主頁：https://arunbalajeev.github.io/world_models_planning/world_model_paper.html

總結來說，本文的主要貢獻如下：

我們證明，每個城市都有自己獨特的駕駛行為，適應這些不同的環境會顯著提高規劃性能。此外，我們發現一個城市的行為甚至會有所不同，從而激勵我們下一步的貢獻。
我們提出了BehaviorNet，這是一種圖卷積神經網絡（GCNN），它使用最近在周圍場景中觀察到的代理的特征來預測參數化為IDM控制的駕駛行為。
本文介紹了AdaptiveDriver，這是一款基于模型預測控制（MPC）的規劃器，它可以展開并執行自適應世界模型，以在各種環境中安全導航，在nuPlan上實現最先進的閉環規劃性能。

Planning With An Ensemble of World Models

在本節中，我們分析了PDM-C的局限性，并提出了AdaptiveDriver，這是一種模型預測控制的替代實例，在nuPlan基準上實現了最先進的閉環規劃性能。

nuPlan在反應仿真中評估規劃者。nuPlan通過閉環模擬邏輯增強了真實世界的駕駛日志，允許其他代理對自我車輛做出反應。代理以基于其軌跡歷史的初始速度實例化，并將從記錄的駕駛日志中重新模擬其空間軌跡。所有代理的封閉世界模擬邏輯用固定的目標速度（h0）、最小間隙（h1）、車頭時距（h2）、最大加速度（h3）和最大減速度（h4）初始化。

理解PDM-C的局限性。PDM-C是一種最先進的基于規則的規劃器，它改進了智能駕駛員模型（IDM），這是一種沿參考路徑使用簡單縱向PID速度控制器的跟車算法。PDM-C通過用不同的縱向速度和橫向偏移調制IDM的參考路徑來生成候選軌跡，在內部展開其他代理的世界模型，并選擇使該世界模型的成本函數最小化的軌跡，將IDM升級為基于MPC的規劃器。值得注意的是，PDM-C使用了一個更簡單的“軌道上的世界”內部世界模型，其中其他代理是無反應的，在推出過程中以恒定速度移動。盡管具有恒定速度預測的“軌道上的世界”模型可能適用于短期預測，但它無法正確模擬多智能體的相互作用，如車道變更、車道合并和紅綠燈停車。

用BehaviorNet預測未來Agent行為。我們通過學習使用BehaviorNet預測未來的代理行為，改進了“軌道上的世界”模型。我們通過編碼自車輛周圍半徑為R的矢量化道路圖和所有附近代理的兩秒軌跡歷史，對每個場景的獨特駕駛特征進行建模。BehaviorNet由幾個多尺度圖卷積和注意力模塊組成，后面是一個全連接層，用于預測IDM控制參數。我們在補充中進一步描述了BehaviorNet的架構。值得注意的是，與傳統的預測器不同，BehaviorNet直接預測IDM控制參數，然后可以用來展開反應世界模型。

學習自適應行為參數。我們用過去的代理軌跡和目標IDM控制參數的配對例子來訓練BehaviorNet，這些參數最能解釋未來的代理行為。我們通過使用網格搜索擬合訓練日志來優化目標IDM參數：

Training Log-BehaviorNet。盡管每個城市都有不同的駕駛特征，但代理人在一個城市內的行為仍然不同。例如，波士頓的司機可能會在市內使用尾門，但在高速公路上駕駛時更容易造成事故。為了對此進行建模，我們只需在每個單獨的訓練日志上優化Eq.1。圖3（a）用tSNE可視化了一組特定于日志的IDM參數{}，按城市進行顏色編碼。我們沒有訓練BehaviorNet來直接回歸這些參數，而是將問題重新定義為一個簡單的離散分類任務。具體來說，我們將{}的集合聚類為K個聚類，并用K路softmax損失訓練BehaviorNet。我們將此網絡稱為日志行為網絡，與城市行為網絡形成對比。圖3-b）將學習到的行為集群與（a）中的原始城市“集群”進行了比較。圖3-（c）繪制了兩個不同集群的最小間隙分布，表明每個集群松散地對應于原型行為，如“攻擊性”或“被動”。我們調整行為集群的數量（K），以便最大化nuPlan val集上的C3性能。有趣的是，最優數量（16）遠大于不同城市的數量（4）。重要的是，我們表明，與城市特定模型相比，城市不可知集群的泛化能力更強，尤其是在從未見過的城市上進行評估時。

將學習的先驗納入基于規則的規劃器。盡管像PDM-C這樣的基于規則的規劃者在真實數據上仍然優于基于學習的方法，但它們無法在世界模型的推出中準確地對未來的代理行為建模。我們的目標是通過AdaptiveDriver（參見圖4）彌合基于規則和學習的規劃者之間的差距，AdaptiveDrive是一種模型預測控制（MPC）規劃者，使用行為參數預測來提高世界模型推出的質量。值得注意的是，盡管AdaptiveDriver和PDM-C都是基于MPC的規劃者的實例，但我們的模型（1）使用了一個反應世界模型，該模型（2）使用從過去的代理行為中導出的特征來適應每個日志。

實驗

結論

在本文中，我們證明了每個城市都有自己獨特的駕駛行為（例如，波士頓司機比匹茲堡司機更傾向于尾門），并學習使用BehaviorNet對獨特的駕駛特征進行建模。我們提出了AdaptiveDriver，這是一種模型預測控制（MPC），它以BehaviorNet的預測為條件展開并執行特定行為的世界模型，并在nuPlan閉環反應基準上實現最先進的性能。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

卡耐基梅隆大學 | 世界模型終將驅動自動駕駛！全新SOTA規劃算法

寫在前面&筆者的個人理解

相關工作回顧

Planning With An Ensemble of World Models

實驗

結論