英偉達&斯坦福打破陳規！Gen-Drive：生成-評估的全新規劃范式，直接SOTA！

作者：Zhiyu Huang等 2024-10-17 10:23:26

在本文中，我們提出了Gen-Drive算法框架，標志著自動駕駛的決策向生成-評估的方式進行轉變。

寫在前面&筆者的個人理解

在復雜環境中導航需要自動駕駛代理能夠熟練地預測未來場景（比如其他代理的行為），同時做出明智的決策。一般而言，傳統的預測性和確定性規劃方法通常將預測和規劃過程分開，從而將自車與社會環境信息隔離開來，并常常導致不符合社會駕駛規范的行為。盡管目前工業界和學術界已經提出了集成預測和規劃框架的算法模型來解決這一問題，但這類算法仍然依賴于確定性規劃，這對解決代理行為的不確定性、多模態性和相互作用的動態性提出了挑戰。

為了克服上述提到的這些挑戰，我們建議在規劃任務中采用生成-評估的方法。這個方法的關鍵是將自車代理集成到社會互動環境中，為整個場景中的所有代理生成一系列可能的結果，并使用學習場景評估器來指導決策過程。同時，我們考慮到生成模型在自動駕駛的仿真和預測任務中得到了廣泛的應用，但它們在決策任務中的應用相對有限。我們認為是兩個主要限制阻礙了生成模型在規劃任務中的應用。

評估生成的場景并選擇符合人類期望和價值觀的最佳決策場景非常復雜。為了解決這個問題，我們引入了一個場景評估（獎勵）模型，該模型基于從 VLM 反饋中得出的偏好數據進行訓練，從而實現更好的決策；
與受益于樣本多樣性的仿真或者場景生成任務不同，使用生成模型進行規劃需要用更少的樣本生成更可能的未來場景，以最大限度地減少計算開銷和運行時延遲。我們通過引入強化學習 (RL) 微調框架來解決這個問題，該框架基于獲得的獎勵模型來提高擴散生成的質量；

考慮到上述提到的主要限制阻礙以及相應的解決措施，我們提出了Gen-Drive算法模型，一種擴散生成驅動策略以及相應的訓練框架。我們設計的基礎模型使用 nuPlan數據集進行訓練，并在nuPlan閉環規劃基準上進行評估。結果表明，我們的擴散驅動策略取得了良好的性能。

完整的Gen-Drive算法框架以及訓練過程如下圖所示。

Gen-Drive算法模型整體訓練框架圖

網絡模型的整體架構&細節梳理

在詳細介紹我們提出的Gen-Drive算法模型細節之前，下圖展示了我們提出的Gen-Drive算法模型的整體架構。

提出的Gen-Drive框架的整體結構圖

通過上圖可以看出，整體而言，我們采用生成（擴散）模型來取代傳統范式中的預測規劃模型。二者之間的關鍵的區別在于，自車代理并不是孤立于場景之外的；相反，它被視為場景中不可或缺的一部分，所有代理的行為都相互依賴。為了利用該生成模型進行規劃，我們設計了一個場景評估（獎勵）模型。該模型使用精選的成對人類偏好數據集進行訓練，使其能夠直接對生成的場景（規劃）進行評分，并促進選擇最佳且符合上下文的決策。此外，我們利用獎勵模型來微調擴散生成過程，使其朝著生成高回報計劃的方向發展。RL微調步驟可以增強整體規劃性能并減少大量采樣的需要。

場景生成器

對于當前時間戳的初始駕駛場景，我們考慮N個目標（包括自車）和M個地圖元素，追蹤這些目標在個時間步內的歷史軌跡。當前的場景輸入到編碼器中的包括目標的軌跡以及地圖線。其中，是路徑點的個數，和是每個點的特征維度。

編碼器部分：當前場景輸入最初通過時間軸自注意力Transformer層對目標軌的跡進行編碼，得到，然后通過多層感知機對地圖數據進行最大池化，得到。他們被拼接起來形成初始的編碼。我們采用以查詢為中心的Transformer編碼器來融合場景元素的特征并生成全面的場景條件編碼。
去噪器部分：擴散過程在所有感興趣目標的聯合動作空間中進行，動作由加速度和偏航角比率組成。噪聲直接添加到動作序列中。給定噪聲輸入，其中是噪聲等級，是未來時間戳，此外場景條件為，我們采用具有自注意力和交叉注意力層的去噪Transformer來預測去噪后的動作序列。對于自車代理，額外的路線信息被提供，并采用了額外的交叉注意層來模擬自車的路線關系。
生成：未來場景（聯合目標動作）是從隨機高斯噪聲開始生成的，隨后，每個擴散步驟k涉及從下面指定的過程進行采樣。其中，以及是根據預先確定的噪聲得到的。通過迭代地反轉擴散步驟，我們獲得最終的去噪聯合動作輸出。隨后，通過使用動態模型將目標動作轉換為狀態。該狀態包括目標的坐標、朝向和速度。

場景評估器

場景評估器將擴散生成器生成的個未來場景作為輸入，這些場景可以通過從一批高斯噪聲開始并行生成。這些生成的場景結構化為，評估器的另外一個輸入是矢量地圖。這些未來場景使用以查詢為中心的Transformer編碼器進行編碼，類似于歷史場景的編碼，從而產生場景特征表示。隨后，我們利用從場景編碼中提取的自車代理的未來或規劃編碼，以及將場景編碼作為Transformer解碼器中的鍵和值，得出未來場景中以規劃為中心的特征。需要注意的是，Transformer解碼器分別關注每個場景中的個元素。兩個多層感知機頭模塊附加到這個特征張量用于分別重建自車代理的規劃軌跡并輸出不同生成場景的分數。自車規劃重建的頭模塊作為輔助任務來增強穩定性和有效性。

基于擴散模型的訓練

基礎的擴散模型經過訓練，可以在各種噪聲水平和場景條件下從帶噪聲的軌跡輸入中恢復干凈的軌跡。在每個訓練步驟中，我們都會從噪聲級別和高斯噪聲中進行采樣來擾亂原始的動作軌跡。由于該模型預測場景級的軌跡，因此所有目標軌跡都受到相同噪聲水平的影響。基礎擴散模型的訓練損失函數可以表示為：

其中，代表數據集，代表Smooth L1損失函數，是動態模型，是目標的未來真值狀態。

訓練獎勵模型

成對偏好數據收集：為了構建一個有效的獎勵模型，整理全面的數據集是非常有必要的。一種方法是利用人為設計的指標，例如PDM分數。但是，依賴此類指標存在很大的局限性，因為它們可能無法準確反映不同場景中的實際人類價值觀。此外，即使對于人類評估者來說，準確地用獎勵值標記場景也是一項挑戰。或者，我們可以讓人類標注員進行成對的比較，確定哪些場景更符合人類偏好。然而，整理大規模獎勵數據集會給人類標注員帶來巨大的工作量。為了解決這個問題，我們使用VLM來提高流程的效率和可擴展性。
VLM輔助獎勵標記流程如下圖所示。為了增加規劃軌跡的多樣性，我們首先利用K-means聚類算法從數據中提取32個5秒錨定目標，并采用引導擴散策略為自車代理生成32條不同的規劃軌跡，以及模型對場景中其他物體的反應行為。隨后，我們對這些場景進行成對采樣。我們首先計算規劃軌跡之間的差異，然后檢查碰撞和過濾掉明顯的失敗情況。如果這些措施不足以區分，我們將使用GPT-4o提供結論性評估。如下圖所示，GPT-4o根據當前場景上下文對兩個生成的場景進行了合理的評估。

使用VLM收集規劃偏好數據的整體流程

訓練過程：在每個訓練步驟中，我們從相同的初始條件中采樣一批成對比較結果，即接受的場景和拒絕的場景。訓練場景評估模型的損失函數如下，其中，是成對偏好獎勵數據集，表示預測生成場景得分的獎勵模型。

下圖顯示了一些獎勵模型輸出的示例，結果表明，我們訓練的獎勵模型為生成的計劃和場景產生了合理的分數。

場景評估輸出的示例

微調生成模型

為了提高擴散生成在規劃任務中的效率，我們建議使用訓練好的獎勵模型和RL對擴散模型進行微調。我們可以將擴散去噪過程公式化為多步驟的MDP，其中去噪器函數作為以每一步的噪聲輸入為條件的策略。軌跡包含K個時間戳，在擴散過程結束時發出獎勵信號。RL目標是最大化沿軌跡的累積獎勵，我們可以利用去噪擴散策略優化來改進生成策略。微調損失公式如下，其中，是所有目標的去噪狀態軌跡，是真實軌跡。

需要注意的是，微調損失會在整個擴散軌跡上累積，并且只有去噪器是可學習的，而編碼器在微調期間是固定的。下圖展示了使用DDPO的RL微調算法流程。

實驗結果&評價指標

整體實驗結果分析

為了驗證我們提出的算法模型的有效性，我們實施了不同模型的閉環規劃實驗，結果如下表所示。

此外，為了更加直觀的展示生成過程中的一些典型場景，微調后的策略表現出更好的規劃性能，我們也進行了相關的可視化。

規劃過程示意圖

通過相應的實驗和可視化結果可以看出，生成和評估優于單樣本推理。多樣本規劃方法通過批處理并行生成 16 個場景，并使用學習到的獎勵模型選擇最佳場景。該方法增強了生成計劃的多樣性，從而提高了整體規劃得分。此外，具有我們學習到的獎勵模型的生成規劃器在規劃方面優于基于 PDM 分數的評估器。此外，微調可提高性能。規劃效率仍然在很大程度上取決于生成質量，我們證明 RL 微調可以顯著提高質量和性能。值得注意的是，即使使用單樣本方法，微調策略的整體規劃得分也優于沒有微調的多樣本方法。此外，使用我們學習到的獎勵模型進行微調比使用基于 PDM 的評分器效果更好。我們也注意到，與基于學習的預測規劃器相比，我們的模型通過使用先生成后評估的方法表現出卓越的性能。然而，使用基于規則的軌跡生成器和評分器的PDM-Closed規劃器獲得了最高分。值得注意的是，它針對 nuPlan 指標進行了優化，這可能缺乏人類相似性和對現實世界場景的適應性。

消融實驗結果分析

首先，我們先分析了建模目標數量的影響。數量范圍從 1到 100，相關的實驗結果下表所示。我們在模型訓練中調整建模目標的數量，并在測試中使用單樣本生成。結果表明，僅生成自車的規劃會導致性能較差，主要是因為在某些情況下缺乏運動。相反，過多的建模目標（例如 100）也會導致性能和運行效率下降。因此，在保持運行效率的同時，對 50 個自車和周圍對象進行建模表現最佳。

此外，我們也對RL微調階段訓練步驟對結果的影響進行了實驗，并在測試中采用了多樣本生成和評分方法，相關實驗結果如下表所示。結果表明，1000 個微調步驟可實現最佳規劃指標，超過此指標，微調策略的性能就會下降。這是 RLHF 框架中的一個常見問題，因為策略可能會利用獎勵函數并產生不合理的行為。因此，我們將 RL 微調階段限制為 1000 個步驟，以防止性能下降。

結論

在本文中，我們提出了Gen-Drive算法框架，標志著自動駕駛的決策向生成-評估的方式進行轉變。實驗結果表明，與其他基于學習的規劃方法相比，我們的模型通過適當的獎勵建模表現出更優異的性能，并且通過 RL 微調得到了進一步的增強。

責任編輯：張燕妮來源：自動駕駛之心

算法框架

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看