大幅超越所有SOTA！地平線DiffusionDrive：生成式方案或將重塑端到端格局？

作者：Bencheng Liao等 2024-12-03 09:36:52

今天為大家分享地平線最新的生成式端到端方案—DiffusionDrive！顯著超過所有SOTA。

寫在前面&筆者的個人理解

近年來，由于感知模型的性能持續進步，端到端自動駕駛受到了來自工業界和學術界的廣泛關注，端到端自動駕駛算法直接從原始傳感器采集到的信息輸入中學習駕駛策略。這種基于數據驅動的方法為傳統的基于規則的運動規劃提供了一種可擴展且強大的替代方案，而傳統的基于規則的運動規劃通常難以推廣到復雜的現實世界駕駛環境。為了有效地從數據中學習駕駛過程，主流的端到端規劃器通常從自車查詢中回歸出單模軌跡，如下圖所示。

然而，這種回歸單模軌跡的框架模式并沒有考慮到駕駛行為中固有的不確定性和多模式的性質。最近，提出的端到端自動駕駛算法VADv2引入了大量固定的錨點軌跡vocabulary。然后，根據預測的評分從這些錨點中進行采樣。然而，這種大型固定vocabulary范式從根本上受到錨點軌跡數量和質量的限制，在vocabulary不足的情況下經常會失敗。此外，管理大量錨點對實時的自動駕駛應用來說帶來了巨大的計算挑戰。

與離散化動作空間不同，擴散模型已被證明是機器人領域一種強大的生成決策策略，它可以通過迭代去噪過程的方式直接從高斯分布中采樣多模式物理上合理的動作。這激勵我們將機器人領域的擴散模型的成功經驗復制到端到端自動駕駛領域當中。

我們將原始機器人擴散策略應用于單模回歸方法Transfuser。與普通擴散策略不同，人類駕駛員遵循既定的駕駛模式，并根據實時交通狀況進行動態調整。這一認識促使我們將這些先前的駕駛模式嵌入到擴散策略中，具體方法是將高斯分布劃分為以先前錨點為中心的多個子高斯分布，稱為anchored Gaussian分布。它是通過截斷diffusion schedule來實現的，從而在先前的錨點周圍引入一小部分高斯噪聲，如下圖所示。

為了增強與條件場景上下文的交互，我們提出了一種基于Transformer的擴散解碼器，它不僅與感知模塊的結構化查詢交互，還通過稀疏可變形注意機制與鳥瞰圖和透視圖特征交互。此外，我們引入了一種級聯機制，在每個去噪步驟中迭代細化擴散解碼器內的軌跡重建。

最終，我們提出了一種實時端到端自動駕駛的擴散模型，稱之為DiffusionDrive。我們在NAVSIM數據集上對我們的方法進行閉環評估的基準測試。相關的實驗結果表明，DiffusionDrive實現了88.1的PDMS，顯著超過了之前的SOTA算法。此外，我們通過開環評估進一步驗證了DiffusionDrive在nuScenes數據集上的性能，相關的實驗結果表明提出的DiffusionDrive實現了SOTA的表現結果。

論文鏈接：https://arxiv.org/pdf/2411.15139

算法模型網絡結構&技術細節梳理

調研工作

如前文所述，我們先從非常具有代表性的端到端規劃算法Transfuser開始，通過簡單地將回歸MLP層替換為遵循擴散策略的條件擴散模型 UNet，將其轉變為生成模型。在評估過程中，我們采樣隨機噪聲并通過20個step逐步對其進行細化，相關的實驗結果如下表所示。

為了進一步研究擴散策略在駕駛中的多模式特性，我們從高斯分布中采樣了20個隨機噪聲，并使用20個step對其進行去噪。如下圖所示。

不同的隨機噪聲在去噪后會收斂到相似的軌跡。為了定量分析模式坍塌現象，我們定義了一個模式多樣性得分D，根據每條去噪軌跡與所有去噪軌跡的并集之間的平均交并比計算得到：

相關的實驗結果如下表所示。通過表格中的結果可以看出，mIoU 越高，表示去噪軌跡的多樣性越低。通過可視化的結果可以看出類似的效果。此外，通過下表的實驗結果還可以看出，DDIM擴散策略需要20個去噪step才能將隨機噪聲轉換為可行軌跡，這會帶來大量計算開銷。這使得它對于實時在線駕駛應用來說不切實際。

截斷擴散

人類的駕駛行為遵循著固定模式，不同于普通擴散策略中的隨機噪聲去噪。受此啟發，我們提出了一種截斷擴散策略，該策略從錨定高斯分布而不是從標準高斯分布開始進行去噪過程。為了使模型能夠學習從錨定高斯分布到所需的駕駛策略進行去噪，我們在訓練期間進一步截斷擴散計劃，只向錨點添加少量高斯噪聲。

訓練過程：我們首先通過向訓練集上由K-Means 聚類的錨點添加高斯噪聲來構建擴散過程。我們通過截斷擴散噪聲方案來將錨點擴散到錨定高斯分布，相關的計算公式如下。

在訓練期間，擴散解碼器將噪聲軌跡作為輸入，并預測分類分數和去噪軌跡，相關公式如下。

我們將最接近真實軌跡的錨點周圍的噪聲軌跡指定為正樣本，其他軌跡指定為負樣本。訓練目標結合了軌跡重建和分類，計算公式如下所示。

推理過程：我們使用截斷去噪過程，從錨定高斯分布中采樣的噪聲軌跡開始，并逐步對其進行去噪，直至完成最終預測。在每個去噪時間戳中，上一步估計的軌跡被傳遞給擴散解碼器，該解碼器預測分類分數和坐標。在獲得當前時間戳的預測后，我們將 DDIM 更新規則應用于下一個時間戳的樣本軌跡。

推理靈活性：我們提出的自動駕駛DiffusionDrive算法的一個關鍵優勢在于其推理的靈活性。雖然模型是用軌跡進行訓練的，但其推理過程可以容納任意數量的軌跡樣本，并可以根據計算資源或應用要求進行動態的調整。

DiffusionDrive算法整體框架圖

如下圖所示，展示了我們提出的算法模型DiffusionDrive的網絡結構。

DiffusionDrive算法模型可以集成之前端到端規劃器中使用的各種現有感知的模塊，并接受不同的傳感器信息作為輸入。設計的擴散解碼器專為復雜且具有挑戰性的駕駛應用而量身定制，增強了與條件場景環境的交互。

Diffusion Decoder：給定一組從錨定高斯分布中采樣的噪聲軌跡，我們首先應用可變形空間交叉注意力來與基于軌跡坐標的鳥瞰圖 (BEV) 或透視圖 (PV) 特征進行交互。隨后，在軌跡特征和從感知模塊派生的代理/地圖查詢之間執行交叉注意力，然后接一個FFN網絡。為了對擴散時間戳信息進行編碼，我們使用Timestep Modulation Layer，然后是多層感知機網絡，用于預測置信度得分和相對于初始噪聲軌跡坐標的偏移量。該Timestep Modulation Layer的輸出用作后續級聯擴散解碼器層的輸入。DiffusionDrive 進一步重用級聯擴散解碼器在推理過程中迭代地對軌跡進行去噪，并在不同的去噪時間步長之間共享參數。選擇置信度得分最高的最終軌跡作為輸出。

實驗結果&評價指標

整體性能比較

下表展現了將DiffusionDrive與NAVSIM數據集上最先進的算法模型進行比較的實驗結果匯總。

此外，如下表所示，使用擴散策略將Transfuser算法模型轉換為生成式Transfuser DP，可將PDMS 得分提高 0.6，并提高模式多樣性得分11%。然而，它也顯著增加了規劃模塊的開銷，需要 20 倍以上的去噪step和 32 倍的時間，導致運行時開銷總共增加了 650 倍。

通過采用所提出的截斷擴散策略，將去噪step的數量從 20 減少到 2，同時實現了 PDMS 增加 1.1，模式多樣性提高 59%。通過進一步結合所提出的擴散解碼器，最終 DiffusionDrive 模型達到了 88.1 PDMS 和 74% 的模式多樣性得分。相比于Transfuser DP，DiffusionDrive實現了3.5 PDMS 和 64% 模式多樣性的改進，以及去噪step減少了10倍，從而使 FPS 速度提高了 6 倍。這可以實現實時、高質量的多模式規劃。

消融實驗分析

下表顯示了我們在擴散解碼器中的設計選擇的有效性。通過比較 ID-6 和 ID-1，我們可以看到所提出的擴散解碼器減少了 39% 的參數，并將規劃質量顯著提高了 2.4 PDMS。由于缺乏與環境的豐富和層次化交互，ID-2 表現出嚴重的性能下降。通過比較 ID-2 和 ID-3，我們可以看到空間交叉注意對于準確規劃至關重要。ID-5 表明所提出的級聯機制是有效的，并且可以進一步提高性能。

下表的實驗結果表明，由于起始點的選擇比較合理，DiffusionDrive僅需1步即可達到良好的規劃質量。進一步增加去噪步長可以提高規劃質量，并使其在復雜的環境下具有靈活的推理能力。

通過下表的實驗結果可以看出，消除了級聯階段數的影響。增加階段數可以提高規劃質量，但在 4 個階段就會飽和，并且每一步都會花費更多的參數和推理時間。

由于在上文中已經有所提到，DiffusionDrive 只需從錨定高斯分布中采樣可變數量的噪聲即可生成不同的軌跡。下表的相關實驗結果可以看出，10 個采樣噪聲已經可以實現不錯的規劃質量。通過采樣更多噪聲，DiffusionDrive 可以覆蓋潛在的規劃動作空間并提高規劃質量。

由于 PDMS 規劃指標基于得分最高的軌跡進行計算，而我們提出的分數評估模式多樣性，因此僅憑這些指標無法完全捕捉多樣化軌跡的質量。為了進一步驗證多模式軌跡的質量，我們在 NAVSIM數據集上的具有挑戰性的場景中可視化了 Transfuser、Transfuser DP和 DiffusionDrive 的規劃結果，如下圖所示。

通過可視化的結果可以看出，DiffusionDrive 生成的多模式軌跡不僅多樣性，而且質量較高。在上圖的a圖展示的結果可以看出，DiffusionDrive 算法模型生成的得分最高的前 10 條軌跡與真實軌跡非常相似，而突出顯示的前 10 條得分軌跡出人意料地試圖執行高質量的車道變換。上圖的b圖展示的結果可以看出，突出顯示的前 10 條得分軌跡也執行車道變換，相鄰的低得分軌跡進一步與周圍的代理交互以有效避免了碰撞的發生。

nuScenes 數據集是之前流行的端到端規劃基準。由于 nuScenes 的主要場景都是簡單而瑣碎的情況，因此我們僅進行相關結果的比較，如下表所示。

我們根據 SparseDrive 的訓練和推理方案，使用 ST-P3中提出的開環指標，在 SparseDrive之上實現了 DiffusionDrive算法模型。我們堆疊了 2 個級聯擴散解碼器層，并應用了具有 18 個聚類錨點的截斷擴散策略。通過上表的實驗結果可以看出，DiffusionDrive 將 SparseDrive 的平均 L2 誤差降低了 0.04m，與之前最先進的方法相比，實現了最低的 L2 誤差和平均碰撞率。同時 DiffusionDrive 算法模型也非常高效，運行速度比 VAD 快 1.8 倍，L2 誤差降低了 20.8%，碰撞率降低了 63.6%。

結論

在本文中，我們提出了一種新穎的生成式駕駛決策模型 DiffusionDrive，該模型結合了所提出的截斷擴散策略和高效的級聯擴散解碼器，用于端到端自動駕駛。全面的實驗和定性比較驗證了 DiffusionDrive 在規劃質量、運行效率和模式多樣性方面的優越性。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛端到端

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看