nuScenes最新SOTA | SparseAD：稀疏查詢助力高效端到端自動駕駛！

作者：Diankun Zhang 2024-04-17 09:50:28

自動駕駛系統需要在復雜的駕駛場景中做出正確的決策，以確保駕駛的安全性和舒適性。

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

寫在前面&出發點

端到端的范式使用統一的框架在自動駕駛系統中實現多任務。盡管這種范式具有簡單性和清晰性，但端到端的自動駕駛方法在子任務上的性能仍然遠遠落后于單任務方法。同時，先前端到端方法中廣泛使用的密集鳥瞰圖（BEV）特征使得擴展到更多模態或任務變得成本高昂。這里提出了一種稀疏查詢為中心的端到端自動駕駛范式（SparseAD），其中稀疏查詢完全代表整個駕駛場景，包括空間、時間和任務，無需任何密集的BEV表示。具體來說，設計了一個統一的稀疏架構，用于包括檢測、跟蹤和在線地圖繪制在內的感知任務。此外，重新審視了運動預測和規劃，并設計了一個更合理的運動規劃框架。在具有挑戰性的nuScenes數據集上，SparseAD在端到端方法中實現了最先進的全任務性能，并顯著縮小了端到端范式與單任務方法之間的性能差距。

領域背景

自動駕駛系統需要在復雜的駕駛場景中做出正確的決策，以確保駕駛的安全性和舒適性。通常，自動駕駛系統集成了多個任務，如檢測、跟蹤、在線地圖、運動預測和規劃。如圖1a所示，傳統的模塊化范式將復雜的系統拆分為多個單獨的任務，每個任務都獨立優化。在這種范式中，獨立的單任務模塊之間需要手工進行后處理，這使得整個流程變得更為繁瑣。另一方面，由于堆疊任務之間的場景信息損失壓縮，整個系統的誤差會逐漸累積，這可能導致潛在的安全問題。

關于上述問題，端到端自動駕駛系統以原始傳感器數據作為輸入，并以更簡潔的方式返回規劃結果。早期的工作提出跳過中間任務，直接從原始傳感器數據預測規劃結果。盡管這種方法更為直接，但在模型優化、可解釋性和規劃性能方面并不令人滿意。另一種具有更好可解釋性的多面范式是將自動駕駛的多個部分集成到一個模塊化的端到端模型中，其中引入了多維度的監督，以提高對復雜駕駛場景的理解能力，并帶來多任務處理的能力。

如圖1b所示，在大多數先前的模塊化端到端方法中，整個駕駛場景通過密集的鳥瞰圖（BEV）特征進行表示，這些特征包括多傳感器和時間信息，并作為全棧駕駛任務（包括感知、預測和規劃）的源輸入。盡管密集的BEV特征在跨空間和時間的多模態和多任務中確實發揮了關鍵作用，將之前使用BEV表示的端到端方法總結為Dense BEV-Centric范式。然而，盡管這些方法具有簡潔性和可解釋性，它們在自動駕駛的每個子任務上的性能仍然遠遠落后于相應的單任務方法。此外，在Dense BEV-Centric范式下，長期時間融合和多模態融合主要是通過多個BEV特征圖來實現的，這導致了計算成本、內存占用顯著增加，給實際部署帶來了更大的負擔。

這里提出了一種新穎的以稀疏查詢為中心的端到端自動駕駛范式（SparseAD）。在該范式中，整個駕駛場景中的空間和時間元素均由稀疏查詢表示，摒棄了傳統的密集鳥瞰圖（BEV）特征，如圖1c所示。這種稀疏表示使得端到端模型能夠更高效地利用更長的歷史信息，并擴展到更多模態和任務，同時顯著降低了計算成本和內存占用。

具體來說，重新設計了模塊化端到端架構，并將其簡化為一個由稀疏感知和運動規劃器組成的簡潔結構。在稀疏感知模塊中，利用通用的時間解碼器[將包括檢測、跟蹤和在線地圖繪制在內的感知任務統一起來。在這個過程中，多傳感器特征和歷史記憶被視為tokens，而物體查詢和地圖查詢則分別代表駕駛場景中的障礙物和道路元素。在運動規劃器中，以稀疏感知查詢作為環境表示，同時對自車和周圍代理進行多模態運動預測，以獲取自車的多種初始規劃方案。隨后，充分考慮多維度的駕駛約束，生成最終的規劃結果。

主要貢獻：

提出了一種新穎的以稀疏查詢為中心的端到端自動駕駛范式（SparseAD），該范式摒棄了傳統的密集鳥瞰圖（BEV）表示方法，因此具有巨大的潛力，能夠高效地擴展到更多模態和任務。
將模塊化的端到端架構簡化為稀疏感知和運動規劃兩部分。在稀疏感知部分，以完全稀疏的方式統一了檢測、跟蹤和在線地圖繪制等感知任務；而在運動規劃部分，則在更合理的框架下進行了運動預測和規劃。
在具有挑戰性的nuScenes數據集上，SparseAD在端到端方法中取得了最先進的性能，并顯著縮小了端到端范式與單任務方法之間的性能差距。這充分證明了所提出的稀疏端到端范式具有巨大的潛力。SparseAD不僅提高了自動駕駛系統的性能和效率，還為未來的研究和應用提供了新的方向和可能性。

SparseAD網絡結構

如圖1c所示，在提出的以稀疏查詢為中心的范式中，不同的稀疏查詢完全代表了整個駕駛場景，不僅負責模塊之間的信息傳遞和交互，還以端到端的方式在多任務中傳播反向梯度以進行優化。與以往以密集鳥瞰圖（BEV）為中心的方法不同，SparseAD中沒有使用任何視圖投影和密集BEV特征，從而避免了沉重的計算和內存負擔，SparseAD的詳細架構如圖2所示。

從架構示意圖上看，SparseAD主要由三部分組成，包括傳感器編碼器、稀疏感知和運動規劃器。具體來說，傳感器編碼器將多視圖相機圖像、雷達或激光雷達點作為輸入，并將其編碼成高維特征。這些特征隨后與位置嵌入（PE）一起作為傳感器tokens輸入到稀疏感知模塊中。在稀疏感知模塊中，來自傳感器的原始數據將被聚合成多種稀疏感知查詢，如檢測查詢、跟蹤查詢和地圖查詢，它們分別代表駕駛場景中的不同元素，并將進一步傳播到下游任務中。在運動規劃器中，感知查詢被視為駕駛場景的稀疏表示，并被充分利用于所有周圍agent和自車。同時，考慮了多方面的駕駛約束以生成既安全又符合動力學要求的最終規劃。

此外，架構中引入了端到端多任務記憶庫，用于統一存儲整個駕駛場景的時序信息，這使得系統能夠受益于長時間歷史信息的聚合，從而完成全棧駕駛任務。

如圖3所示，SparseAD的稀疏感知模塊以稀疏的方式統一了多個感知任務，包括檢測、跟蹤和在線地圖繪制。具體來說，這里有兩個結構完全相同的時序解碼器，它們利用來自記憶庫的長期歷史信息。其中一個解碼器用于障礙物感知，另一個用于在線地圖繪制。

通過不同任務對應的感知查詢進行信息聚合后，檢測和跟蹤頭以及地圖部分別被用于解碼和輸出障礙物和地圖元素。之后，進行更新過程，該過程會過濾并保存當前幀的高置信度感知查詢，并相應地更新記憶庫，這將有利于下一幀的感知過程。

通過這種方式，SparseAD的稀疏感知模塊實現了對駕駛場景的高效、準確的感知，為后續的運動規劃提供了重要的信息基礎。同時，通過利用記憶庫中的歷史信息，模塊能夠進一步提高感知的準確性和穩定性，確保自動駕駛系統的可靠運行。

稀疏感知

在障礙物感知方面，在統一的解碼器內采用聯合檢測和跟蹤的方式，無需任何額外的手工后處理。檢測和跟蹤查詢之間存在明顯的不平衡，這可能導致檢測性能的顯著下降。為了緩解上述問題，從多個角度改進了障礙物感知的性能。首先，引入了兩級記憶機制來跨幀傳播時序信息。其中，場景級記憶維持沒有跨幀關聯的查詢信息，而實例級記憶則保持跟蹤障礙物相鄰幀之間的對應關系。其次，考慮到兩者起源和任務的不同，對場景級和實例級記憶采用了不同的更新策略。具體來說，通過MLN來更新場景級記憶，而實例級記憶則通過每個障礙物的未來預測進行更新。此外，在訓練過程中，還對跟蹤查詢采用了增強策略，以平衡兩級記憶之間的監督，從而增強檢測和跟蹤性能。之后，通過檢測和跟蹤頭部，可以從檢測或跟蹤查詢中解碼出具有屬性和唯一ID的3D邊界框，然后進一步用于下游任務。

在線地圖構建是一個復雜而重要的任務。根據目前所了解的知識，現有的在線地圖構建方法大多依賴于密集的鳥瞰視圖（BEV）特征來表示駕駛環境。這種方法在擴展感知范圍或利用歷史信息方面存在困難，因為需要大量的內存和計算資源。我們堅信所有的地圖元素都可以以稀疏的方式表示，因此，嘗試在稀疏范式下完成在線地圖構建。具體來說，采用了與障礙物感知任務中相同的時序解碼器結構。最初，帶有先驗類別的地圖查詢被初始化為在駕駛平面上均勻分布。在時序解碼器中，地圖查詢與傳感器標記和歷史記憶標記進行交互。這些歷史記憶標記實際上是由之前幀中高度可信的地圖查詢組成的。然后，更新后的地圖查詢攜帶了當前幀地圖元素的有效信息，可以被推送到記憶庫中，以便在未來的幀或下游任務中使用。

顯然，在線地圖構建的流程與障礙物感知大致相同。也就是說，統一了包括檢測、跟蹤和在線地圖構建在內的感知任務，采用了一種通用的稀疏方式，這種方式在擴展到更大范圍（例如100m × 100m）或長期融合時更加高效，而且不需要任何復雜的操作（如可變形注意力或多點注意力）。據我們所知，這是第一個在稀疏方式下在統一感知架構中實現在線地圖構建的。隨后，利用分段貝塞爾地圖Head來回歸每個稀疏地圖元素的分段貝塞爾控制點，這些控制點可以方便地轉換以滿足下游任務的要求。

Motion Planner

我們重新審視了自動駕駛系統中的運動預測與規劃問題，并發現許多先前的方法在預測周圍車輛運動時忽略了本車（ego-vehicle）的動態。雖然這在大多數情況下可能不會顯現出來，但在諸如交叉口等場景中，當近處車輛與本車之間交互緊密時，這可能會帶來潛在風險。受此啟發，設計了一個更加合理的運動規劃框架。在這個框架中，運動預測器同時預測周圍車輛和本車的運動。隨后，本車的預測結果作為運動先驗被用于后續的規劃優化器。在規劃過程中，我們考慮了不同方面的約束，以產生既滿足安全性又符合動力學要求的最終規劃結果。

如圖4所示，SparseAD中的運動規劃器將感知查詢（包括軌跡查詢和地圖查詢）作為當前駕駛場景的稀疏表示。多模態運動查詢被用作媒介，以實現對駕駛場景的理解、對所有車輛（包括本車）之間交互的感知，以及對不同未來可能性的博弈。隨后，本車的多模態運動查詢被送入規劃優化器，其中充分考慮了包括高級指令、安全性和動力學在內的多個方面的駕駛約束。

運動預測器。遵循先前的方法，通過標準的transformer層實現了運動查詢與當前駕駛場景表示（包括軌跡查詢和地圖查詢）之間的感知和整合。此外，應用自車agent和跨模態交互來共同建模未來時空場景中周圍agent和本車之間的交互。通過多層堆疊結構內部和之間的模塊協同作用，運動查詢能夠聚合來自靜態和動態環境的豐富語義信息。

除了上述內容外，還引入了兩種策略來進一步提高運動預測器的性能。首先，利用軌跡查詢的實例級時間記憶進行簡單直接的預測，并將其作為周圍agent運動查詢初始化的一部分。通過這種方式，運動預測器能夠從上游任務中獲得的先驗知識中受益。其次，得益于端到端記憶庫，能夠以幾乎可忽略的成本、以流式方式通過代理記憶聚合器從保存的歷史運動查詢中同化有用信息。

需要注意的是，本車的多模態運動查詢是同時更新的。通過這種方式，可以獲得本車的運動先驗，這可以進一步促進規劃的學習過程。

規劃優化器。借助運動預測器提供的運動先驗，獲得了更好的初始化，從而在訓練過程中減少了繞行。作為運動規劃器的關鍵組成部分，成本函數的設計至關重要，因為它將極大地影響甚至決定最終性能的質量。在提出的SparseAD運動規劃器中，主要考慮安全和動力學兩大方面的約束，旨在生成令人滿意的規劃結果。具體來說，除了VAD中確定的約束外，還重點關注本車與附近agent之間的動態安全關系，并考慮它們在未來時刻的相對位置。例如，如果agent i相對于本車持續保持在前方左側區域，從而阻止本車向左變道，那么agent i將獲得一個左標簽，表示agent i對本車施加了向左的約束。因此，約束在縱向方向上被分為前、后或無，在橫向方向上被分為左、右或無。在規劃器中，我們從相應的查詢中解碼其他agent與本車在橫向和縱向方向上的關系。這個過程涉及確定這些方向上其他代理與本車之間所有約束關系的概率。然后，我們利用focal loss作為Ego-Agent關系（EAR）的成本函數，有效地捕獲附近agent帶來的潛在風險：

由于規劃軌跡必須遵循控制系統執行的動力學規律，在運動規劃器中嵌入了輔助任務，以促進本車動力學狀態的學習。從本車查詢Qego中解碼速度、加速度和偏航角等狀態，并使用動力學損失對這些狀態進行監督：

實驗結果

在nuScenes數據集上進行了大量實驗，以證明方法的有效性和優越性。公正地說，將對每個完整任務的性能進行評估，并與之前的方法進行比較。本節實驗使用了SparseAD的三種不同配置，分別是僅使用圖像輸入的SparseAD-B和SparseAD-L，以及使用雷達點云和圖像多模態輸入的SparseAD-BR。SparseAD-B和SparseAD-BR都使用V2-99作為圖像骨干網絡，輸入圖像分辨率為1600 × 640。SparseAD-L則進一步利用ViTLarge作為圖像骨干網絡，輸入圖像分辨率為1600×800。

在nuScenes驗證數據集上的3D檢測和3D多目標跟蹤結果如下。“僅跟蹤方法”指的是通過后期處理關聯進行跟蹤的方法。“端到端自動駕駛方法”指的是具備自動駕駛全棧任務能力的方法。表中的所有方法都是在全分辨率圖像輸入下進行評估的。?：結果是通過官方開源代碼復現的。-R：表示使用了雷達點云輸入。

與在線建圖方法的性能比較如下，結果是在[1.0m, 1.5m, 2.0m]的閾值下進行評估的。?：通過官方開源代碼復現的結果。?：根據SparseAD中規劃模塊的需求，我們進一步將邊界細分為路段和車道，并分別進行評估。?：骨干網絡和稀疏感知模塊的成本。-R：表示使用了雷達點云輸入。

Multi-Task結果

障礙感知。在Tab. 2中將SparseAD的檢測和跟蹤性能與nuScenes驗證集上的其他方法進行了比較。顯然，SparseAD-B在大多數流行的僅檢測、僅跟蹤和端到端多目標跟蹤方法中表現出色，同時與SOTA方法如StreamPETR、QTrack在相應任務上的性能相當。通過采用更先進的骨干網絡進行擴展，SparseAD-Large實現了整體更好的性能，其mAP為53.6%，NDS為62.5%，AMOTA為60.6%，整體上優于之前的最佳方法Sparse4Dv3。

在線建圖。在Tab. 3中展示了SparseAD與其他先前方法在nuScenes驗證集上的在線建圖性能比較結果。需要指出的是，根據規劃的需求，我們將邊界細分為路段和車道，并分別進行評估，同時將范圍從通常的60m × 30m擴展到102.4m × 102.4m，以與障礙感知保持一致。在不失公平性的前提下，SparseAD以稀疏的端到端方式實現了34.2%的mAP，無需任何密集的BEV表示，這優于大多數之前流行的方法，如HDMapNet、VectorMapNet和MapTR，在性能和訓練成本方面都具有明顯優勢。盡管性能略遜于StreamMapNet，但我們的方法證明了在線建圖可以在統一的稀疏方式下完成，無需任何密集的BEV表示，這對于以顯著較低成本實現端到端自動駕駛的實際部署具有重要意義。誠然，如何有效利用其他模態（如雷達）的有用信息仍是一個值得進一步探索的任務。我們相信在稀疏方式下仍有很大的探索空間。

運動預測。在Tab. 4a中展示了運動預測的比較結果，其中指標與VIP3D保持一致。SparseAD在所有端到端方法中實現了最佳性能，具有最低的0.83m minADE、1.58m minFDE、18.7%的遺漏率以及最高的0.308 EPA，優勢巨大。此外，得益于稀疏查詢中心范式的效率和可擴展性，SparseAD可以有效地擴展到更多模態，并從先進的骨干網絡中受益，從而進一步顯著提高預測性能。

規劃。規劃的結果呈現在Tab. 4b中。得益于上游感知模塊和運動規劃器的卓越設計，SparseAD的所有版本在nuScenes驗證數據集上都達到了最先進水平。具體來說，與包括UniAD和VAD在內的所有其他方法相比，SparseAD-B實現了最低的平均L2誤差和碰撞率，這證明了我們的方法和架構的優越性。與上游任務（包括障礙感知和運動預測）類似，SparseAD通過雷達或更強大的骨干網絡進一步提升了性能。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛端到端

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看