開環端到端自動駕駛中自車狀態是你所需要的一切嗎?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
原標題:Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?
論文鏈接:https://arxiv.org/abs/2312.03031
代碼鏈接:https://github.com/NVlabs/BEV-Planner
作者單位:南京大學 NVIDIA
論文思路:
端到端自動駕駛最近作為一個有前景的研究方向浮現出來,以全棧視角為目標尋求自動化。沿這條線,許多最新的工作遵循開環評估設置在 nuScenes 上研究規劃行為。本文通過進行徹底的分析并揭示更多細節中的難題,更深入地探討了這個問題。本文最初觀察到,以相對簡單的駕駛場景為特征的 nuScenes 數據集,導致在整合了自車狀態(ego status)的端到端模型中感知信息的利用不足,例如自車的速度。這些模型傾向于主要依賴自車狀態進行未來路徑規劃。除了數據集的局限性之外,本文還注意到當前的指標并不能全面評估規劃質量,這導致從現有基準中得出的結論可能存在偏見。為了解決這個問題,本文引入了一個新的指標來評估預測的軌跡是否遵循道路。本文進一步提出了一個簡單的基線,能夠在不依賴感知標注的情況下達到有競爭力的結果。鑒于現有基準和指標的局限性,本文建議學術界重新評估相關的主流研究,并謹慎考慮持續追求最先進技術是否會產生令人信服的普遍結論。
主要貢獻:
現有基于 nuScenes 的開環自動駕駛模型的規劃性能受到自車狀態(ego status) (速度、加速度、偏航角)的高度影響。當自車狀態(ego status) 參與進來,模型最終預測的軌跡基本上由它主導,導致對感知信息的使用減少。
現有的規劃指標未能完全捕捉到模型的真實性能。模型的評估結果在不同指標之間可能會有顯著差異。本文主張采用更多樣化和全面的指標,以防止模型在特定指標上實現局部最優,這可能會導致忽視其他安全隱患。
與在現有的 nuScenes 數據集上推動最先進性能相比,本文認為開發更合適的數據集和指標代表了一個更為關鍵和緊迫的挑戰。
論文設計:
端到端自動駕駛旨在以全棧方式共同考慮感知和規劃[1, 5, 32, 35]。一個基本的動機是將自動駕駛車輛(AV)的感知作為達成目的(規劃)的手段來評估,而不是過度擬合某些感知度量標準。
與感知不同,規劃通常更加開放式且難以量化[6, 7]。理想情況下,規劃的開放式特性將支持閉環評估設置,在該設置中,其他代理可以對自車的行為做出反應,原始傳感器數據也可以相應地變化。然而,到目前為止,在閉環模擬器中進行代理行為建模和真實世界數據模擬[8, 19]仍然是具有挑戰性的未解決問題。因此,閉環評估不可避免地引入了與現實世界相當大的域差距(domain gaps)。
另一方面,開環評估旨在將人類駕駛視為真實情況,并將規劃表述為模仿學習[13]。這種表述允許通過簡單的日志回放,直接使用現實世界的數據集,避免了來自模擬的域差距(domain gaps)。它還提供了其他優勢,例如能夠在復雜和多樣的交通場景中訓練和驗證模型,這些場景在模擬中經常難以高保真度生成[5]。因為這些好處,一個已經建立的研究領域集中于使用現實世界數據集的開環端到端自動駕駛[2, 12, 13, 16, 43]。
目前流行的端到端自動駕駛方法[12, 13, 16, 43]通常使用 nuScenes[2] 來進行其規劃行為的開環評估。例如,UniAD[13] 研究了不同感知任務模塊對最終規劃行為的影響。然而,ADMLP[45] 最近指出,一個簡單的MLP網絡也能僅依靠自車狀態(ego status) 信息,就實現最先進的規劃結果。這激發了本文提出一個重要問題:
開環端到端自動駕駛是否只需要自車狀態(ego status) 信息?
本文的答案是肯定的也是否定的,這考慮到了在當前基準測試中使用自車狀態(ego status) 信息的利弊:
是。自車狀態(ego status) 中的信息,如速度、加速度和偏航角,顯然應有利于規劃任務的執行。為了驗證這一點,本文解決了AD-MLP的一個公開問題,并移除了歷史軌跡真實值(GTs)的使用,以防止潛在的標簽泄露。本文復現的模型,Ego-MLP(圖1 a.2),僅依賴自車狀態(ego status) ,并且在現有的L2距離和碰撞率指標方面與最先進方法不相上下。另一個觀察結果是,只有現有的方法[13, 16, 43],將自車狀態(ego status) 信息納入規劃模塊中,才能獲得與 Ego-MLP 相當的結果。盡管這些方法采用了額外的感知信息(追蹤、高清地圖等),但它們并未顯示出比 Ego-MLP 更優越。這些觀察結果驗證了自車狀態(ego status) 在端到端自動駕駛開環評估中的主導作用。
不是。很明顯,作為一個安全至關重要的應用,自動駕駛在決策時不應該僅僅依賴于自車狀態(ego status) 。那么,為什么僅使用自車狀態(ego status) 就能達到最先進規劃結果的現象會發生呢?為了回答這個問題,本文提出了一套全面的分析,涵蓋了現有的開環端到端自動駕駛方法。本文識別了現有研究中的主要缺陷,包括與數據集、評估指標和具體模型實現相關的方面。本文在本節的其余部分列舉并詳細說明了這些缺陷:
數據集不平衡。NuScenes 是一個常用的開環評估任務的基準[11–13, 16, 17, 43]。然而,本文的分析顯示,73.9%的 nuScenes 數據涉及直線行駛的場景,如圖2所示軌跡分布反映的那樣。對于這些直線行駛的場景,大多數時候保持當前的速度、方向或轉向率就足夠了。因此,自車狀態(ego status) 信息可以很容易地被作為一種捷徑來適應規劃任務,這導致了 Ego-MLP 在 nuScenes 上的強大性能。
現有的評估指標不全面。NuScenes 數據中剩余的26.1%涉及更具挑戰性的駕駛場景,可能是規劃行為更好的基準。然而,本文認為廣泛使用的當前評估指標,如預測與規劃真實值之間的L2距離以及自車與周圍障礙物之間的碰撞率,并不能準確衡量模型規劃行為的質量。通過可視化各種方法生成的眾多預測軌跡,本文注意到一些高風險軌跡,如駛出道路可能在現有指標中不會受到嚴重懲罰。為了回應這一問題,本文引入了一種新的評估指標,用于計算預測軌跡與道路邊界之間的交互率(interaction rate)。當專注于與道路邊界的交匯率(intersection rates) 時,基準將經歷一個實質性的轉變。在這個新的評估指標下,Ego-MLP 傾向于預測出比 UniAD 更頻繁偏離道路的軌跡。
自車狀態(ego status)偏見與駕駛邏輯相矛盾。由于自車狀態(ego status) 可能導致過擬合,本文進一步觀察到一個有趣的現象。本文的實驗結果表明,在某些情況下,從現有的端到端自動駕駛框架中完全移除視覺輸入,并不會顯著降低規劃行為的質量。這與基本的駕駛邏輯相矛盾,因為感知被期望為規劃提供有用的信息。例如,在 VAD [16] 中屏蔽所有攝像頭輸入會導致感知模塊完全失效,但如果有自車狀態(ego status) 的話,規劃的退化卻很小。然而,改變輸入的自身速度可以顯著影響最終預測的軌跡。
總之,本文推測,最近在端到端自動駕駛領域的努力及其在 nuScenes 上的最先進成績很可能是由于過度依賴自車狀態(ego status) ,再加上簡單駕駛場景的主導地位所造成的。此外,當前的評估指標在全面評估模型預測軌跡的質量方面還不夠。這些懸而未決的問題和不足可能低估了規劃任務的潛在復雜性,并且造成了一種誤導性的印象,那就是在開環端到端自動駕駛中,自車狀態(ego status) 就是你所需要的一切。
當前開環端到端自動駕駛研究中自車狀態(ego status) 的潛在干擾引出了另一個問題:是否可以通過從整個模型中移除自車狀態(ego status) 來抵消這種影響?然而,值得注意的是,即使排除了自車狀態(ego status) 的影響,基于 nuScenes 數據集的開環自動駕駛研究的可靠性仍然存疑。
圖1。(a) AD-MLP 同時使用自車狀態(ego status) 和過去軌跡的真實值作為輸入。本文復現的版本(Ego-MLP)去掉了過去的軌跡。(b) 現有的端到端自動駕駛流程包括感知、預測和規劃模塊。自車狀態(ego status) 可以集成到鳥瞰圖(BEV)生成模塊或規劃模塊中。(c) 本文設計了一個簡單的基線以便與現有方法進行比較。這個簡單的基線不利用感知或預測模塊,而是直接基于 BEV 特征預測最終軌跡。
圖2。(a) nuScenes 數據集中的自車軌跡熱圖。(b) nuScenes 數據集中的大多數場景由直行駕駛情況組成。
圖3。當前方法[12, 13, 16]忽略了考慮自車的偏航角變化,始終保持0偏航角(由灰色車輛表示),從而導致假陰性(a)和假陽性(b)的碰撞檢測事件增加。本文通過估計車輛軌跡的變化來估計車輛的偏航角(由紅色車輛表示),以提高碰撞檢測的準確性。
圖4。本文展示了 VAD 模型(在其規劃器中結合了自車狀態(ego status) )在各種圖像損壞情況下的預測軌跡。給定場景中的所有軌跡(跨越20秒)都在全局坐標系統中呈現。每個三角形標記代表自車的真實軌跡點,不同的顏色代表不同的時間步。值得注意的是,即使輸入為空白圖像,模型的預測軌跡仍保持合理性。然而,紅色框內的軌跡是次優的,如圖5中進一步闡述的。盡管對所有環視圖像都進行了損壞處理,但為了便于可視化,只顯示了初始時間步對應的前視圖像。
圖5。在開環自動駕駛方法中,從自車的起始位置預測未來軌跡。在模仿學習范式內,預測軌跡理想情況下應該與實際的真實軌跡密切對齊。此外,連續時間步預測的軌跡應保持一致性,從而保證駕駛策略的連續性和平滑性。因此,圖4 中紅色框顯示的預測軌跡不僅偏離了真實軌跡,而且在不同的時間戳上顯示出顯著的分歧。
圖6。對于在其規劃器中結合了自車狀態(ego status) 的基于VAD的模型,本文在視覺輸入保持恒定的情況下,向自車速度引入噪聲。值得注意的是,當自車的速度數據被擾動時,結果軌跡顯示出顯著的變化。將車輛的速度設置為零會導致靜止的預測,而速度為100米/秒會導致預測出不切實際的軌跡。這表明,盡管感知模塊繼續提供準確的周圍信息,模型的決策過程過分依賴于自車狀態(ego status) 。
圖7。BEVFormer在 BEV查詢的初始化過程中結合了自車狀態(ego status) 信息,這是當前端到端自動駕駛方法[13, 16, 43]未曾涉及的細節。
圖8。在 BEV-Planner++ 中引入自車狀態(ego status) 信息使得模型能夠非常快速地收斂。
圖9。比較本文基線的 BEV特征與相應的場景。
實驗結果:
論文總結:
本文深入分析了當前開環端到端自動駕駛方法固有的缺點。本文的目標是貢獻研究成果,促進端到端自動駕駛的逐步發展。
引用:
Li Z, Yu Z, Lan S, et al. Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?[J]. arXiv preprint arXiv:2312.03031, 2023.