入行端到端自動駕駛,今年必讀的十篇最前沿論文
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
End to End methods for Autonomous Driving
近幾年,自動駕駛技術的發展可謂是日新月異。從2021年的BEV+Transformer范式到2022年的Occupancy網絡,再到2023年以來,“端到端”思路被炒得火熱,如今各大廠商幾乎都推出了自己的做端到端系統:2023年8月特斯拉發布FSD V12;2024年4月商湯絕影發布面向量產的端到端自動駕駛解決方法UniAD;2024年5月,百度發布Apollo ADFM作為支持L4級別自動駕駛的大模型;2024年5月,小鵬汽車也發布自己的端到端大模型包含感知大模型XNet+規控大模型XPlanner+大語言模型XBrain三個部分……
不論是主機廠還是智駕解決方案供應商,每一家都有自己的端到端算法,但是到底什么是端到端?業內一直在討論,沒有一個明確的定義。但是筆者認為,來自大佬王乃巖的知乎回答,可能可以給讀者們提供一些思考。簡單總結就是:輸入各種傳感器的數據,可以直接輸出控制信號的或者行駛軌跡的,可以稱之為狹義端到端;而廣義端到端可以認為是提供了一種對于感知信息(也許是隱式)的全面表示,能夠自動地無損地作用于PnC的模型。
對于我們自動駕駛從業人員來說,follow新的技術,一直是我們的工作之一。今天筆者就帶來一份詳細的端到端自動駕駛論文的總結,供大家學習入門。
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning
論文鏈接:https://arxiv.org/pdf/2207.07601
論文時間:2022.7
論文作者:Shengchao Hu, Li Chen, Penghao Wu, et al.
所屬團隊:上海交通大學人工智能實驗室,上海市人工智能實驗室,加利福尼亞州圣地亞哥分校,et al.
這篇論文提出了一個名為ST-P3的端到端視覺基礎自動駕駛系統,旨在通過空間-時間特征學習來提升自動駕駛任務中的感知、預測和規劃性能。現有的自動駕駛范式通常采用多階段分散的流水線任務,但這種方法的缺點在于各個階段間可能存在信息損失和不一致性。為了克服這些問題,ST-P3采用了一種一體化的方法,直接從原始傳感器數據生成規劃路徑或控制信號,從而在整個網絡中同時優化特征表示。ST-P3系統的核心在于其空間-時間特征學習方案,該方案通過三個主要的技術改進來增強特征學習:自我中心對齊累積技術(Ego-centric Aligned Accumulation):在感知階段,該技術通過預測深度信息將多視角相機輸入的特征轉換到3D空間,并在變換到鳥瞰圖(BEV)之前,將過去和當前的3D特征進行累積,以保留幾何信息。雙通道建模(Dual Pathway Modelling):在預測階段,ST-P3不僅考慮當前狀態的不確定性,還結合了過去的運動變化,通過兩個通道來增強對未來場景的預測能力。先驗知識精細化單元(Prior-Knowledge Refinement):在規劃階段,ST-P3利用從早期網絡階段獲得的中間表示來規劃安全舒適的軌跡,并引入一個精細化模塊來進一步優化軌跡,考慮如交通信號燈等視覺元素。
Planning-oriented Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2212.10156
論文時間:2023.3
論文作者:Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, et al.
所屬團隊:OpenDriveLab, OpenGVLab,上海人工智能實驗室, 武漢大學, 商湯科技研究院
在傳統的自動駕駛系統中,感知、預測和規劃任務通常由獨立的模型分別處理,這種模塊化的方法雖然簡化了研發流程,卻存在著信息在模塊間傳遞時丟失、誤差累積以及特征對齊問題。UniAD通過一個統一的網絡將這些任務整合在一起,優化了任務間的信息流通和協調,從而顯著提升了整個系統的性能和可靠性。UniAD的核心是其端到端的設計,它將多個關鍵任務——包括目標檢測、多目標跟蹤、在線地圖構建、運動預測、占用預測和規劃——封裝在一個網絡中。這種設計允許系統從全局視角捕獲駕駛場景的語義和幾何信息,并通過統一的查詢接口實現不同任務間的有效通信。例如,感知模塊的輸出可以直接用于預測模塊,而預測結果又可以指導規劃器制定安全有效的行駛策略。從實現的角度說,UniAD采用了Transformer解碼器結構,利用自注意力機制來處理感知和預測任務中的序列化數據。它通過TrackFormer進行目標的檢測和跟蹤,通過MapFormer實現在線地圖構建,通過MotionFormer預測其他車輛和行人的未來運動軌跡,通過OccFormer預測未來場景的占用網格圖。最終,規劃器結合這些信息,使用非線性優化策略生成最終的行駛軌跡,確保自動駕駛車輛能夠安全地導航。
ReasonNet: End-to-End Driving with Temporal and Global Reasoning
論文鏈接:https://arxiv.org/pdf/2305.10507
論文時間:2023.5
論文作者:Hao Shao, Letian Wang, Ruobing Chen, et al.
所屬團隊:商湯科技研究院, 多倫多大學, 香港中文大學 MMLab, 上海人工智能實驗室
ReasonNet是為解決自動駕駛車輛在城市密集交通場景中部署的挑戰而設計的端到端駕駛框架。該框架特別關注于預測場景的未來演變和對象的未來行為,以及處理罕見的不利事件,如遮擋對象的突然顯現。這些能力對于確保自動駕駛車輛能夠安全、可靠地運行至關重要。框架的核心在于其兩個創新的推理模塊:時序推理和全局推理。時序推理模塊通過分析和融合不同幀之間的特征,有效地處理了對象隨時間的運動和相互作用,同時維護了一個記憶庫來存儲和利用歷史特征,這有助于對遮擋對象進行追蹤和預測。全局推理模塊則進一步增強了框架的能力,通過模擬對象與環境之間的交互和關系,來識別和處理不利事件,尤其是那些可能被遮擋的對象,從而提高了整體的感知性能。為了全面評估框架的性能,研究者開發了DriveOcclusionSim,這是一個包含多種遮擋事件的駕駛模擬基準測試。ReasonNet的成功不僅體現在理論上,更在于其在實際模擬環境中的卓越表現。該框架通過多任務學習,聯合目標包括對象檢測、占用預測、交通標志預測和路徑點預測,提高了對復雜交通場景的全面理解。此外,框架中的感知模塊能夠處理和融合來自多個傳感器的數據,生成對導航至關重要的鳥瞰圖特征。控制策略則利用預測的路徑點和交通標志來指導自動駕駛車輛的行駛。
FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2308.01006
論文時間:2023.8
論文作者:Tengju Ye2, Wei Jing3, Chunyong Hu, et al.
所屬團隊:西湖大學,Udeer.ai,菜鳥網絡,阿里巴巴集團
這篇論文提出了一個名為FusionAD的新型自動駕駛多模態融合神經網絡框架,首次探索了如何將相機和激光雷達的信息融合,以端到端的方式優化預測和規劃任務。具體來說,研究者首先構建了一個基于Transformer的多模態融合網絡,有效地產生基于融合的特征。與基于相機的端到端方法UniAD相比,FusionAD進一步建立了一個融合輔助的模態感知預測和狀態感知規劃模塊(FMSPnP),該模塊利用多模態特征進行優化。在nuScenes數據集上進行的廣泛實驗表明,FusionAD在感知任務(如檢測和跟蹤)上平均提高了15%,在占用預測精度上提高了10%,在平均位移誤差(ADE)分數上從0.708降低到0.389,并減少了碰撞率從0.31%到0.12%。這些結果表明,FusionAD在預測和規劃任務上達到了當時最先進的性能,同時在中間感知任務上也保持了競爭力。FusionAD的核心貢獻在于提出了一種基于BEV(鳥瞰圖)融合的多傳感器、多任務端到端學習方法,與僅基于相機的BEV方法相比,大大改進了結果。研究者提出的FMSPnP模塊結合了模態自注意力和細化網絡,用于預測任務,以及放松的碰撞損失和與矢量化自我信息的融合,用于規劃任務。實驗研究表明,FMSPnP提高了預測和規劃結果。
VAD: Vectorized Scene Representation for Efficient Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2303.12077
論文時間:2023.8
論文作者:Bo Jiang, Shaoyu Chen, Qing Xu, et al.
所屬團隊:華中科技大學,地平線
VAD通過將駕駛場景建模為完全矢量化的表示來實現高效和安全的軌跡規劃。與依賴于密集光柵化場景表示(例如語義地圖、占用地圖等)的傳統方法相比,VAD利用矢量化的智能體運動和地圖元素作為明確的實例級規劃約束,不僅提高了規劃的安全性,還顯著提升了計算效率。在nuScenes數據集上的實驗表明,VAD在減少規劃誤差和碰撞率方面取得了突破性進展,同時大幅提高了推理速度,這對于自動駕駛系統的實際部署至關重要。VAD的核心優勢在于其創新的矢量化規劃約束,這些約束包括自車的碰撞約束、自我邊界越界約束和自我車道方向約束,它們共同作用于規劃軌跡,確保了自動駕駛車輛在復雜交通環境中的安全性和合理性。此外,VAD采用了BEV(鳥瞰圖)查詢和agent查詢,通過注意力機制隱式學習場景特征,并利用這些特征指導規劃決策。VAD的端到端學習框架允許模型直接從傳感器數據中學習,無需依賴預先構建的地圖或復雜的后處理步驟,這一點在提高規劃速度和減少計算資源消耗方面發揮了關鍵作用。
VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning
論文鏈接:https://arxiv.org/pdf/2402.13243
論文時間:2024.2
論文作者:Shaoyu Chen, Bo Jiang, Hao Gao, Bencheng Liao, et al.
所屬團隊:華中科技大學,地平線
VADv2是一篇探索概率規劃在端到端自動駕駛中的應用的研究論文。這項工作的核心是解決傳統確定性規劃方法在處理規劃不確定性時的不足,特別是在面對非凸可行解空間時的挑戰。本文提出的模型采用概率規劃范式,將規劃策略視為環境條件化的非平穩隨機過程,通過從大規模駕駛演示中學習,來擬合連續規劃動作空間的概率分布。輸入是多視圖圖像序列,這些圖像以流式傳輸的方式被轉換成環境token嵌入,模型輸出動作的概率分布,并從中采樣一個動作來控制車輛。這樣的概率規劃方法具有兩個顯著優勢。首先,概率規劃能夠對每個動作與環境之間的相關性進行建模,與只能為目標規劃動作提供稀疏監督的確定性建模不同,概率規劃可以為規劃詞匯表中的所有候選動作提供監督,從而帶來更豐富的監督信息。其次,概率規劃在推理階段非常靈活,能夠輸出多模態規劃結果,并且易于與基于規則和基于優化的規劃方法相結合。此外,我們可以靈活地將其他候選規劃動作添加到規劃詞匯表中,并評估它們,因為我們對整個動作空間進行了分布建模。VADv2的框架包括場景編碼器、概率規劃模塊和訓練過程。場景編碼器將傳感器數據轉換為實例級token嵌入,包括地圖token、智能體token、交通元素token和圖像token。概率規劃模塊則利用大規模駕駛演示和場景約束來監督預測的分布。訓練過程中,VADv2采用分布損失、沖突損失和場景token損失三種監督信號,以學習從駕駛演示中得到的概率分布。
SparseDrive: End-to-End Autonomous Driving via Sparse Scene Representation
論文鏈接:https://arxiv.org/pdf/2405.19620
論文時間:2024.5
論文作者:Wenchao Sun, Xuewu Lin, Yining Shi, et al.
所屬團隊:清華大學,地平線
這篇論文提出了SparseDrive,一種端到端的自動駕駛系統,旨在解決現有自動駕駛模型在規劃安全性和效率方面的不足。傳統的自動駕駛系統采用模塊化設計,將感知、預測和規劃等任務解耦為獨立的模塊,這導致了信息丟失和誤差累積。而端到端的方法雖然在優化時能夠全面考慮,但其性能和效率通常不盡人意,特別是在規劃安全方面。SparseDrive通過探索稀疏場景表示和重新審視端到端自動駕駛的任務設計,提出了一種新穎的范式。具體來說,SparseDrive由一個對稱的稀疏感知模塊和一個并行運動規劃器組成。稀疏感知模塊通過對稱的模型架構統一了檢測、跟蹤和在線地圖構建任務,學習駕駛場景的完全稀疏表示。并行運動規劃器則利用從稀疏感知中獲得的語義和幾何信息,同時進行運動預測和規劃,產生多模態軌跡,并采用分層規劃選擇策略,包括碰撞感知重分模塊,以選擇合理且安全的軌跡作為最終規劃輸出。SparseDrive的設計有效提高了端到端自動駕駛的性能和效率。在nuScenes數據集上的實驗結果表明,SparseDrive在所有任務的性能上都大幅超越了先前的最先進方法。此外,SparseDrive的碰撞感知重分模塊和多模態規劃方法,使得規劃器能夠基于運動預測結果評估規劃軌跡的碰撞風險,并據此調整軌跡的得分,從而確保了規劃的安全性。SparseDrive的這些設計選擇通過廣泛的消融實驗得到了驗證,證明了其在提高規劃性能方面的有效性。
Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation
論文鏈接:https://arxiv.org/pdf/2406.06978
論文時間:2024.6
論文作者:Zhenxin Li, Kailin Li, Shihao Wang, et al.
所屬團隊:英偉達,復旦大學,華東師范大學,北京理工大學,南京大學,南開大學
Hydra-MDP是一篇探討端到端自動駕駛多模態規劃的論文,提出了一種新穎的多教師模型范式,通過從人類和基于規則的教師那里進行知識蒸餾來訓練學生模型。通過一個多頭解碼器來實現多模態規劃,該解碼器學習針對不同評估指標量身定制的多樣化軌跡候選。與傳統的端到端方法不同,Hydra-MDP不依賴于不可微的后處理過程,而是利用基于規則的教師的知識,以端到端的方式學習環境如何影響規劃。Hydra-MDP的解決方案包括感知網絡和軌跡解碼器兩個主要部分。感知網絡基于官方挑戰基線Transfuser構建,利用圖像和激光雷達數據提取環境token,這些tokens編碼了豐富的語義信息。軌跡解碼器則采用固定規劃詞匯表來離散化連續動作空間,并通過多層變換器編碼器和解碼器結合環境線索。論文的關鍵創新之一是多目標Hydra蒸餾策略,通過兩步過程擴展學習目標:首先,對整個訓練數據集的規劃詞匯進行離線模擬;其次,在訓練過程中引入模擬得分的監督。這種策略將規則基礎的駕駛知識蒸餾到端到端規劃器中,提升了閉環性能。
End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation
論文鏈接:https://arxiv.org/pdf/2406.17680
論文時間:2024.6
論文作者:Mingzhe Guo, Zhipeng Zhang, et al.
所屬團隊:北京交通大學,卡爾動力KARGOBOT
這篇論文提出了一種名為UAD(Unsupervised pretext task for end-to-end Autonomous Driving)的新方法,旨在解決當前端到端自動駕駛(E2EAD)模型在環境感知和預測任務中對昂貴的模塊化和手動3D標注的依賴問題。UAD的核心創新在于引入了一個無監督的前置任務,通過預測駕駛場景中的角空間對象性和時序動態來模擬環境,從而消除了對手動標注的需求。此外,UAD采用了自監督的訓練策略,通過學習在不同增強視圖下預測軌跡的一致性,增強了在轉向場景中的規劃魯棒性。UAD方法的提出基于對現有E2EAD模型的觀察,這些模型通常模仿傳統駕駛棧中的模塊化架構,需要大量高質量的3D標注數據來監督感知和預測子任務。這種設計雖然取得了突破性進展,但存在明顯的缺陷:一是對大規模訓練數據的擴展構成了重大障礙;二是每個子模塊在訓練和推理中都需要大量的計算開銷。為了解決這些問題,UAD框架采用了一個新穎的角度感知預文本設計,通過預測BEV空間中每個扇區區域的對象性來獲取空間知識,并通過自回歸機制預測未來狀態來捕獲時序信息。在實驗中,UAD在nuScenes數據集上取得了最佳的開放環路評估性能,并在CARLA模擬器中展示了穩健的閉環路駕駛質量。
DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba
論文鏈接:https://arxiv.org/pdf/2408.03601
論文時間:2024.8
論文作者:Chengran Yuan, Zhanqi Zhang, Jiawei Sun, et al.
所屬團隊:新加坡國立,Moovita
這篇論文介紹了一種叫作DRAMA的新型端到端運動規劃器,它基于Mamba模型,旨在解決自動駕駛領域中的運動規劃問題。運動規劃是自動駕駛車輛的核心能力之一,它負責生成在復雜和高度動態環境中既安全又可行的軌跡。然而,由于其他道路使用者的意圖預測、交通標志和信號的理解、道路拓撲結構的復雜性等因素,實現可靠和高效的軌跡規劃是一個挑戰。DRAMA通過融合相機、激光雷達鳥瞰圖(BEV)圖像以及自車狀態信息,生成一系列未來自車軌跡。與傳統基于Transformer的方法相比,這些方法由于注意力機制的二次復雜度而在序列長度上計算量大,DRAMA通過減少計算密集度的注意力復雜度,展現出處理日益復雜場景的潛力。利用Mamba融合模塊,DRAMA高效且有效地融合了相機和激光雷達模態的特征。此外,論文還引入了Mamba-Transformer解碼器,增強了整體規劃性能,這一模塊普遍適用于任何基于Transformer的模型,尤其是對于長序列輸入的任務。論文還引入了一種新穎的特征狀態丟棄(Feature State Dropout, FSD)機制,該機制通過在訓練和推理時不增加時間的情況下,通過減少有缺陷的傳感器輸入和丟失的自車狀態的不利影響,提高了規劃器的魯棒性。具體來說,DRAMA采用了一個編碼器-解碼器架構,其中編碼器利用多尺度卷積和Mamba融合模塊有效地從相機和激光雷達BEV圖像中提取特征,并通過FSD模塊增強模型的魯棒性。解碼器則采用了Mamba-Transformer解碼層來生成自車的未來軌跡。這種架構不僅提高了模型的效率和性能,而且通過減少模型大小和訓練成本,提高了模型的可擴展性和實用性。論文的實驗部分展示了DRAMA在多種場景下的規劃結果,包括在沒有明確交通信號控制的情況下準確執行停車讓行行人的命令,以及在低速場景中熟練地進行停車操作。