VAD v2端到端SOTA | 遠超DriveMLM等方法(地平線)
從大規模駕駛演示中學習類似人類的駕駛策略是很有前途的,但規劃的不確定性和非確定性本質使得這一任務充滿挑戰。在這項工作中,為了應對不確定性問題,作者提出了VADv2,一個基于概率規劃的端到端駕駛模型。VADv2以流方式輸入多視角圖像序列,將傳感器數據轉換為環境標記嵌入,輸出動作的概率分布,并從中采樣一個動作來控制車輛。僅使用攝像頭傳感器,VADv2在CARLA Town05基準測試中實現了最先進的閉環性能,顯著優于所有現有方法。它能夠在完全端到端的方式下穩定運行,甚至不需要基于規則的封裝。
閉環演示可以在https://hgao-cv.github.io/VADv2中找到。
1 Introduction
端到端自動駕駛是近期重要且熱門的領域。大量的人類駕駛演示數據易于獲取。從大規模演示中學習類似人類的駕駛策略似乎很有希望。
然而,規劃的不確定性和非確定性使得從駕駛演示中提取駕駛知識變得具有挑戰性。
為了展示這種不確定性,圖1中提出了兩種情境:
- 跟隨另一輛車。人類駕駛員有各種合理的駕駛操作,包括保持跟隨或變道超車;
- 與迎面來車的交互。
人類駕駛員有兩種可能的駕駛操作,即讓行或超車。從統計學的角度來看,行動(包括時機和速度)具有高度隨機性,受到許多無法建模的潛在因素的影響。
現有的基于學習的方法遵循確定性范式直接回歸動作。回歸目標 是未來軌跡,在[16, 54]中是控制信號(加速度和轉向)。這種范式假設環境和動作之間存在確定性的關系,但這并非實際情況。人類駕駛行為的變化導致了回歸目標的不確定性。特別是當可行解空間非凸時(見圖1),確定性建模無法處理非凸情況,并可能輸出中間動作,造成安全問題。此外,這種基于確定性回歸的規劃器傾向于輸出主導軌跡,即在訓練數據中出現最頻繁的軌跡(例如停止或直行),這會導致不理想的規劃性能。
在這項工作中,作者提出了概率性規劃以應對規劃的不確定性。據作者所知,VADv2是第一個使用概率建模來擬合連續規劃動作空間的工作,這與之前使用確定性建模進行規劃的做法不同。作者將規劃策略建模為一個環境條件下的非定常隨機過程,表示為,其中是駕駛環境的歷史和當前觀察,是一個候選的規劃動作。與確定性建模相比,概率建模能更有效地捕捉規劃中的不確定性,從而實現更準確且安全的規劃性能。
規劃動作空間是一個高維的連續時空空間。作者求助于概率場函數來建模從動作空間到概率分布的映射。由于直接擬合連續的規劃動作空間是不可行的,作者將規劃動作空間離散化為一個大的規劃詞匯表,并使用大量駕駛演示來基于規劃詞匯表學習規劃動作的概率分布。對于離散化,作者收集了所有駕駛演示中的軌跡,并采用最遠軌跡采樣方法選擇N個代表性軌跡,這些軌跡作為規劃詞匯。
概率性規劃有兩個其他優點。首先,概率性規劃模型模擬了每個動作與環境之間的相關性。與僅為目標規劃動作提供稀疏監督的確定性建模不同,概率性規劃不僅能為正樣本提供監督,也能為規劃詞匯中的所有候選提供監督,這帶來了更豐富的監督信息。此外,在推理階段,概率性規劃是靈活的。它輸出多模態規劃結果,并且易于與基于規則和基于優化的規劃方法結合。由于作者模擬了整個動作空間上的分布,作者可以靈活地將其他候選規劃動作添加到規劃詞匯中并進行評估。
基于概率性規劃,作者提出了VADv2,一個端到端的駕駛模型,它以流式方式接收環視圖像序列作為輸入,將傳感器數據轉換成標記嵌入,輸出動作的概率分布,并采樣一個動作來控制車輛。僅使用攝像頭傳感器,VADv2在CARLA Town05基準測試中實現了最先進的閉環性能,顯著優于所有現有方法。豐富的閉環演示可以在https://hgao-cv.github.io/VADv2上找到。VADv2在完全端到端的方式下穩定運行,即使沒有基于規則的封裝也可以。
作者的貢獻總結如下:
- 作者提出概率性規劃以應對規劃中的不確定性。作者設計了一個概率場,將動作空間映射到概率分布,并從大規模駕駛演示中學習動作的分布。
- 基于概率性規劃,作者提出了VADv2,一個端到端的駕駛模型,它將傳感器數據轉換為環境標記嵌入,輸出動作的概率分布,并從中采樣一個動作來控制車輛。
- 在CARLA模擬器中,VADv2在Town05基準測試上實現了最先進的閉環性能。閉環演示表明,它能夠以端到端的方式穩定運行。
2 Related Work
感知。 感知是實現自動駕駛的第一步,對駕駛場景的統一表征有利于其輕松整合到下游任務中。鳥瞰圖(BEV)表示近年來已成為一種常見策略,它有效支持場景特征編碼和多模態數據融合。LSS 是一項開創性工作,通過顯式預測圖像像素的深度來實現透視視圖到BEV的轉換。
另一方面,BEVFormer 通過設計空間和時序注意力機制,避免了顯式的深度預測,并取得了令人印象深刻的檢測性能。后續工作通過優化時序建模和BEV轉換策略,持續提高了在下游任務中的性能。在矢量化映射方面,HDMapNet 通過后處理將車道線分割轉換為矢量地圖。VectorMapNet 以自回歸方式預測矢量地圖元素。MapTR 引入了排列等價和分層匹配策略,顯著提升了映射性能。LaneGAP 引入了針對車道圖的路徑建模。
運動預測。 運動預測旨在預測駕駛場景中其他交通參與者的未來軌跡,輔助自車做出明智的規劃決策。傳統的運動預測任務利用歷史軌跡和高清地圖等輸入來預測未來軌跡。然而,近年來端到端的運動預測方法將感知和運動預測結合起來。在場景表示方面,一些研究采用柵格化的圖像表示并使用卷積神經網絡進行預測。
其他方法則采用向量化表示,并使用圖神經網絡或Transformer模型進行特征提取和運動預測。一些研究將未來的運動視為密集占用和流,而不是個體 Level 的未來航點。一些運動預測方法采用高斯混合模型(GMM)來回歸多模態軌跡。這可以應用于規劃中來建模不確定性。但模式的數量是有限的。
規劃。 基于學習的規劃由于其數據驅動性質以及隨著數據量的增加而帶來的令人印象深刻的性能,近年來已顯示出巨大的潛力。早期嘗試采用了完全的黑箱精神,其中傳感器數據直接用于預測控制信號。然而,這種策略缺乏可解釋性,且難以優化。此外,還有許多研究結合了強化學習和規劃。通過在閉環仿真環境中自主探索駕駛行為,這些方法實現了甚至超越人類水平的駕駛性能。
然而,在模擬與現實之間的架橋,以及處理安全問題,將強化學習策略應用于真實駕駛場景提出了挑戰。模仿學習是另一個研究方向,模型通過學習專家駕駛行為以獲得良好的規劃性能,并發展出接近人類的駕駛風格。近年來,端到端自動駕駛技術已經出現,將感知、運動預測和規劃整合到單一模型中,形成了一種完全數據驅動的方法,展示了有前景的性能。UniAD巧妙地整合了多個感知和預測任務以增強規劃性能。VAD探索了向量化場景表征用于規劃的潛力,并擺脫了密集地圖的束縛。
自動駕駛領域的大型語言模型。大型語言模型(LLM)展示的可解釋性和邏輯推理能力可以在自動駕駛領域提供極大的幫助。近期的研究探討了LLM與自動駕駛的結合。一方面,有用LLM通過問答(QA)任務來進行駕駛場景理解和評估的工作。
另一方面,還有研究更進一步,在基于LLM的場景理解之上加入了規劃。例如,DriveGPT4接受歷史視頻和文本(包括問題及額外的信息,如歷史控制信號)作為輸入。編碼后,這些輸入被送入LLM,預測問題的答案和控制信號。而LanguageMPC則接收歷史 GT 感知結果和以語言描述形式的高清地圖。它采用一種思維鏈分析的方法來理解場景,最終LLM從預定義的集合中預測規劃動作。每個動作對應一個具體的執行控制信號。VADv2從GPT中獲得靈感,以解決不確定性問題。不確定性同樣存在于語言建模中。
在特定語境下,下一個詞是非確定性的和概率性的。LLM從大規模語料庫中學習下一個詞的條件概率分布,并從這個分布中抽樣一個詞。受到LLM的啟發,VADv2將規劃策略建模為一種環境條件下的非定常隨機過程。VADv2離散化動作空間以生成規劃詞匯表,根據大規模駕駛演示近似概率分布,并在每個時間步從分布中抽樣一個動作來控制車輛。
3 Method
VADv2的總體框架如圖2所示。
VADv2以流方式接收多視角圖像序列作為輸入,將傳感器數據轉換為環境標記嵌入,輸出動作的概率分布,并采樣一個動作來控制車輛。使用大規模駕駛演示和場景約束來監督預測的分布。
Scene Encoder
圖像中的信息是稀疏和低級的。作者使用編碼器將傳感器數據轉換為實例級標記嵌入,以明確提取高級信息。包括四種標記:地圖標記、代理標記、交通元素標記和圖像標記。VADv2使用一組地圖標記來預測地圖的向量表示(包括車道中心線、車道分隔線、道路邊界和行人橫道)。
此外,VADv2還使用一組代理標記來預測其他交通參與者的運動信息(包括位置、方向、大小、速度和多模態未來軌跡)。交通元素在規劃中也起著至關重要的作用。VADv2將傳感器數據轉換為交通元素標記以預測交通元素的狀態。
在CARLA中,作者考慮兩種類型的交通信號:交通燈信號和停車標志。地圖標記、代理標記和交通元素標記都受到相應監督信號的監督,以確保它們明確編碼相應的高級信息。作者還把圖像標記作為規劃的場景表示,它們包含豐富的信息,并且是對上述實例級標記的補充。此外,導航信息和自我狀態也通過MLP編碼到嵌入中。
Probabilistic Planning
作者提出概率性規劃以應對規劃過程中的不確定性。作者將規劃策略建模為一個條件于環境的非定常隨機過程,表述為。作者基于大規模駕駛演示近似地估計規劃動作空間為一個概率分布,并在每個時間步從該分布中采樣一個動作來控制車輛。
規劃動作空間是一個高維連續時空空間 。由于直接擬合連續的規劃動作空間是不可行的,作者將規劃動作空間離散化為一個大的規劃詞匯表 。具體來說,作者收集了駕駛演示中的所有規劃動作,并采用最遠軌跡采樣方法選擇 個代表性動作作為規劃詞匯。 中的每條軌跡都是從駕駛演示中采樣的,因此自然滿足自車動力學約束,這意味著當軌跡轉換為控制信號(轉向、油門和剎車)時,控制信號值不會超出可行范圍。默認情況下, 設為4096。
作者將規劃詞匯中的每個動作表示為航點序列 。每個航點對應于一個未來的時間戳。假設概率 關于 是連續的,并且對 的小偏差不敏感,即,。
受到 NeRF 的啟發,該方法在5D空間()上建模連續輻射場,作者采用概率場來從動作空間 到概率分布 的連續映射。作者將每個動作(軌跡)編碼成高維規劃 Token 嵌入 ,使用級聯Transformer解碼器與環境信息 進行交互,并結合導航信息 和自我狀態 來輸出概率,即,
是一個編碼函數,它將來自 的每個坐標映射到一個高維嵌入空間 ,并且分別應用于軌跡 的每個坐標值。 表示位置。作者使用這些函數將連續輸入坐標映射到一個更高維的空間,以更好地近似一個高頻場函數。
Training
作者使用三種監督方式來訓練VADv2,分別是分布損失、沖突損失和場景標記損失。
分布損失。作者從大規模的駕駛演示中學習概率分布。使用KL散度來最小化預測分布和數據分布之間的差異。
在訓練階段,將真實軌跡作為正樣本添加到規劃詞匯中。其他軌跡被視為負樣本。作者對接近真實軌跡的負軌跡分配不同的損失權重。這樣的軌跡受到的懲罰較少。
沖突損失。 作者利用駕駛場景的約束幫助模型學習關于駕駛的重要先驗知識,并進一步規范預測的分布。具體來說,如果規劃詞匯中的一個動作與其他代理的未來運動或道路邊界發生沖突,那么這個動作就被視為負樣本,作者施加一個顯著的損失權重以降低此動作的概率。
場景標記損失。 地圖標記、代理標記和交通元素標記通過相應的監督信號進行監督,以確保它們明確編碼對應的高級信息。
地圖 Token 的損失與MapTRv2相同。采用損失來計算預測地圖點與真實地圖點之間的回歸損失。Focal Loss用作地圖分類損失。
代理標記的損失由檢測損失和運動預測損失組成,這與VAD中的相同。使用損失作為回歸損失來預測代理屬性(位置、方向、大小等),并使用Focal Loss來預測代理類別。對于每個與 GT 代理匹配的代理,作者預測個未來軌跡,并使用具有最小最終位移誤差(minFDE)的軌跡作為代表性預測。然后,作者計算此代表性軌跡與 GT 軌跡之間的損失作為運動回歸損失。此外,采用Focal Loss作為多模態運動分類損失。
交通元素標記由兩部分組成:交通燈標記和停車標志標記。一方面,作者將交通燈標記發送到多層感知機(MLP)以預測交通燈的狀態(黃、紅、綠)以及交通燈是否影響本車。另一方面,停車標志標記也被發送到MLP以預測停車標志區域與本車之間的重疊。利用Focal Loss(focal loss)來監督這些預測。
Inference
在閉環推理中,作者可以從分布中靈活地獲取駕駛策略 。直觀地說,作者在每個時間步采樣概率最高的動作,并使用PID控制器將選定的軌跡轉換為控制信號(轉向、油門和剎車)。
在實際應用中,有更多健壯的策略可以充分利用概率分布。一種好的實踐是,將top-K動作作為 Proposal 進行采樣,并采用基于規則的包裝器來過濾 Proposal ,以及基于優化的后處理解算器進行細化。此外,動作的概率反映了端到端模型有多自信,可以作為在傳統PnC和學習型PnC之間切換的判斷條件。
4 Experiments
Experimental Settings
廣泛使用的CARLA 仿真器被采納來評估VADv2的性能。按照常見的做法,作者使用Town05長和Town05短基準來進行閉環評估。具體來說,每個基準都包含幾個預定義的駕駛路線。Town05長包含10條路線,每條路線大約1公里長。Town05短包含32條路線,每條路線長70米。Town05長驗證了模型的綜合能力,而Town05短則專注于評估模型在特定場景下的性能,例如在交叉路口前變道。
作者使用CARLA官方的自主代理人在Town03、Town04、Town06、Town07和Town10中隨機生成駕駛路線來收集訓練數據。數據以2Hz的頻率進行采樣,作者收集了大約300萬幀用于訓練。對于每一幀,作者保存了6個攝像頭的環視圖像、交通信號、其他交通參與者的信息以及自車狀態信息。
此外,通過預處理CARLA提供的OpenStreetMap 格式的地圖,作者獲得了用于訓練在線地圖模塊的向量地圖。需要注意的是,地圖信息僅在訓練期間作為 GT 提供,VADv2在閉環評估中并未利用任何高清晰度地圖。
Metrics
對于閉環評估,作者使用了CARLA的官方指標。路線完成度表明了代理完成的路線距離的百分比。違規得分表示沿路線發生的違規程度的量化。典型的違規包括闖紅燈、與行人發生碰撞等。每種違規類型都有一個相應的懲罰系數,發生的違規越多,違規得分就越低。
駕駛得分是路線完成度與違規得分的乘積,這是評估的主要指標。在基準評估中,大多數研究采用了基于規則的包裝器來減少違規。為了與其他方法進行公平的比較,作者遵循通常的做法,在基于學習策略上采用基于規則的包裝器。
對于開環評估,采用L2距離和碰撞率來展示學習到的策略在何種程度上類似于專家演示的駕駛。在消融實驗中,作者采用開環指標進行評估,因為開環指標計算速度快且更穩定。作者使用CARLA官方的自主代理在Town05 Long基準上生成驗證集以進行開環評估,并且將結果在所有驗證樣本上取平均值。
Comparisons with State-of-the-Art Methods
在Town05長距離基準測試中,VADv2取得了85.1的駕駛分數,98.4的路程完成度,以及0.87的違規分數,如表1所示。與之前的最先進方法相比,VADv2在路程完成度更高的同時,顯著提高了駕駛分數,增加了9.0。
值得注意的是,VADv2僅使用攝像頭作為感知輸入,而DriveMLM同時使用了攝像頭和激光雷達。此外,與之前僅依賴攝像頭最佳方法相比,VADv2顯示出更大的優勢,駕駛分數的顯著提高達到了16.8。
作者在表2中展示了Town05短距離基準的所有公開可用作品的成果。與Town05長距離基準相比,Town05短距離基準更側重于評估模型在特定駕駛行為上的能力,例如在擁堵的車流中變道以及在與交叉口前變道。相較于之前的結果,VADv2在駕駛得分和路線完成率上分別顯著提升了25.3和5.7,這展示了VADv2在復雜駕駛場景中的綜合駕駛能力。
Ablation Study
表3展示了在VADv2中的關鍵模塊的消融實驗。如果沒有分布損失(ID 1)提供的專家駕駛行為監督,模型在規劃準確性方面表現不佳。
沖突損失提供了關于駕駛的關鍵先驗信息,因此如果沒有沖突損失(ID 2),模型的規劃準確性也會受到影響。場景標記將重要的場景元素編碼成高維特征,規劃標記與場景標記交互,學習駕駛場景的動態和靜態信息。當任何類型的場景標記缺失時,模型的規劃性能將會受到影響(ID 3-ID 6)。當模型融合了上述所有設計時,可以實現最佳的規劃性能(ID 7)。
Visualization
圖3展示了VADv2的一些定性結果。第一張圖像展示了在不同駕駛速度下,VADv2預測的多模態規劃軌跡。第二張圖像展示了在換道場景中,VADv2對向前緩行和多模態左轉軌跡的預測。第三張圖像描述了在路口的右換道場景,VADv2為直行和向右換道預測了多條軌跡。最后一張圖像展示了一個換道場景,其中目標車道有一輛車,VADv2預測了多條合理的換道軌跡。
5 Conclusion
在這項工作中,作者提出了VADv2,這是一個基于概率規劃的端到端駕駛模型。在CARLA模擬器中,VADv2運行穩定,并取得了目前最先進的閉環性能。這種概率范式的可行性主要得到了驗證。然而,其在更復雜的真實世界場景中的有效性仍有待探索,這將作為未來的工作。