DriveCoT:全面的開環端到端駕駛數據集和Benchmark
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
近年來,端到端自動駕駛技術取得了顯著進展,表現出系統簡單性和在開環和閉環設置下競爭性駕駛性能的優勢。然而,端到端駕駛系統在駕駛決策方面缺乏可解釋性和可控性,這阻礙了其在真實世界中的部署。本文利用CARLA模擬器收集了一個全面的端到端駕駛數據集,名為DriveCoT。它包含傳感器數據、控制決策和chain-of-thought標簽,用于指示推理過程。利用CARLA排行榜2.0中具有挑戰性的駕駛場景,這些場景涉及高速駕駛和換道,并提出了一個基于規則的專家策略來控制車輛,并為其推理過程和最終決策生成了真值標簽,覆蓋了不同駕駛方面和最終決策的推理過程。該數據集可以作為一個開環端到端駕駛基準,可評估各種推理方面的準確性和最終決策。此外,我們提出了一個名為DriveCoT-Agent的基線模型,它是在我們的數據集上訓練的,用于生成推理鏈預測和最終決策。經過訓練的模型在開環和閉環評估中表現出很強的性能,證明了我們提出的數據集的有效性。
題目:DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving
作者單位:香港大學,華為,香港中文大學
開源地址:DriveCoT
DriveCoT,它包括一個新的數據集、基準和端到端自動駕駛的基線模型。傳感器數據,如相機圖像以及指示方向的目標點(左圖像中的黃點),作為模型輸入。如下右圖所示,該模型通過生成不同駕駛方面的預測并進行chain-of-thought推理來獲得最終的速度決策。此外,模型還生成了計劃的未來轉向點(左圖中的藍點)。
DriveCoT Agent的基線模型將過去一段時間的多視點攝像機視頻和指示方向的目標點作為輸入,以生成關于不同駕駛方面和計劃的未來路線點的CoT預測。沒有使用單幀圖像作為輸入,而是利用多視圖攝像機視頻來捕捉自車和周圍物體的運動,從而能夠早期預測潛在危險并支持高速駕駛。此外,最終的駕駛決策可以通過圖8所示的過程從模型的chain-of-thought預測中得出。除了可解釋性之外,訓練后的模型在DriveCoT驗證數據的開環評估和閉環測試基準方面都顯著優于以前的方法。
DriveCoT Dataset
使用CARLA 0.9.14版本收集數據,并修改了提出的基于規則的專家政策,以適應高速駕駛和更具挑戰性的場景。此外,使用一組跨越城市、住宅、農村和高速公路區域的預定義路線來執行專家政策,并在遇到許多具有挑戰性的場景時駕駛自車。對于每個場景,數據收集在預定義的觸發點啟動,并在超過20秒的模擬時間或達到下一個場景的觸發點時停止。
DriveCoT數據集包括1058個場景和36K個標記樣本,以2Hz頻率收集,每個場景平均17秒。分別以70%、15%和15%的比例將數據集劃分為訓練集、驗證集和測試集,得到25.3K的訓練樣本、5.5K的驗證樣本和5.5K的測試樣本。為了防止數據泄露,將同一場景中的所有數據分配給同一集合。此外,確保CoT方面在所有拆分中的分布是相似的。
專家策略
本文提出了一種基于規則的專家政策,該政策可以訪問模擬器,經過有效的修改,使其適用于leaderborad2.0中的高速駕駛。根據自車速度為自車設計動態制動距離,以檢測潛在的危險,包括紅綠燈、停車標志或周圍的車輛和行人。此外,擬議的專家政策還考慮了與同一車道上前方車輛的關系,以產生更微妙的速度決策。對于計劃的未來航路點,收集具有固定距離間隔的專家航路點,類似于Transuser++,而不是固定時間間隔,以將航路點與目標速度區分開來。此外,當自車速度增加以避免振蕩時,計劃的路點被選擇得離自車更遠。
在DriveCoT中,根據場景組織收集的數據。每個場景都有一個元文件,指示場景類型、天氣狀況和一天中的時間。每個幀樣本可以根據文件名與特定場景相關聯,每幀包含來自六個1600×900 RGB相機和一個32線激光雷達傳感器的傳感器數據,以及專家政策的決策過程標簽和文本形式和簡化分類形式的最終決策。如圖8所示,CoT方面包括檢查紅綠燈危險、停車標志危險、與周圍物體的潛在碰撞、與前方車輛的關系等。
DriveCoT-Agent
所提出的基線模型DriveCoT Agent。它將多視圖相機視頻作為輸入,并通過共享的視頻SwinTransformer為每個視圖提取視頻特征。然后,通過變換器編碼器融合不同視圖的視頻標記。對于不同的chain-of-thought driving aspects,為不同的任務定義了單獨的可學習查詢。這包括碰撞預測、紅綠燈識別、停車標志、路口和前方車輛狀態預測。此外,路徑GRU將相關解碼器輸出與其他導航信息一起用于生成用于引導的計劃路線點。
實驗結果
DriveCoT數據集val split的開環評估。以前的方法只能提取二進制速度決策(正常駕駛或制動)。與以前的方法相比,所提出的DriveCoT Agent可以預測更精確、更詳細的速度決策和轉向路線點。
更多消融實驗:
DriveCoT Agent的定性結果。它正確地為(a)車道交通工具、(b)紅色交通燈和行人以及(c)道路中間的過街行人剎車。圖像中的黃點是目標點,表示方向,而藍點和綠點表示地面實況和預測的未來路線點。在(d)中,DriveCoT Agent根據嵌入視頻輸入中的碰撞距離和時間信息,生成與前方車輛有關的適當速度決策!