東京大學最新!CoVLA:用于自動駕駛的綜合視覺-語言-動作數據集
原標題:CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving
論文鏈接:https://arxiv.org/pdf/2408.10845
作者單位:Turing Inc. 東京大學 University of Tsukuba Keio Research Institute at SFC National Institute of Informatics
論文思路:
自動駕駛,特別是在復雜和意外場景中的導航,要求具備復雜的推理和規劃能力。雖然多模態大語言模型(MLLMs)在這方面提供了一個有前途的途徑,但其應用主要局限于理解復雜的環境上下文或生成高層次的駕駛指令,只有少數研究將其應用擴展到端到端路徑規劃。一個主要的研究瓶頸是缺乏包含視覺、語言和動作的大規模標注數據集。為了解決這個問題,本文提出了CoVLA(Comprehensive Vision-Language-Action)數據集,這是一個包含超過80小時真實駕駛視頻的廣泛數據集。該數據集利用了一種基于自動數據處理和描述(caption)生成流程的新穎且可擴展的方法,生成了與詳細自然語言描述的駕駛環境和操作相匹配的精確駕駛軌跡。這種方法利用了車內傳感器的原始數據,使其在規模和標注豐富性上超越了現有的數據集。使用CoVLA,本文研究了能夠在各種駕駛場景中處理視覺、語言和動作的MLLMs的駕駛能力。本文的結果顯示了本文的模型在生成連貫的語言和動作輸出方面的強大能力,強調了視覺-語言-動作(VLA)模型在自動駕駛領域的潛力。通過提供一個全面的平臺用于訓練和評估VLA模型,該數據集為構建穩健、可解釋和數據驅動的自動駕駛系統奠定了基礎,助力于更安全和更可靠的自動駕駛車輛。
主要貢獻:
- 本文介紹了CoVLA數據集,這是一個大規模數據集,提供了多種駕駛場景的軌跡目標,以及詳細的逐幀情境描述。
- 本文提出了一種可擴展的方法,通過傳感器融合準確估計軌跡,并自動生成關鍵駕駛信息的逐幀文本描述。
- 本文開發了CoVLA-Agent,這是一種基于CoVLA數據集的新型VLA模型,用于可解釋的端到端自動駕駛。本文的模型展示了持續生成駕駛場景描述和預測軌跡的能力,為更可靠的自動駕駛鋪平了道路。
論文設計:
自動駕駛技術面臨的一個關鍵挑戰在于應對多樣且不可預測的駕駛環境的“長尾”問題[35, 63]。自動駕駛車輛不僅需要在常見場景中導航,還必須應對罕見和復雜的情況,這就需要廣泛的世界知識和高級推理能力[20]。這要求對環境有深刻的理解,并且具備超越物體識別的推理能力,能夠解釋其行為并據此規劃行動。視覺-語言-動作(VLA)模型通過無縫整合視覺感知、語言理解和動作規劃,已成為實現這一目標的有前途的途徑。近期在VLA領域的進展,特別是在機器人[4, 28, 40]和自動駕駛[45]方面,展示了其在實現更健壯和智能的駕駛系統方面的潛力。
然而,將VLA模型應用于自動駕駛的一個主要障礙是缺乏有效結合視覺數據、語言描述和駕駛動作的大規模數據集?,F有的數據集在規模和全面標注方面往往不足,尤其是語言方面,通常需要繁重的人工工作。這限制了能夠處理現實世界駕駛復雜性的健壯VLA模型的發展和評估。
本文介紹了CoVLA(Comprehensive Vision-Language-Action)數據集,這是一個旨在克服現有局限性的新型大規模數據集。CoVLA數據集利用可擴展的自動化標注和描述生成方法,創建了一個包含10,000個真實駕駛場景、總計超過80小時視頻的豐富數據集。每個30秒的場景都包含精確的駕駛路徑和詳細的自然語言描述,這些描述來源于同步的前置相機錄像和車內傳感器數據。這個豐富的數據集允許對駕駛環境和代理行為進行更深入的理解。為了展示其在推進自動駕駛研究方面的有效性,本文開發了CoVLA-Agent,這是一種基于本文數據集進行訓練的VLA模型,用于軌跡預測和交通場景描述生成。本文的研究結果表明,即使在需要復雜和高級判斷的情況下,本文的VLA模型也能夠做出一致且精確的預測。
本節深入介紹了CoVLA數據集,詳細描述了其結構、內容以及用于創建這一寶貴自動駕駛研究資源的方法。本文重點介紹了其對多樣化真實世界駕駛場景的覆蓋、同步的多模態數據流(前置相機、車內信號及其他傳感器)以及大規模標注數據:10,000個駕駛場景,總計超過80小時的視頻,每個場景都包含精確的逐幀軌跡和描述標注。為了創建這個廣泛的VLA數據集,本文開發了一種新穎且可擴展的方法,從原始數據中自動生成場景描述和真實軌跡。
圖1. CoVLA框架概述。本文開發了CoVLA數據集,這是一個用于自動駕駛的綜合數據集,包含獨特的10,000個視頻片段、描述駕駛場景的逐幀語言描述以及未來的軌跡動作。本文還展示了CoVLA-Agent,這是一種基于VLM的路徑規劃模型,能夠預測車輛的未來軌跡,并提供其行為和推理的文本描述。
表1. 含有語言和動作數據的駕駛數據集比較。
圖2. 數據集生成 pipeline 概述。本文自動標注視頻幀和傳感器信號以生成軌跡和其他標簽。此外,本文對視頻幀應用自動描述生成,以生成行為和推理的描述。
圖3. CoVLA數據集的示例幀。顯示了估計的軌跡(綠色線)和由描述生成模型生成的描述。關鍵對象以藍色粗體文本突出顯示,而描述中的錯誤以紅色粗體文本顯示。
圖4. 車輛速度和轉向角的數據分布。紅色條表示采樣前的分布,而黃色條顯示采樣后的分布。請注意,為了清晰展示,(b)中使用了對數刻度。
在本節中,本文介紹了基線模型CoVLA-Agent的開發和評估方法,該模型利用CoVLA數據集的豐富性來完成自動駕駛任務。本文詳細描述了實驗設置,包括數據集、模型配置、訓練過程和評估指標,并對結果進行了分析。
架構:如圖5所示,CoVLA-Agent是一個為自動駕駛設計的VLA模型。本文使用預訓練的Llama-2(7B)[52]作為語言模型,并使用CLIP ViT-L(224×224像素)[43]作為視覺編碼器。此外,本文的模型將自車速度作為輸入,通過多層感知器(MLP)轉換為嵌入向量。CLIP ViT-L提取的視覺特征與速度嵌入和文本嵌入拼接在一起,然后輸入到Llama-2模型中。對于軌跡預測,使用特殊的 tokens 作為軌跡查詢。這些軌跡查詢的輸出經過MLP層處理,生成10個(x, y, z)坐標的序列,表示車輛相對于當前位置的預測軌跡,覆蓋三秒的時間范圍。
訓練:基于這種架構,本文在兩個任務上訓練CoVLA-Agent,分別是交通場景描述生成和軌跡預測。對于交通場景描述生成,本文使用交叉熵損失作為損失函數;對于軌跡預測,本文采用均方誤差損失。最終,訓練的目標是最小化一個組合損失函數,其中兩個損失被等權重對待。
圖5. CoVLA-Agent的架構。
實驗結果:
圖6. CoVLA-Agent在各種交通場景下的軌跡預測結果。紅線表示在預測描述條件下的預測軌跡,藍線表示在真實描述條件下的預測軌跡,綠線表示真實軌跡。
表2. 不同條件的定量比較。
表3. 平均ADE和FDE最大的前10個單詞。這些單詞對應的是從單幀中難以估計的運動。明確表示運動的單詞以粗體顯示。
總結:
本文介紹了CoVLA數據集,這是一個用于自動駕駛的VLA模型的新型數據集。通過利用可擴展的自動化方法,本文構建了一個大規模、全面的數據集,并豐富了詳細的語言標注?;谶@個穩健的數據集,本文開發了CoVLA-Agent,這是一種先進的VLA自動駕駛模型。評估結果強調了該模型在生成連貫的語言和動作輸出方面的強大能力。這些發現突顯了VLA多模態模型的變革潛力,并為未來的自動駕駛研究創新鋪平了道路。