清華叉院、理想提出DriveVLM,視覺大語言模型提升自動駕駛能力
與生成式 AI 相比,自動駕駛也是近期 AI 最活躍的研究和開發領域之一。要想構建完全的自動駕駛系統,人們面臨的主要挑戰是 AI 的場景理解,這會涉及到復雜、不可預測的場景,例如惡劣天氣、復雜的道路布局和不可預見的人類行為。
現有的自動駕駛系統通常包括 3D 感知、運動預測和規劃組成部分。具體來說,3D 感知僅限于檢測和跟蹤熟悉的物體,忽略了罕見物體及其屬性, 運動預測和規劃則關注物體的軌跡動作,通常會忽略物體和車輛之間的決策級交互。
自動駕駛需要從數據驅動迭代到知識驅動,通過訓練具備邏輯推理能力的大模型才能真正解決長尾問題,只有這樣才能邁向開放世界的 L4 級能力。隨著 GPT4、Sora 等大模型通過涌現、規模效應展現出強大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學交叉信息研究院、理想汽車提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領域興起的視覺語言模型(VLM)啟發,DriveVLM 在視覺理解和推理方面表現出了非凡的能力。
在業界,這是第一個提出自動駕駛快慢系統的工作,方法充分結合了主流自動駕駛 pipeline 和具備邏輯思考的大模型 pipeline,并第一個完成端測部署的大模型工作(基于 Orin 平臺)。
DriveVLM 包含一個 Chain-of-Though (CoT) 流程,該流程具有三個關鍵模塊:場景描述、場景分析和分層規劃。場景描述模塊用語言描述駕駛環境,并識別場景中的關鍵對象;場景分析模塊深入研究關鍵對象的特征及其對自我車輛的影響;分層規劃模塊從元動作和決策描述到路徑點逐步制定計劃。
這些模塊分別對應于傳統自動駕駛系統流程的感知 - 預測 - 規劃流程三部分組件,不同之處在于它們處理對象感知、意圖級預測和任務級規劃,這些在過去是非常具有挑戰性的。
雖然 VLM 在視覺理解方面表現出色,但它們在空間基礎和推理方面存在局限性,而且其算力需求對端側推理速度提出了挑戰。因此,作者進一步提出了 DriveVLMDual,這是一種結合了 DriveVLM 和傳統系統優點的混合系統。DriveVLM-Dual 可選擇將 DriveVLM 與傳統 3D 感知和規劃模塊(如 3D 物體探測器、占用網絡和運動規劃器)集成,使系統能夠實現 3D 接地和高頻規劃能力。這種雙系統設計類似于人腦的慢速和快速思維過程,可以有效地適應駕駛場景中不同的復雜性。
同時,新研究定義了場景理解和規劃(SUP)任務,并提出了新的評估指標來評估 DriveVLM 和 DriveVLM-Dual 的場景分析和元動作規劃能力。此外,作者還進行了全面的數據挖掘和注釋管道,為 SUP 任務構建內部 SUP-AD 數據集。
經過 nuScenes 數據集和自有數據集上的大量實驗,人們證明了 DriveVLM 的優越性,尤其是在少量鏡頭的情況下。此外,DriveVLM-Dual 超越了最先進的端到端運動規劃方法。
論文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》
論文鏈接:https://arxiv.org/abs/2402.12289
項目連接:https://tsinghua-mars-lab.github.io/DriveVLM/
DriveVLM 的整體流程如圖 1 所示:
- 將連續幀視覺圖像進行編碼,通過特征對齊模塊,與 LMM 進行交互;
- 從場景描述開始引導 VLM 模型的思考,先引導時間、場景、車道環境等靜態場景,再引導影響駕駛決策關鍵障礙物;
- 對關鍵障礙物進行分析,通過傳統 3D 檢測和 VLM 理解的障礙物進行匹配,進?步確認障礙物的有效性并消除幻覺,描述該場景下的關鍵障礙物的特征和對我們駕駛的影響;
- 給出關鍵的「元決策」,如減速、停車、左右轉等,在根據元決策給出駕駛策略描述,并最終給出主車未來的駕駛軌跡。
圖 1.DriveVLM 和 DriveVLM-Dual 模型管道。一系列圖像由大視覺語言模型 (VLM) 處理,以執行特殊的思想鏈 (CoT) 推理,從而得出駕駛規劃結果。大型 VLM 涉及視覺變換器編碼器和大語言模型(LLM)。視覺編碼器產生圖像標記;然后基于注意力的提取器將這些標記與 LLM 對齊;最后,LLM 進行 CoT 推理。CoT 過程可以分為三個模塊:場景描述、場景分析和層次規劃。
DriveVLM-Dual 是一種混合系統,利用 DriveVLM 對環境的綜合理解和決策軌跡的建議,提升了傳統自動駕駛 Pipeline 的決策和規劃能力。它將 3D 感知結果合并為語言提示,以增強 3D 場景理解能力,并通過實時運動規劃器進一步細化軌跡路點。
盡管 VLM 擅長識別長尾物體和理解復雜場景,但它們經常難以精確理解物體的空間位置和詳細運動狀態,這一不足構成了重大挑戰。更糟糕的是,VLM 巨大的模型體量導致高延遲,阻礙了自動駕駛的實時響應能力。為了應對這些挑戰,作者提出了 DriveVLM-Dual,讓 DriveVLM 和傳統自動駕駛系統進行合作。這種新方法涉及兩個關鍵策略:結合 3D 感知進行關鍵對象分析,給出高維駕駛決策信息,以及高頻軌跡細化。
另外,為了充分發揮 DriveVLM 和 DriveVLMDual 在處理復雜和長尾駕駛場景方面的潛力,研究人員正式定義了一項名為場景理解規劃的任務,以及一組評估指標。此外,作者提出了一種數據挖掘和注釋協議來管理場景理解和規劃數據集。
為了充分訓練模型,作者全新開發了?套 Drive LLM 的標注工具和標注方案,通過自動化挖掘、感知算法預刷、GPT-4 大模型總結和人工標注等多種方式相結合,形成了目前這?套高效的標注方案,每?個 Clip 數據都包含了多達數十種標注內容。
圖 2. SUP-AD 數據集的帶注釋樣本。
作者還提出了一個全面的數據挖掘和注釋管道,如圖 3 所示,為所提出的任務構建場景理解規劃 (SUP-AD,Scene Understanding for Planning in Autonomous Driving) 數據集,包含 100k+ 圖像和 1000k+ 圖文對 。具體來說,作者首先從大型數據庫中進行長尾對象挖掘和具有挑戰性的場景挖掘來收集樣本,然后從每個樣本中選擇一個關鍵幀并進一步進行場景注釋。
圖 3. 用于構建場景理解和規劃數據集的數據挖掘和注釋管道(上圖)。從數據集中隨機采樣的場景示例(如下)展示了數據集的多樣性和復雜性。
SUP-AD 分為訓練、驗證和測試部分,比例為 7.5 : 1 : 1.5。作者在訓練分割上訓練模型,并使用新提出的場景描述和元動作指標來評估驗證 / 測試分割上的模型性能。
nuScenes 數據集是一個大規模的城市場景駕駛數據集,有 1000 個場景,每個場景持續約 20 秒。關鍵幀在整個數據集上以 2Hz 的頻率均勻注釋。在這里,作者采用位移誤差(DE)和碰撞率(CR)作為指標來評估模型在驗證分割上的性能。
作者展示了 DriveVLM 與幾種大型視覺語言模型的性能,并將它們與 GPT-4V 進行比較,如表 1 所示。DriveVLM 利用 Qwen-VL 作為其骨干,其實現了與其他開源 VLM 相比的最佳性能,具有應答和靈活交互的特點。其中前兩個大模型已開源,使用了同樣的數據進進了微調訓練,GPT-4V 使用了復雜的 Prompt 進行 Prompt 工程。
表 1. 在 SUP-AD 數據集上的測試集結果。這里使用了 GPT-4V 的官方 API,對于 Lynx 和 CogVLM,利用訓練分割來進行微調。
如表 2 所示,DriveVLM-Dual 與 VAD 配合時,在 nuScenes 規劃任務上取得了最先進的性能。這表明新方法雖然是為理解復雜場景而定制的,但在普通場景中也表現出色。請注意,DriveVLM-Dual 比 UniAD 有了顯著提升:平均規劃位移誤差降低了 0.64 米,碰撞率降低了 51%。
表 2. nuScenes 驗證數據集的規劃結果。DriveVLM-Dual 實現了最佳性能。? 表示使用 Uni-AD 的感知和占用預測結果。? 表示與 VAD 合作,所有模型都以自我狀態作為輸入。
圖 4. DriveVLM 的定性結果。橙色曲線代表模型在接下來 3 秒內計劃的未來軌跡。
DriveVLM 的定性結果如圖 4 所示。在圖 4a 中,DriveVLM 準確預測當前場景條件,并結合有關接近我們的騎車人的有思考的規劃決策。DriveVLM 還有效地理解了前方交警手勢,向自我車輛發出繼續前進的信號,并且還考慮了右側騎三輪車的人,從而做出正確的駕駛決策。這些定性結果證明了 DriveVLM 模型具有理解復雜場景并制定合適駕駛計劃的卓越能力。
圖 7:SUP-AD 數據集中的各種駕駛場景。
圖 9. SUP-AD 數據集中牛群和羊群的示例。一群牛在本車前方緩慢移動,要求策略推理出本車緩慢行駛并與牛保持安全距離。
圖 16. DriveVLM 輸出的可視化。DriveVLM 可以精確檢測倒下的樹木及其位置,隨后規劃合適的繞行軌跡。