走向閉環!DriveMLM:LLM與自動駕駛行為規劃的完美匹配!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
大型語言模型為智能駕駛開辟了新的格局,賦予了他們類似人類的思維和認知能力。本文深入研究了大型語言模型(LLM)在自動駕駛(AD)中的潛力。進而提出了DriveMLM,這是一種基于LLM的AD框架,可以在仿真環境中實現閉環自動駕駛。具體來說有以下幾點:
- (1)本文通過根據現成的運動規劃模塊標準化決策狀態,彌合語言決策和車輛控制命令之間的差距;
- (2)使用多模態LLM(MLLM)對模塊AD系統的行為規劃模塊進行建模,該模塊AD系統使用駕駛規則、用戶命令和來自各種傳感器(如相機、激光雷達)的輸入作為輸入,并做出駕駛決策并提供解釋;該模型可以插入現有的AD系統(如Apollo)用于閉環駕駛;
- (3)設計了一個有效的數據引擎來收集數據集,該數據集包括決策狀態和相應的可解釋標注,用于模型訓練和評估。
最后我們對DriveMLM進行了廣泛的實驗,結果表明,DriveMLM在CARLA Town05 Long上獲得了76.1的駕駛分數,并在相同設置下超過阿波羅基線4.7分,證明了DriveMLM的有效性。我們希望這項工作可以作為LLM自動駕駛的基線。
DriveMLM的相關介紹
近年來,自動駕駛(AD)取得了重大進展,如圖1b所示從傳統的基于規則的系統發展到數據驅動的端到端系統,傳統的規則系統依賴于由先驗知識提供的預定義規則集(見圖1a)。盡管這些系統取得了進步,但由于專家知識的限制或訓練數據的多樣性,它們還是遇到了局限。這使得他們很難處理拐角情況,盡管人類駕駛員可能會發現處理這些情況很直觀。與這些傳統的基于規則或數據驅動的AD規劃者相比,使用網絡規模的文本語料庫訓練的大型語言模型(LLM)具有廣泛的世界知識、穩健的邏輯推理和先進的認知能力。這些功能將他們定位為AD系統中的潛在規劃者,為自動駕駛提供了一種類似人類的方法。
最近的一些研究已將LLM集成到AD系統中,重點是針對駕駛場景生成基于語言的決策。然而,當涉及到在真實世界環境或真實仿真中執行閉環駕駛時,這些方法具有局限性。這是因為LLM的輸出主要是語言和概念,不能用于車輛控制。在傳統的模塊化AD系統中,高級別策略目標和低級別控制行為之間的差距通過行為規劃模塊連接,該模塊的決策狀態可以通過后續運動規劃和控制輕松轉換為車輛控制信號。這促使我們將LLM與行為規劃模塊的決策狀態對齊,并通過使用對齊的LLM進行行為規劃,進一步設計一個基于LLM的閉環AD系統,該系統可以在真實世界的環境或現實的仿真環境上運行。
基于這一點,我們提出了DriveMLM,這是第一個基于LLM的AD框架,可以在現實仿真環境中實現閉環自動駕駛。為了實現這一點,我們有三個關鍵設計:(1)我們研究了Apollo系統的行為規劃模塊的決策狀態,并將其轉化為LLM可以輕松處理的形式。(2)開發了一種多模態LLM(MLLM)規劃器,該規劃器可以接受當前的多模態輸入,包括多視圖圖像、激光雷達點云、交通規則、系統消息和用戶指令,并預測決策狀態;(3)為了獲得足夠的行為規劃-狀態對齊的訓練數據,我們在CARLA上手動收集280小時的駕駛數據,并通過高效的數據引擎將其轉換為決策狀態和相應的解釋注釋。通過這些設計,我們可以獲得一種MLLM planner,該規劃器可以根據駕駛場景和用戶需求進行決策,并且其決策可以很容易地轉換為車輛控制信號,用于閉環駕駛。
DriveMLM有以下優勢:(1)得益于一致的決策狀態,DriveMLM可以很容易地與現有的模塊化AD系統(如Apollo)集成,以實現閉環駕駛,而無需任何重大更改或修改。(2)通過將語言指令作為輸入,我們的模型可以處理用戶需求(例如,超越汽車)和高級系統消息(例如,定義基本駕駛邏輯)。這使DriveMLM更加靈活,能夠適應不同的駕駛情況和彎道情況。(3)它可以提供可解釋性并解釋不同的決策。這增強了我們模型的透明度和可信度,因為它可以向用戶解釋其行為和選擇。
總結來說,DriveMLM的主要貢獻如下:
- 提出了一種基于LLM的AD框架,通過將LLM的輸出與行為規劃模塊的決策狀態相一致,彌合LLM和閉環駕駛之間的差距。
- 為了實現這個框架,我們用LLM可以輕松處理的形式定制了一組決策狀態,設計了一個用于決策預測的MLLM規劃器,并開發了一個數據引擎,該數據引擎可以有效地生成決策狀態和相應的解釋注釋,用于模型訓練和評估。
- 為了驗證DriveMLM的有效性,我們不僅根據閉環駕駛指標(包括駕駛分數(DS)和每次干預里程(MPI))來評估我們的方法,還使用理解指標(包括準確性、決策狀態的F1指標、決策解釋的BLEU-4、CIDEr和METEOR)來評估模型的駕駛理解能力。值得注意的是,我們的方法在CARLA Town05 Long上獲得了76.1 DS、0.955 MPI結果,這是4.7分,是Apollo的1.25倍。此外,我們可以通過用語言指令描述特殊要求來改變MLLM規劃者的決策,如圖2所示,例如為救護車或交通規則讓路
DriveMLM方法詳細介紹
概覽
DriveMLM框架將大型語言模型(LLM)的世界知識和推理能力集成到自動駕駛(AD)系統中,在逼真的仿真環境中實現閉環駕駛。如圖3所示,該框架有三個關鍵設計:(1)行為規劃狀態對齊。這一部分將LLM的語言決策輸出與Apollo等成熟的模塊化AD系統的行為規劃模塊相一致。這樣,LLM的輸出可以容易地轉換為車輛控制信號。(2)MLLM 規劃器。它是多模態標記器和多模態LLM(MLLM)解碼器的組合。多模態標記器將不同的輸入(如多視圖圖像、激光雷達、流量規則和用戶需求)轉換為統一的標記,MLLM解碼器基于統一的標記進行決策。(3)高效的數據收集策略。它為基于LLM的自動駕駛引入了一種量身定制的數據收集方法,確保了一個全面的數據集,包括決策狀態、決策解釋和用戶命令。
在推理過程中,DriveMLM框架利用多模態數據來做出駕駛決策。這些數據包括:環視圖像和點云。系統消息是任務定義、流量規則和決策狀態定義的集合。這些令牌被輸入到MLLM解碼器,MLLM解碼器生成決策狀態令牌以及相應的解釋。最后,決策狀態被輸入到運動規劃和控制模塊。該模塊計算車輛控制的最終軌跡。
Behavioral Planning States Alignment
將大型語言模型(LLM)的語言選擇轉換為可操作的控制信號對于車輛控制至關重要。為了實現這一點,我們將LLM的輸出與流行的阿波羅系統中的行為規劃模塊的決策階段相一致。根據常見方式,我們將決策過程分為兩類:速度決策和路徑決策。具體而言,速度決策狀態包括(保持、加速、減速、停止),而路徑決策狀態包括(FOLLOW、LEFT CHANGE、RIGHT CHANGE,LEFT BORROW、RIGHT BORROW)。
為了使語言模型能夠在這些狀態之間做出精確的預測,我們在語言描述和決策狀態之間建立了全面的聯系,如表1的系統信息所示。此相關性用作系統消息的一部分,并集成到MLLM計劃器中。因此,一旦LLM描述了某些情況,預測將在決策空間內收斂為清晰的決策。每次,一個速度決策和一個路徑決策被相互推斷并發送到運動規劃框架。在補充材料中可以找到決策狀態的更詳細定義。
MLLM Planner
DriveMLM的MLLM規劃器由兩個組件組成:多模態標記器和MLLM解碼器。這兩個模塊密切協作,處理各種輸入,以準確地確定駕駛決策并為這些決策提供解釋。
多模態標記器。此tokenizer設計用于有效處理各種形式的輸入:對于時序環視圖像:使用時間QFormer來處理從時間戳?T到0(當前時間戳)的環視圖像。對于激光雷達數據,我們首先輸入點云作為稀疏金字塔Transformer(SPT)主干的輸入,以提取激光雷達特征。對于系統消息和用戶指令,我們只需將它們視為普通文本數據,并使用LLM的令牌嵌入層來提取它們的嵌入。
MLLM解碼器。解碼器是將標記化輸入轉換為決策狀態和決策解釋的核心。為此,我們為基于LLM的AD設計了一個系統消息模板,如表1所示。可以看到,系統消息包含AD任務的描述、流量規則、決策狀態的定義,以及指示每個模態信息合并位置的占位符。這種方法確保了來自各種模態和來源的投入無縫整合。
輸出被格式化以提供決策狀態(見表1的Q2)和決策解釋(見表一的Q3),從而在決策過程中提供透明度和清晰度。關于監督方法,我們的框架遵循常見做法,在下一個令牌預測中使用交叉熵損失。通過這種方式,MLLM規劃者可以對來自不同傳感器和來源的數據進行詳細的理解和處理,并將其轉化為適當的決策和解釋。
Efficient Data Engine
我們提出了一個數據生成范式,可以在CARLA模擬器中從各種場景創建決策狀態和解釋注釋。該管道可以解決現有駕駛數據的局限性,這些數據缺乏訓練基于LLM的AD系統的決策狀態和詳細解釋。我們的管道由兩個主要組件組成:數據收集和數據注釋。
數據收集旨在提高決策的多樣性,同時保持現實。首先,在仿真環境中構建各種具有挑戰性的場景。安全駕駛需要復雜的駕駛行為。然后,專家,無論是經驗豐富的人類司機還是特工,都被要求安全地駕駛通過這些場景,這些場景是在其眾多可通行的地點之一觸發的。值得注意的是,當專家隨機提出駕駛需求并相應地駕駛時,會生成交互數據。一旦專家安全地開車到達目的地,就會記錄數據。
數據標注主要側重于決策和解釋。首先,通過使用手工制定的規則,根據專家的駕駛軌跡自動注釋速度和路徑決策狀態。其次,解釋標注首先基于場景生成,由附近的當前元素動態定義。第三,生成的解釋標注由人工標注進行細化,并通過GPT-3.5擴展其多樣性。此外,交互內容也由人工注釋器進行細化,包括執行或拒絕人工請求的情況。通過這種方式,我們避免了昂貴的逐幀決策狀態標注,以及昂貴的從頭開始手動編寫解釋標注,大大加快了我們的數據標注過程。
實驗
數據分析
我們收集了280小時的駕駛數據進行培訓。這些數據包括50公里的路線,在CARLA的8張地圖(Town01、Town02、Town03、Town04、Town06、Town07、Town10HD、Town12)上收集了30種不同天氣和照明條件的駕駛場景。平均而言,每個場景在每個地圖上有大約200個觸發點要被隨機觸發。每種情況都是駕駛中常見或罕見的安全關鍵情況。這些場景的詳細信息見補充說明。對于每一幀,我們收集來自前、后、左、右四個攝像頭的圖像,以及來自添加在ego車輛中心的激光雷達傳感器的點云。我們收集的所有數據都有相應的解釋和準確的決策,這些解釋和決策成功地推動了場景的發展。
表2展示了與之前為使用自然語言進行駕駛理解而設計的數據集的比較。我們的數據有兩個獨特的特點。第一個是行為規劃狀態的一致性。這使我們能夠將MLLM規劃器的輸出轉換為控制信號,以便我們的框架能夠在閉環駕駛中控制車輛。二是人際互動標注。它的特點是人類給出的自然語言指令以及相應的決定和解釋。目標是提高理解人類指令并做出相應反應的能力。
閉環自動駕駛評測
我們在CARLA中評估閉環駕駛,CARLA是公開可用的最廣泛使用和最現實的模擬基準。包括能夠在CARLA中執行閉環驅動的現有技術方法,用于性能比較。開源Apollo也在CARLA中作為基線進行了評估。除了我們的方法外,沒有其他基于LLM的方法顯示出部署和評估的準備狀態。所有方法均在Town05長期基準上進行評估。
表4列出了駕駛分數、路線完成和違規分數。請注意,盡管Apollo是一種基于規則的方法,但它的性能幾乎與最近的端到端方法不相上下。DriveMLM在駕駛分數上大大超過了所有其他方法。這表明DriveMLM更適合處理狀態轉換,以安全地通過硬盤。表4中的最后一列顯示了MPI評估的結果。該指標顯示了更全面的駕駛性能,因為需要代理人完成所有路線。換言之,所有路線上的所有情況都會被測試的代理遇到。Thinktwice實現了比Interfuser更好的DS,但由于經常越過停止線,MPI更低。然而,CARLA對這種行為的處罰微乎其微。相比之下,MPI將每一次違反交通規則的行為視為一次接管。DriveMLM還實現了所有其他方法中最高的MPI,這表明它能夠避免更多情況,從而獲得更安全的駕駛體驗。
駕駛知識評測
我們采用開環評估來評估駕駛知識,包括決策預測和解釋預測任務。表3顯示了預測決策對的準確性、決策預測的每種決策類型的F1分數,以及預測解釋的BLEU-4、CIDEr和METEOR。對于Apollo,Town05上手動收集的場景將作為表3中模型的輸入進行回放。回放的每個時間戳處的相應模型狀態和輸出被保存為用于度量計算的預測。對于其他方法,我們給他們相應的圖像作為輸入和適當的提示。通過將模型預測與我們手動收集的地面實況進行比較,準確性揭示了決策的正確性和與人類行為的相似性,F1分數展示了每種路徑和速度決策的決策能力。DriveMLM總體上達到了最高的準確率,以40.97%的準確率超過了LLaVA。與Apollo基線相比,DriveMLM的F1得分更高,這表明它在解決各種道路情況時更有效地超越了基于規則的狀態機。LLaVA、InstructionBLIP和我們提出的DriveMLM可以以問答的形式輸出決策解釋。在BLEU-4、CIDEr和METEOR方面,DriveMLM可以實現最高的性能,表明DriveMLM能夠對決策做出最合理的解釋。
消融實驗
傳感器模態:表5展示了輸入傳感器模態對DriveMLM的不同影響的結果。多視圖(MV)圖像在路徑和速度F1得分方面都帶來了顯著的性能改進,準確率提高了18.19%。與直接連接時間令牌相比,時間QFormer在確保多模態決策能力的同時,實現了7.4%的更大改進,從而使速度決策的平均F1得分提高了0.05。點云不會顯示出增強性能的能力。
Case Study和可視化
人機交互:圖4提供了如何通過人工指令實現車輛控制的示例。控制過程包括分析道路狀況、做出決策選擇和提供解釋性陳述。當給出相同的“超車”指令時,DriveMLM根據對當前交通狀況的分析顯示出不同的響應。在右側車道被占用而左側車道可用的情況下,系統選擇從左側超車。然而,在給定指令可能構成危險的情況下,例如當所有車道都被占用時,DriveMLM會選擇不執行超車動作,并做出適當反應。在這種情況下,DriveMLM是人車交互的接口,它根據交通動態評估指令的合理性,并確保其在最終選擇行動方案之前符合預定義的規則。
真實場景中的性能:我們在nuScenes數據集上應用DriveMLM來測試開發的駕駛系統的零樣本性能。我們在驗證集上注釋了6019個幀,決策準確度的零樣本性能為0.395。圖5顯示了兩個真實駕駛場景的結果,表明了DriveMLM的通用性。
結論
在這項工作中,我們提出了DriveMLM,這是一種利用大型語言模型(LLM)進行自動駕駛(AD)的新框架。DriveMLM可以通過使用多模態LLM(MLLM)對模塊化AD系統的行為規劃模塊進行建模,在現實仿真環境中實現閉環AD。DriveMLM還可以為其駕駛決策生成自然的語言解釋,這可以提高AD系統的透明度和可信度。我們已經證明,DriveMLM在CARLA Town05 Long基準上的表現優于Apollo基準。我們相信,我們的工作可以激發更多關于LLM和AD整合的研究。
開源鏈接:https://github.com/OpenGVLab/DriveMLM
原文鏈接:https://mp.weixin.qq.com/s/tQeERCbpD9H8oY8EvpZsDA