自動駕駛大語言模型!LLM4AD:從概念、仿真到實車的全面盤點
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 && 筆者理解
大型語言模型(LLMs)的發展無疑是這幾年人工智能領域的熱潮,它們的應用范圍已經逐步從經典的自然語言處理(NLP)任務,到了一些新興場景,如基于LLM的智能體研究。而這篇文章,作者的研究重點之一,就是采用LLMs進行自動駕駛(LLM4AD),各種基于LLM的算法和技術不斷增強自動駕駛技術的能力。
論文鏈接:https://arxiv.org/pdf/2410.15281v1
LLMs可以從高層次的決策制定過程到細致的低層次控制都能為自動駕駛系統做出貢獻。在高層次上,LLMs可以積極參與調整駕駛模式或決策過程。可以想象一下,當你坐在一輛自動駕駛汽車中,你只需要抽象地表達你的感受,比如“我不想讓我的朋友們等我。”然后LLM4AD系統解釋你的情感,并相應地調整車輛的控制策略,與你當前的駕駛心情或偏好保持一致。相比之下,基于非LLM的系統缺乏從一些模糊的表達中準確理解或解釋人類意圖的能力。當然,這樣的系統還有個優勢就是可以持續學習,使其能夠不斷適應個人喜好和愿望,根據不同的用戶改善駕駛體驗。另一方面,在低層次上,LLMs在調整和控制過程中也可以發揮關鍵作用。LLMs可以將特定場景分析并把收集到的信息轉換成指導低層次控制器的數學表示。另外,LLMs還可以從控制器接收輸入數據,并提供性能更新,幫助人類分析控制環路的有效性,還可以潛在地建議改進或檢測問題以增強整體性能。
說了這么多,總結一下LLMs應用在自動駕駛領域的優劣勢吧:
Pros:
- 直觀的語言交互:LLMs使得人與車輛之間的交流變得直觀。人類可以表達抽象的命令和感受,而LLMs則能夠準確捕捉人類表達背后的意圖。
- 上下文理解和推理:LLMs提供從交通法規到事故報告等不同來源的上下文理解,從而確保生成的決策保證安全并遵循當地法規。
- 零樣本和少樣本規劃:零樣本泛化能力使得LLMs能夠執行它們之前未曾受過訓練的任務。這可以幫助解決處理一些很少見的corner cases。
- 持續學習和個性化:LLMs持續學習和適應,提供遵循個人用戶偏好并隨著時間改善駕駛體驗的能力。
- 可解釋性和信任:LLMs可以用自然語言解釋它們的決策,改善自動駕駛系統與其用戶之間的信任和理解。
Cons:
- 延時性可能不達預期:LLMs通常需要幾秒鐘來處理文本信息。這種延遲可能在需要立即、實時決策的情況下帶來重大的安全問題和風險。
- 可能出現幻覺問題:“幻覺”是指LLMs生成的輸出在事實上是錯誤的、無意義的或與輸入提示無關的實例。由于自動駕駛是一項安全關鍵任務,幻覺可能會引入重大的安全和可靠性問題,可能破壞對LLM4AD系統的信任。
- 數據隱私和安全問題:因為LLMs收集和處理大量文本數據,包括可能關于其周圍環境、乘客和駕駛偏好的敏感信息。
這篇論文主要介紹了作者將 LLM 集成到自動駕駛系統中的思路方法,從提出的概念和開放數據集的創建到在仿真和實車實驗中的實現,都有相關的說明。
作者提出的LLM4AD的概念
作者提出LLMs扮演自動駕駛系統中決策“大腦”的角色。在作者的框架內,LLMs并不直接影響感知或定位模塊,這些模塊充當車輛的“眼睛”;相反,它們使用這些模塊的輸出作為參考來指導高層次的決策過程。通過接收來自這些模塊的處理數據,LLMs可以增強知情決策,來提高自動駕駛車輛的性能。在下游,車輛的控制模塊充當其“手”,執行從基于LLM的決策過程中獲得的駕駛策略。
整體LLM4AD框架如圖1所示。人類提供指令和評估,其中指令I和評估F以及歷史記憶H、系統消息S和上下文信息C作為輸入提供給LLMs。記憶模塊存儲對應于不同用戶的人車交互的相應歷史記錄H。在接收到這些輸入后,LLMs進行推理并產生輸出,包括生成的語言模型程序(Language Model Programs, LMPs)P和推理思想R。生成的LMP被發送到執行器在環境中執行,而推理思想幫助LLMs生成更合理的駕駛策略。不過要注意的是,這是一個通用概念,具體實現可能因不同應用而異。
人類指令和評估
人類的指令I和評估F直接以自然語言形式輸入到LLMs中。I包括人類對自動駕駛智能體的期望需求,而人類的評估F是對這些駕駛策略有效性的反饋。
系統消息
系統消息S是在對話或任務開始時向LLM4AD系統提供指令或上下文的一種方式。自動駕駛任務中的系統消息S就像一套高層次的指導方針或規則。這些高層次的系統消息包括任務定義、遵守交通規則、描述決策狀態和總體目標或優化指標。它們作為指導自動駕駛車輛在路上行為和決策過程的基礎框架。如果沒有精心設計的系統消息,LLMs可能會做出錯誤的假設或無意的策略。
情境描述符
情境描述符將當前的駕駛上下文C轉換成文本描述。它的目的是為LLMs提供情境感知和對當前駕駛場景的全面表示,使它們能夠在當前交通情況下做出適當的決策。這可能包括諸如“您位于雙車道高速公路的最左車道”或“一輛車位于您當前位置前方50米處”的描述性語句。描述符將不同道路使用者和自車之間復雜的空間和時間關系直觀地轉換成自然語言格式,允許上下文信息被LLMs推理。
歷史記憶和記憶模塊
記憶模塊存儲不同用戶的配置文件,以增強所有用戶的駕駛體驗。每當人類用戶使用LLM4AD系統時,系統會記錄與該用戶相關的相關歷史交互H。隨后,當前人類用戶的歷史數據被傳輸到LLMs作為輸入。這個特定的歷史交互H作為當前用戶偏好的參考點,因此指導系統改善用戶體驗。每次行程結束后,交互數據將在記憶模塊中的相應配置文件中更新。
大型語言模型
LLMs作為作者框架中的核心模塊,將接收上述所有輸入,并生成文本輸出(語言模型程序LMPs P和推理思想R)。值得一提的是,作者采用了思維鏈提示技術,它作為一個指導信號,確保與類人推理和實際駕駛考慮的一致性。思維鏈向LLMs提供了一系列推理示例,填補了現有的知識空白。通過提供一系列邏輯和連接的步驟,LLMs可以更有效地在復雜的駕駛場景中表現良好。
生成程序
LLMs的一個關鍵輸出是生成的LMPs P,由可執行代碼組成。這些代碼用于影響環境中自車智能體的駕駛行為,它們不僅能夠推廣到新的自然語言命令,而且還可以基于模糊的語言描述(例如,“快點”、“向左轉”)提供精確的數值,如根據駕駛上下文的速度。
輸出思想
通過采用思維鏈提示,LLMs不僅生成程序代碼,還提供了用于達到解決方案的思考過程的逐步解釋。這些思維鏈代表了LLMs在做出每個決策背后的推理,例如“由于命令是‘快點’,我將增加目標速度”或“要向左轉,我需要根據當前速度調整轉向角度。”輸出的思想R伴隨著生成的程序P,提供了LLMs如何在駕駛情境描述的上下文中解釋自然語言命令以產生精確的控制值,如速度或轉向角度。這種輸出思想提高了LLM4AD系統決策過程的透明度和可解釋性。
執行器
執行器充當LLMs文本輸出與當前自動駕駛策略之間的橋梁。它從LLMs中取出生成的LMPs P并在相應環境中執行。這允許代碼與自車的當前狀態進行交互,并使生成的程序能夠在真實或仿真環境中部署其預期的駕駛行為。在作者的范圍內,不同的自動駕駛系統將在它們各自的執行器中有所不同地執行這些代碼。
作者提出的LLM4AD的基準數據集
作者提出了第一個評估基于LLM的智能體在自動駕駛中指令跟隨能力的標準基準測試——LaMPilot-Bench。LaMPilot-Bench由三個關鍵部分組成:仿真器、數據集和評估器。
仿真器
作者擴展了HighwayEnv,增加了適合基于LLM的智能體的接口,并實現了自定義交叉路口,以多樣化駕駛場景。
數據集
LaMPilot數據集由4900個半人工標注的交通場景組成,其中500個樣本作為測試集。每個數據樣本包括:
- 一個指令I:一個高層次的任務描述。
- 一個初始狀態:用于初始化仿真器。
- 與指令I一致的目標狀態標準。
數據集涵蓋了多樣化的駕駛場景,對于每個駕駛場景,LaMPilot包括多種情況。以轉彎場景為例,多樣性反映在如自車的初始位置和狀態、特定任務(左轉/右轉或直行)、其他車輛的數量以及它們的位置和狀態等多個變量中。其他車輛的駕駛模型參數是隨機初始化的,每個場景都被分配一個隨機種子。數據集還包括反映現實車內人類命令的各種指令,按操作類型(例如,路線規劃、變道、超車)和場景類型(高速公路和交叉口)分類。
評估器
LaMPilot-Bench評估器包含了評估智能體駕駛策略安全性和效率的指標。碰撞時間(Time-to-collision, TTC)用于衡量車輛保持安全距離和避免碰撞的能力。速度方差(Speed variance,SV)被認為是另一個安全指標。時間效率( time efficiency,TE)得分評估策略在預定義的時間限制Tlimit內完成任務的能力。其具體計算方法詳見論文。
當智能體在保持安全(即,避免碰撞)和效率(即,在規定時間內完成)的同時實現了指令中指定的目標時,認為任務成功完成。例如,當車輛在目標車道內并且其方向與車道方向一致時,且在指定閾值內,變道任務即算完成。最終得分根據其重要性加權匯總所有單獨指標。
基線
作者設置了啟發式基線、零樣本和少樣本基線、人類反饋基線三種baselines,來對模型進行分析。
定量結果
作者在LaMPilot-Bench上展示了各種方法的實驗結果,總結了啟發式基線、零樣本和三樣本基線以及人類反饋基線的性能。
實驗表明,現成的LLM能夠根據人類指令為駕駛任務生成代碼策略。然而,顯著的碰撞率表明需要進一步的研究來完全捕捉現實世界駕駛場景的復雜性和安全要求。
作者做的LLM4AD的仿真研究
仿真設置
仿真是開發和評估自動駕駛系統的關鍵工具,使研究人員能夠安全高效地探索多樣化的駕駛場景并收集訓練數據。在這項工作中,作者利用CARLA仿真器來開發和評估作者提出的將LLMs集成到自動駕駛中的框架。其中使用三個關鍵指標評估智能體性能:
- 路線完成率(RC):衡量智能體完成路線距離的百分比
- 違規處罰(IP):跟蹤智能體犯下的各種違規行為(例如,碰撞、闖紅燈)作為幾何級數,從理想的基礎分數1.0開始,每次違規都會減少
- 駕駛得分(DS):RC和IP的乘積,作為主要評估指標
Human-in-the-Loop Learning
本節的主要研究目標是開發一個人類引導的學習流程,使自動駕駛智能體能夠不斷地從自然語言中的人類反饋中學習和改進。雖然作者的實驗是使用CARLA進行的,并使用Python進行代碼生成,但核心方法并不局限于這個特定設置,可以適應其他環境和編程語言。表IV提供了LMP生成過程的示例。作者引入了一種基于檢索增強生成(RAG)的人類在回路學習方法。這種方法使LLM在生成輸入查詢的響應時使用定制的知識數據庫。關鍵過程如下:在執行生成的策略代碼(P)之后,人類乘客提供自然語言反饋(F),這些反饋連同P一起被反饋到LLM中。這個反饋循環使持續學習成為可能。如果反饋是積極的(即,人類對執行感到滿意),代碼(P)將提交到數據庫以供將來檢索和重用。否則,反饋將作為迭代改進的指導。新的生成過程可以被表述為:
其中P'是基于原始代碼P和人類反饋F改進的代碼。數據庫有兩個目的:(1)作為一個自動駕駛知識庫,它為持續學習提供了對角落案例的洞察,符合知識驅動的自動駕駛范式;(2)由于數據庫是使用個性化反饋構建的,它自動將個人偏好納入交互過程中。這種方法將框架從靜態的開環系統轉變為動態的、持續學習的系統。
結果
作者使用OpenAI的GPT模型API(gpt-4-turbo-preview和gpt-3.5-turbo)作為規劃器中的LLM。表5展示了一些對比結果,基于這些結果,作者觀察到:
- 沒有少樣本示例,現成的LLM在CARLA中精確推理所需的復雜閉環駕駛方面掙扎。
- 三樣本基線也不足,根據CARLA的標準指標,得分顯著降低。
- 作者的框架通過從人類反饋中學習到的50個代碼片段,表現與Roach Expert強化學習基線相當。
- 大多數失敗源于LLM低級規劃頻率的權衡。
LLM4AD的實車實驗
為了進一步評估LLM4AD系統的有效性并驗證其在現實世界場景中的適用性,作者將LLMs集成到實際的自動駕駛系統中,引入了一個名為Talk2Drive的框架。演示視頻可見(https://youtu.be/4BWsfPaq1Ro)。
Talk2Drive框架
作者提出了Talk2Drive(見圖3),這是一種創新的方法,利用LLMs來增強命令解釋能力,并在自動駕駛車輛中啟用個性化決策制定。它集成了基于云的LLMs,以實現個性化理解和將人類命令轉化為實時車輛動態輸入的可執行控制序列。這一節首先從問題陳述開始,然后闡述每個云側和車輛側操作的獨特角色。
Talk2Drive系統主要有以下幾個步驟,其流程圖見圖4。
- 云基LLMs:Talk2Drive框架使用基于云的LLMs來處理和理解人類的口頭指令,并將其轉化為車輛的可執行控制序列。
- 命令翻譯:通過使用語音識別技術,人類的口頭命令被轉換成文本指令,LLMs進一步將這些指令翻譯成具體的駕駛操作。
- 上下文數據集成:LLMs同時訪問實時的環境數據,如天氣、交通狀況和當地交通規則,以提供更準確的駕駛決策。
- 個性化駕駛體驗:通過存儲和分析過去的交互歷史,LLMs能夠學習駕駛員的偏好,并根據這些信息調整駕駛策略。
- 記憶模塊:該模塊記錄了用戶的命令、系統響應和用戶反饋,使系統能夠根據用戶的歷史行為和偏好提供個性化的駕駛體驗。
- 安全和效率:Talk2Drive框架在執行LLMs生成的控制命令時,會進行安全檢查,確保生成的代碼既符合格式要求,也考慮到了安全性和實際可行性。
- 實時反饋和迭代學習:系統允許用戶對執行的命令提供反饋,這些反饋被用來不斷改進LLMs的性能,實現持續學習和優化。
- 執行器的角色:生成的可執行代碼(LMPs)被發送回車輛的電子控制單元(ECU),由ECU執行,以控制車輛的實際駕駛行為。
實驗及結果
實驗包括三種不同的場景:高速公路、交叉口和停車場。關于輸入指令,有三種Level,表6給出一些例子:
作者對自動駕駛系統的評估指標,包括駕駛性能、時間效率和個性化的接管率三個方面,具體計算方法可見論文。
表7展示了路測的駕駛性能指標,除了高速場景的overtake指標,均有提升。
表8展示了不同場景下接管率的性能指標,也均有提升。
結論
作者全面探討了LLM4AD,即大型語言模型(LLMs)在自動駕駛中的應用。作者的研究突出了LLMs在增強自動駕駛車輛技術的各個方面,從感知和場景理解到語言交互和決策制定的重要潛力。通過利用LLMs的自然語言理解和推理能力,作者展示了它們增強自動駕駛車輛的安全性、效率和用戶體驗的能力。此外,作者介紹了一個專門設計的全面基準測試,用于評估LLMs在自動駕駛領域的指令跟隨能力。作者在模擬和真實車輛平臺上進行的實驗表明了作者提出的基于LLM的方法的有效性。這些發現強調了LLMs對自動駕駛技術未來的影響,使其更安全、更智能、更易于所有人使用。