完美發揮LLM和規則的雙重魔力!UCLA提出全新可解釋決策規劃框架
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 && 筆者理解
對于自動駕駛車輛要無縫融入為人類設計的交通系統,它們首先要“安全”,也就是作者常說的"Safty first!",但是同時也還會有一個關鍵要求就是“遵守交通規則(交通法規、法律和社會規范)”。但是交通規則是多樣且復雜的,涵蓋了來自不同地區法律、駕駛規范的數千條法規。在這些交通規則中,自車必須考慮各種因素,比如其他道路參與者的行為、當前道路狀況和環境背景,來識別與特定場景相關的規則。這些因素的任何變化可能需要不同的規則或重新優先考慮現有規則。
- 論文鏈接:https://arxiv.org/pdf/2410.04759
之前的一些工作集中在選擇關鍵規則和人工寫的決策規則上,然而,這種手動編碼方法難以處理大量交通規則,并且不能輕易適應不同地區的法規。另外,交通規則的語義復雜性和上下文依賴性也是做決策的另一個難點。交通規則從標準解釋到特定駕駛行為都有涵蓋,需要以不同的方式整合到決策過程中。例如,法律的約束是嚴格的,而當地規范和安全條款可能需要根據場景靈活應用。因此,智能地理解和將人工寫的的規則納入決策系統對于自動駕駛車輛無縫融入人類交通系統至關重要。
對于為特定任務訓練的傳統AI系統來說,這是一個挑戰,但具有強大理解和推理能力的大型語言模型(LLMs),可以做到!本文介紹了一個新的可解釋的遵守交通規則的決策者,它結合了一個基于檢索增強生成(Retrieval-Augmented Generation,RAG)構建的交通規則檢索智能體和使用LLM(GPT-4o)的推理模塊。推理模塊會從兩個層面上來評估行動:
- 行動是否合規,即它是否遵循所有強制性交通規則;
- 行動是否被認為是安全行為,即它是否既遵守強制性交通規則又遵循安全指南。
這種雙重層面的評估確保了對合法合規和遵守安全駕駛實踐的全面評估和決策。此外,為了增強可解釋性,中間推理信息,如推理過程中使用交通規則,也會被輸出,提供了評估者決策過程的透明度。
相關工作
自動駕駛中的交通規則
為了將交通規則集成到自動駕駛系統中,已經有過很多的方法。早期的方法包括基于規則的系統和有限狀態機,這些系統通過顯式的if-then規則或狀態轉換來編碼交通法律。為了處理復雜場景,出現了更復雜的方法:行為樹創建了能夠表示和執行交通規則的分層決策結構,以及使用LTL或MTL等時間邏輯的形式方法為指定和驗證遵守交通法律提供了嚴格的框架。然而,這些方法通常難以應對現實世界交通規則的模糊性和地域差異,導致在創建能夠適應不同監管環境的自動駕駛車輛時面臨挑戰。最近,大型語言模型(LLMs)在理解自然語言和解釋復雜場景方面展現出了顯著的能力。利用這些能力,LLMs可以以更靈活和上下文感知的方式處理和整合交通規則,無需基于規則的編碼。例如,LLaDA利用LLMs從當地手冊中解釋交通規則,使自動駕駛車輛能夠相應地調整任務和運動計劃。同樣,AgentDriver將交通規則納入基于LLM的認知框架中,在規劃期間存儲和參考這些規則。然而,確保LLMs準確應用相關交通規則而不產生幻覺或誤解仍然是一個關鍵挑戰。
檢索增強生成
檢索增強生成(Retrieval-Augmented Generation,RAG)通過結合神經檢索和sequence-tosequence生成器,解決LLM幻覺問題并提高信息檢索的準確性,最近的一些研究已經證明了RAG在提高LLM在當前事件、語言建模和開放領域問答等領域的準確性和事實正確性方面的有效性。這些發現引發了RAG在提高基于LLM的自動駕駛系統的交通規則合規性方面的潛力。其動態檢索能力使實時訪問特定地區的交通規則成為可能,解決了適應不同監管環境的挑戰。RAG提供的事實增強可以減少LLM中的幻覺,降低編造或誤用交通規則的風險。RAG處理復雜和上下文信息的能力也非常適合解釋具有多個條件或例外的微妙交通規則。此外,RAG的檢索過程中固有的透明度可以提高自動駕駛系統中決策的可解釋性,這是法規合規性和公眾信任的一個關鍵因素。
自動駕駛的決策
自動駕駛的決策方法已經從基于規則的發展到基于學習的方法。基于學習的方法在動態駕駛環境中比前者表現出更大的適應性,使自動駕駛車輛擺脫了復雜手工規則的約束。兩種典型的學習方法是模仿學習(imitation learning, IL)和強化學習(reinforcement learning, RL)。IL專注于模仿專家的決策,但面臨在線部署中的不同分布問題。相反,RL在在線交互中探索和學習,但這種試錯方法效率低下。此外,另一篇論文GPT-Driver引入了GPT到自動駕駛車輛中,將規劃重新構想為語言建模問題。然而,在由交通規則構建的人類駕駛環境中,自動駕駛車輛不僅需要確保安全,還需要在駕駛過程中遵循這些規則,同時與人類駕駛的車輛一起駕駛。使用統一模型將不同的語義交通規則整合到決策中仍然是一個未充分探索的領域。
提出的方法
作者提出的方法,如圖1所示,包含兩個主要組件:
- 一個交通規則檢索智能體(Traffic Rules Retrieval Agent),它使用檢索查詢從法規文檔中檢索相關交通規則;
- 一個推理智能體(Reasoning Agent),它基于環境信息、自車的狀態和檢索到的交通規則來評估行動集(action set)中每個行動的交通規則依從性。
作者首先做環境分析,為交通規則檢索智能體生成檢索查詢,并為推理智能體提供環境信息輸入。為了提取超出常見感知輸出的更多法規相關特征,作者使用視覺語言模型(Vision Language Model,VLM)GPT-4o,基于自車的攝像頭圖像分析環境。分析遵循精心設計的“思考鏈”(Chain-of-Thought,CoT)流程:VLM首先進行廣泛的環境概覽并檢查一般道路信息,然后進行詳細分析,重點關注關鍵要素,如其他道路使用者、交通元素和車道標記,特別是與車輛全局規劃輸出相關的元素(例如,“右”、“左”或“向前”)。然后VLM生成一個簡潔的檢索查詢,總結當前場景的情況,供交通規則檢索智能體使用。
圖3展示了環境分析的一個示例輸出。作者從基于全局規劃輸出的行動空間(Action Space)中提取一個行動集,該行動集包含所有可能的行動。為了簡單起見,作者將行動空間僅包含一組預定義的行動:右轉、左轉、向前行駛(以當前速度、加速或減速)、向左變道和向右變道。提取過程選擇與全局規劃輸出一致的行動。例如,如果全局規劃輸出是“左”,行動集將包括以當前速度、加速或減速左轉。
交通法規的檢索增強生成
為了增強模型對本地交通規則和規范的理解,并充分考慮所有可用來源的相關規則,作者開發了交通規則檢索(Traffic Regulation Retrieval, TRR)智能體,如圖2所示。
由于不同地區有不同的交通規則來源,作者以美國為例來展示TRR智能體如何充分考慮可用來源。由于憲法原因,美國的交通規則由各州而不是聯邦政府制定。城市還建立了本地規則以管理交通并確保安全。為確保全面覆蓋,TRR包括州和地方法規。此外,為美國司法系統提供參考的案例法和提供額外安全指南的駕駛手冊也被視為重要來源,并被納入TRR。因此,作者設計的TRR包含以下綜合法規文檔集合:
- 州級交通法律:由州立法機構制定并在整個州執行的,規范車輛運營并確保道路安全的法律。
- 州級駕駛手冊:由各州DMV出版,詳細說明州交通法律和安全駕駛實踐。它包括以文本和插圖形式呈現的駕駛安全指南。
- 市級交通規則:由地方政府制定,用于解決特定需求(如停車、速度限制和車道使用)的規則,以管理本地交通并確保安全。
- 州級法院案例:對交通相關案例的司法裁決澄清法律并影響執法。
- 交通規范:被廣泛認可的駕駛員遵循的行為,以確保順暢和安全的道路互動。這些規范對于自動駕駛車輛與人類駕駛行為和社會期望保持一致至關重要。本文不專注于為這些規范建立記錄庫,但作者將使用示例來說明作者的框架仍然適用。
在評估了基于傳統倒排索引的檢索方法(依賴于關鍵詞輸入,如BM25和Taily)的檢索性能后,作者發現基于嵌入的算法(利用信息豐富的長查詢并根據段落相似性檢索)在完整性和效率方面顯著優于前者。集成到TRR智能體中,基于嵌入的方法更有效地處理駕駛場景的復雜性。
每個文檔或記錄都被重新格式化為帶有層次標題的markdown,以提高清晰度,使隨后的推理智能體更好地解釋。除了文本內容,尤其是在州級手冊中廣泛使用,用視覺示例澄清法規的圖表,也被集成到TRR智能體中。這種集成特別重要,因為有些法規細節嵌入在圖像中,但并未在相應的文本中明確描述。所以,圖表被轉換為文本標簽,并附在相關段落的末尾,并在檢索過程結束時適當恢復。
在檢索過程中,作者首先為法規文檔和先前生成的交通規則檢索查詢生成向量嵌入,然后應用FAISS相似性搜索來確定它們之間的相關性。從段落級到句子級的級聯檢索pipeline有助于確保結果既全面又簡潔。在對整個數據源進行段落級嵌入后,應用top-k選擇來選擇最相關的段落,形成一個新穎的細分數據庫。為解決由于大型標記化交通手冊的規模而可能影響搜索準確性的稀疏性問題,作者對選定的段落進行了句子級重新嵌入。這第二級嵌入通過專注于最相關的部分,提供了更好的索引和搜索能力。這種方法允許動態適應,通過優先考慮可用法規的相關性。最終,TRR智能體匯總了從交通法規和州級法律中選定的句子、城市法規的規則以及法院案例,以及屬性圖像,以產生一個全面的結果,提供給推理智能體。
推理智能體
推理智能體利用帶有CoT提示方法的LLM(GPT-4o),來負責確定行動集中的每個行動是否符合交通規則。推理智能體接收三個關鍵輸入:
- 來自環境分析的當前環境信息
- 自車的行動集
- 從TRR智能體檢索到的一組交通規則。
在推理過程中,智能體首先過濾檢索到的交通規則,以識別最適用于當前情況和自車預期行動的規則。然后,這些規則被歸類為強制性規則(必須遵循以確保合法合規)或安全指南(代表最佳實踐,雖然不具有法律要求,但建議采取以實現最佳駕駛行為)。推理智能體接著檢查是否符合強制性規則。如果當前行動違反任何強制性規則,智能體得出行動不合規的結論;否則,它被標記為合規。然后模型通過檢查強制性規則和安全指南(如果有檢索到)來評估安全性,如果行動同時符合兩者,它被標記為安全;否則,被標記為不安全。推理智能體為行動集中的每個行動輸出一個二元合規性和安全性決策,并清晰地引用每個適用規則,詳細說明行動為何合規或不合規,以提高推理過程的可解釋性。然后框架選擇被標記為既合規又安全的行動作為決策的最終輸出。圖3最右側則展示了推理智能體的一個示例輸出。
實驗結果
為了驗證提出的方法以及其在利用法規進行決策制定方面的有效性,作者開發了一個全面的基準,其中包含了假設的和現實世界場景,如圖3所示。假設場景提供了更大的多樣性,而現實世界數據實驗展示了框架在真實駕駛條件下的實際性能。作者主要在波士頓地區評估了這些場景。
交通規則檢索(TRR)智能體和RAG
作者在TRR智能體中使用的文檔集合遵循圖2所示的架構,包括以下內容:
作者使用了OpenAI的“text-embedding-ada-002”模型進行段落級檢索,閾值設定為0.28,以及SentenceTransformers的“paraphrase-MiniLM-L6-v2”進行句子級檢索,并收集了top-5檢索到的句子。
假設場景
假設場景以文本格式描述,包括30種情況,涵蓋了從轉彎或通過交叉口等常見場景,到在分隔道路上超過停止的學校巴士或讓從后方接近的緊急車輛等罕見案例,這些通常不被真實世界數據集所涵蓋。這些場景由研究人員通過審查波士頓的法規代碼和駕駛手冊手動識別,因為它們對人類或自動駕駛駕駛員來說可能具有挑戰性。作者評估了框架在30個假設場景中的性能,包括使用和不使用TRR智能體的數據,如圖4所示。
在缺乏特定本地法規或依賴交通規范的場景中,LLM有效地使用其廣泛的預訓練知識做出正確的決策。然而,在需要遵守詳細的市級或州級法規或司法先例的場景中,僅LLM不足以確保安全。整合了包括本地法規和司法決定的TRR智能體,將場景-行動推理精度從82%提高到100%,決策制定精度從76%提高到100%。這突出了將全面的法律和司法信息整合到LLM框架中,以有效應對復雜的現實世界駕駛情況的重要性。
現實世界場景
為了評估框架在現實世界數據上的性能,作者在nuScenes數據集上對其進行了測試。由于它不是為與交通規則相關的任務設計的,因此不包含交通規則注釋。為此,作者手動審查了攝像頭圖像,并選擇了與交通規則強相關的樣本,其中行動更多地受到交通規則的約束或影響。對于每個樣本,作者為行動集中的行動標注了合規性和安全性標簽,確定合規和安全的行動作為決策輸出的基準真實值。為確保有意義的評估并避免由于重復或過于相似的場景導致的不平衡,作者仔細選擇了適用不同交通規則的樣本,或者由于與法規直接相關的場景特定因素導致相同規則的應用存在變化。因此,作者從驗證集中識別出了17個多樣化的樣本進行評估,作者的模型為其中的15個樣本產生了正確的輸出和準確的推理。
在圖5(a)和(b)中,作者展示了兩個場景:一個是沒有行人的斑馬線,一個是有行人的斑馬線。對于沒有行人的斑馬線,模型在自車加速向前時輸出“合規但不安全”,這符合常識。在有行人的場景中,加速向前不符合交通規則,作者的框架正確地識別了這一點,輸出了正確的合規判斷。這兩個例子展示了模型根據環境因素的變化,準確地調整其評估的能力。在(c)中,作者進一步展示了一個需要同時考慮多個交通元素和規則的案例。在這個場景中,車輛在沒有“禁止紅燈右轉”標志的紅燈處右轉,這使得右轉在法律上是允許的。然而,有一個行人正在車輛前方的斑馬線上過馬路,要求車輛讓行。因此,不禮讓的右轉是不遵守交通規則的。如最終輸出所示,作者的模型成功識別了這一點,并輸出了“不合規”。在(d)中,作者展示了一個自車接近施工區域并應減速的案例,作者的模型成功識別了這一點,輸出了行動“以減速向前行駛”。這是以前基于規則的方法難以處理的場景,因為它們通常由于需要手工制定規則,通常只選擇關鍵規則,經常省略特定案例,如施工區域的法規。
在圖6中,作者展示了新加坡的一個案例,以展示作者的模型可以輕松適應不同地區。在這個場景中,自車試圖在紅燈處右轉。雖然在波士頓右轉是合法的,但在新加坡是非法的。如圖所示,作者的模型正確地輸出了“不合規”,符合新加坡的交通規則。與以前需要為每個新地區重新制定規則的基于規則的方法不同,作者的模型只需簡單地將交通規則文件從波士頓的切換到新加坡的,就可以無縫地適應新場景。
寫在最后
本文介紹了一個可解釋的、由LLM驅動的、重視交通規則的決策框架,該框架集成了交通規則檢索(TRR)智能體和推理智能體。在假設的和現實世界場景上進行的實驗證實了作者方法的強大性能及其對不同地區的無縫適應性。作者相信,該框架將顯著提高自動駕駛系統的安全性和可靠性,增強監管機構和公眾的信任。未來的工作將擴展框架的測試到更多地區,并多樣化作者的測試場景。此外,開發一個全面的現實世界數據集,用于與交通規則相關的任務,對于該領域的未來研究和進步至關重要。