面向無信號交叉口的自動駕駛解決方案!涵蓋強化學習的超全綜述!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
目前,自動駕駛系統的發展愈發的成熟,但在無信號交叉路口的自動駕駛技術仍然被認為是機器學習的一個具有挑戰性的應用,因為處理具有高度不確定性的復雜多智能體場景對于模型而言還是非常復雜的。因此,如何在這些無信號的交叉路口等安全關鍵環境中實現決策過程的自動化涉及場景理解以及學習穩健的駕駛行為相關的多個抽象層次,以使自動駕駛車輛能夠進行高效的導航。
對于自動駕駛系統的決策任務而言,采用了層級的結構進行表示。各個層級分別包括規劃下一步要去哪里、根據車載傳感器的觀察結果在短期和長期時間范圍內做出決策、在同一環境中與其他智能體交互的影響下做出決策、確保車輛控制安全可靠、從駕駛歷史信息和自然的人類駕駛風格中學習、與其他車輛協調共同執行某些任務。然而,在城市交叉路口的背景下,要使自動駕駛汽車能夠在如此復雜的環境中安全高效地行駛,需要高度的自主性。但是對于目前的自動駕駛汽車,即使是完全自動駕駛的汽車,也無法始終完全安全行駛,也無法保證由于關鍵的決策錯誤而實現無碰撞的操作。
在無信號交叉口做出決策是一個非常棘手的過程。復雜的駕駛行為和交通控制信號的消失使得對其他交叉口用戶的運動推斷極具挑戰性,如下圖所示。
不同類型的無信號燈的交叉路口
基于此,目前在學術界和工業界已經進行了大量研究來探討提高無信號交叉口駕駛安全性的算法。根據我們的深入調查,我們發現所提出的決策算法可以分為三大類:合作方法,包括博弈論、基于啟發式的方法和混合方法。然而,上述這些方法由于需要調整的規則數量眾多,因此設計此類規則以適應各種可能的交叉情況是一個繁瑣的過程。基于機器學習的方法,尤其是強化學習方法,側重于從車輛與交叉路口環境之間的交互中學習駕駛策略。目前,有不少的文獻中已經廣泛研究了應用現代基于強化學習的方法來學習無信號交叉口的最佳駕駛策略。
但是與現有的關于自動駕駛汽車強化學習的綜述論文相比,我們的論文方法綜述更加地關注基于強化學習的決策技術,特別是針對無信號交叉口這一領域,該領域尚未在文獻中得到全面涵蓋。基于此,本文將聚焦于在與無信號交叉口自動駕駛汽車行為運動規劃相關的各個方面。
論文鏈接:https://www.arxiv.org/pdf/2409.13144
不確定性下的自動駕駛
無信號交叉口其他交叉口車輛運動預測的不確定性是由以下因素引起的
- 路口使用者的未知意圖:其他路口參與者的運動與自身車輛的未來軌跡高度相關。因此,為了實現安全的路口導航,必須獲得路口用戶的精確運動預測。推斷意圖的主要困難來自于未知當前狀態和隱藏變量的內在不確定性,即未知的最終目的地及其不可預見的未來縱向路徑,以及它們與主體車輛交互的可能性。
- 傳感器觀測的噪聲特性:從安裝的傳感器收集的測量值相關的噪聲為決策問題增加了另一層不確定性。
- 環境遮擋、感知受限:環境障礙和遮擋會阻礙準確觀察場景的能力。
下圖展示了在四向無信號交叉口這些不確定性的來源示例。在設計復雜交叉路口環境中基于學習的決策方案時考慮這些不確定性對于自車安全穿越交叉路口至關重要。
在交叉路口穿越場景中,自主車輛需要處理與接近車輛相關的幾種不確定性
駕駛員意圖推理
準確推斷和預測無信號交叉口處駕駛員的意圖對于解決事故原因和確保如此多樣化的多智能體環境中的道路安全至關重要。為了開發DII應用的算法,人們進行了多項研究。這些算法將意圖推理問題作為分類問題來解決,其中意圖根據駕駛行為進行分類,這些DII方法可以分為兩類:基于索引的方法和基于學習的方法。在基于索引的方法中,安全指標用于檢查交叉路口的駕駛行為,以制定風險評估方案。另外一類基于經典機器學習分類技術也已被用于意圖推理應用當中。
近年來,受建模序列任務方面的有效性的啟發,研究人員采用了深度結構化的循環神經網絡來確定無信號交叉口處駕駛員的意圖。下表總結了所調查的基于深度學習的意圖推理方案,強調了它們的研究目標和重要特性。
決策挑戰
由于深層結構神經網絡在處理大型部分可觀察狀態-動作空間方面的優勢,主要研究方向是開發基于學習的方案,以解決與自主穿越無信號交叉口相關的問題。因此,我們主要調研并介紹開發基于學習的不確定性決策算法所涉及的主要設計挑戰,以及對相關最新解決方案的回顧。
(1)部分可觀測性
在真實的多智能體自動駕駛環境中,智能體對其所交互的環境的信息不完整。因此,在這樣的環境中設計一個強大的決策框架被認為是一個棘手的問題。在實際過程中,這類問題通常被建模為POMDP,學習一種駕駛策略以提供安全的操作,同時考慮到推斷意圖和運動規劃過程中固有的隨機性。下圖展示了利用設計的LSTM網絡架構來處理POMDP并表示四向停車無信號交叉口的決策問題。
通過上圖可以看出,每個時間戳的動作輸出是根據每個單獨時間戳中網絡的第一個LSTM和全連接層的觀察輸入獲得的。隨后,通過將前一步處的動作與當前步驟的觀察作為第二個LSTM和全連接層的輸入來生成Q值。
(2)連續動作空間中的訓練
在現實的自動駕駛中,需要自主代理的持續動作才能安全、高效地完成導航任務。為了確保所用模型和能力的收斂性,我們必須以魯棒的方式來處理這些連續的空間。某些研究者采用了深度確定性策略梯度DDPG,用于在四向無信號交叉口環境中生成連續動作,而不是離散的動作。
下圖展示了利用深度強化學習與基于安全的連續控制相結合的方法,用于學習自動駕駛和防撞應用的最佳策略。由于這類集成策略很好的證明了在學習高速公路無碰撞駕駛策略方面的實用性,因此將這種高級深度強化學習方案與控制律相結合對于解決無信號交叉口框架內的連續控制問題至關重要。
既實現了基于Value的方法,又實現了基于Policy方法的示意圖
(3)在高維狀態-動作空間中進行訓練
深度強化學習的核心是執行迭代優化過程來學習特定任務的策略。然而,隨著狀態-動作空間變大,迭代次數會呈指數增長。相關論文中提出一種CPPO網絡框架,用于增強無信號交叉口自動駕駛汽車的標準PPO算法,詳細的網絡結構如下圖所示。
此外,還有一些工作是基于圖網絡進行實現的,但是某些論文中提出,當前基于圖的方法的局限性,這些方法無法涵蓋整個道路網絡,并且過度依賴手工制作的特征來進行車輛間交互建模,如下圖所示。
通過上圖可以看出,為了解決這些缺點,作者提出了一個框架,該框架可以在異構有向圖中捕獲道路網絡和交通參與者的復雜性。這種表示可以處理不同的元素,例如,各種類型的車輛、行人、騎自行車的人、交通標志等及其獨特的屬性,從而捕捉道路網絡及其用戶的復雜性,而傳統圖表可能無法捕捉到全部范圍并依賴于靜態的手工制作的特征。然后,該圖被巧妙地轉換為具有可學習邊緣的更簡單的車輛圖,表示連接車輛的路線。這使得強化學習算法能夠在簡化但有效的環境表示上運行,重點關注車輛在道路上行駛時的動態交互。相關的實驗驗證表明,具有可學習邊緣特征的所提方案的性能得到了顯著改善。這種增強表明車輛關系的表示更有效。
討論和研究方向
根據相關論文的深入調查,可以得出結論,最先進的決策方案側重于高級決策層,即行為路徑規劃的高級推理,而忽略了先前提出的其他低級層,包括低級運動規劃和控制。此外,沒有研究在真實駕駛環境中的實施和測試。實際上,由于領域不匹配,基于模擬的環境中強化模型的收斂并不一定能確保在現實場景中的可推廣性。現實世界的觀察在相關噪聲序列和車輛動力學響應方面有所不同。因此,我們建議基于這些見解來進行相關研究的途徑,以期推動研究領域的發展。
運動規劃與低級控制集成
許多研究論文利用MPC原理探討了城市無信號交叉口的運動規劃問題和控制。從實際角度來看,在城市自動駕駛中實現精確決策需要將考慮車輛動力學的運動規劃和低級控制層與基于強化學習的行為規劃器相結合。這種集成對于確保基于強化學習的行為規劃器操作可行至關重要。因此,在學習交叉路口穿越策略時結合運動規劃層將確保可行的操作和高保真度,同時考慮到橫向和縱向動力學。
此外,我們也將基于SAC的行為路徑規劃層與基于MPC的運動規劃層的集成論文匯總在了下表中,該類方法可以實現更快的收斂速度和更高的成功率。
正如我們強調的分層決策的重要性,它集成了決策層,用于在復雜的多智能體環境中學習遍歷策略,這些原則可以應用于應對更復雜的無信號交叉口環境所帶來的挑戰,這些交叉口環境的特點是遮擋和環境障礙阻礙了準確感知的實現。此外,在具有各種形狀和幾何形狀的交叉口環境中,還有潛力提高模型的準確性和導航能力。
真實世界實驗驗證
如下表所示,大多數回顧過的方案都已在基于模擬的環境中進行了測試。這可能是有效的,因為強化學習技術需要收集大量基于現實世界的訓練數據,這會耗費大量的精力和時間。
實際上,從建模傳感器流式傳輸的模擬觀測數據與真實數據具有不同的數據分布,這可能導致無法在未見過的真實數據上進行泛化。模擬數據分布與真實數據分布之間的差異,例如合成圖像生成或車輛動力學中的不準確性,被稱為現實差距。眾所周知,在沒有明確考慮現實差距的情況下,在模擬中訓練的代理很難遷移到真實環境。為了糾正這個問題,引入了模擬到真實的遷移學習技術,以進一步促進在真實環境中訓練強化學習方法。本文重點介紹了一些已在現實場景中得到驗證的技術,以及認為在理論上或在機器人技術的其他領域很有前景但需要在現實場景中真實大小的車輛進行實驗驗證的其他技術。在那些具有驗證結果的技術中,我們引入了域隨機化和域自適應。雖然沒有在模擬之外進行測試,但對抗性強化學習技術表現出對環境擾動的改進的魯棒性。
受到GAN的啟發,人們甚至可以對抗性地擾亂環境,以誤導和破壞代理的穩定性。這種行為如下圖所示,在自動駕駛中尤為明顯,因為自動駕駛參與者的出錯率預計遠低于人類錯誤率。此外,自動駕駛駕駛員必須以人類從高層決策角度認可的方式行事。因此,風險規避算法是必要的,以避免可能被視為不必要的風險和危險。
如上圖的子圖(b)所示,基線算法將傾向于風險更高的駕駛習慣。隨著方案的引入,訓練有素的代理的表現更符合人類的行為和決策,如子圖(d)和(e)所示。
結論
本論文整體回顧了與無信號交叉口決策相關的挑戰的各個方面,重點關注基于學習的相關算法模型。從解決的駕駛場景、所涉及的挑戰、提出的基于學習的設計以及在模擬和現實環境中的驗證等方面討論了這些工作。