SafeDrive:大語言模型實現(xiàn)知識驅(qū)動和數(shù)據(jù)驅(qū)動的風險-敏感決策
2024年12月來自USC、U Wisconsin、U Michigan、清華大學(xué)和香港大學(xué)的論文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。
自動駕駛汽車 (AV) 的最新進展利用大語言模型 (LLM) 在正常駕駛場景中表現(xiàn)良好。然而,確保動態(tài)、高風險環(huán)境中的安全并管理,對安全至關(guān)重要的長尾事件仍然是一項重大挑戰(zhàn)。為了解決這些問題,SafeDrive,一個知識驅(qū)動和數(shù)據(jù)驅(qū)動的風險-敏感決策框架,提高 AV 的安全性和適應(yīng)性。所提出的框架引入一個模塊化系統(tǒng),包括:(1) 一個風險模塊,用于全面量化涉及駕駛員、車輛和道路相互作用的多因素耦合風險;(2) 一個記憶模塊,用于存儲和檢索典型場景以提高適應(yīng)性;(3) 一個由 LLM 驅(qū)動的推理模塊,用于情境-覺察的安全決策;(4) 一個反思模塊,用于通過迭代學(xué)習(xí)完善決策。
通過將知識驅(qū)動的洞察力與自適應(yīng)學(xué)習(xí)機制相結(jié)合,該框架可確保在不確定條件下做出穩(wěn)健的決策。對以動態(tài)和高風險場景為特征的真實交通數(shù)據(jù)集,包括高速公路(HighD)、交叉路口(InD)和環(huán)形交叉路口(RounD),進行廣泛評估可驗證該框架能夠提高決策安全性(實現(xiàn) 100% 的安全率)、復(fù)制類似人類的駕駛行為(決策一致性超過 85%)并有效適應(yīng)不可預(yù)測的場景。
風險量化。風險量化對于 AV 的防撞至關(guān)重要。考慮車輛動力學(xué)的經(jīng)典方法,例如碰撞時間 (TTC) [12]、車頭時距 (THW) [13]、反應(yīng)時間 (TTR) [14] 和車道交叉時間 (TLC) [15],由于其簡單易行,廣泛應(yīng)用于交通場景中。然而,這些方法在動態(tài)、多維環(huán)境中往往不足,因為在這種環(huán)境中,風險因素變化迅速且相互作用復(fù)雜 [13]。為了解決這些限制,Mobileye 的 Shalev-Shwartz 提出責任敏感安全 (RSS) [16],這是一種旨在提供更具解釋性的白盒子安全保障的模型。然而,仍然存在一些難題,例如確定大量參數(shù)。
為了克服這些限制,已經(jīng)提出先進的方法。人工勢場 (APF) 方法 [17] 使用勢場來模擬車輛風險,從而實現(xiàn)基本的防撞。Gerdes [18] 通過結(jié)合車道標記來擴展 APF,以創(chuàng)建詳細的風險地圖。Wang [19]、[20] 將道路潛能場與車輛動力學(xué)和駕駛員行為相結(jié)合,提高風險模擬的準確性,并降低復(fù)雜場景中的碰撞風險。然而,這些方法往往側(cè)重于當前交通狀態(tài),依賴于眾多參數(shù),并且在不確定的環(huán)境中缺乏適應(yīng)性。Kolekar [21] 引入駕駛員風險場 (DRF),這是一個二維模型,它結(jié)合基于概率信念的駕駛員主觀風險感知。通過整合主觀風險評估,這些改進的 APF 和 DRF 方法更好地模擬交通系統(tǒng)動態(tài)并增強多維風險評估。然而,Kolekar [22] 提出的 DRF 僅考慮行駛方向(車輛前向半圓)的風險,無法提供全面的全方位風險量化。
決策中的 LLM。決策對于自動駕駛至關(guān)重要,因為它直接決定車輛能否安全有效地在復(fù)雜、動態(tài)和高沖突的交通場景中行駛 [23]。傳統(tǒng)的數(shù)據(jù)驅(qū)動決策方法存在固有的局限性。這些算法通常被視為黑匣子,它們對數(shù)據(jù)偏差的敏感性、處理長尾場景的困難以及缺乏可解釋性,這些都對為其決策提供人類可理解的解釋提出重大挑戰(zhàn),尤其是在適應(yīng)數(shù)據(jù)稀缺的長尾場景時 [24][25]。
LLM 的進步為解決自動駕駛中的決策挑戰(zhàn)提供寶貴的見解。LLM 展示人類水平的感知、預(yù)測和規(guī)劃能力 [26]。當 LLM 與矢量數(shù)據(jù)庫作為內(nèi)存結(jié)合使用時,它們在某些領(lǐng)域的分析能力得到顯著增強 [27]。Li 提出知識驅(qū)動的自動駕駛概念,表明 LLM 可以通過常識知識和駕駛經(jīng)驗增強現(xiàn)實世界的決策能力 [28]。Weng 提出 DiLu 框架,該框架將推理和反思相結(jié)合,實現(xiàn)知識驅(qū)動、不斷發(fā)展的決策,其表現(xiàn)優(yōu)于強化學(xué)習(xí)方法 [29]。Jiang 以 DiLu 為基礎(chǔ),開發(fā)一個知識驅(qū)動的自動駕駛多智體框架,證明其在各種駕駛?cè)蝿?wù)中的效率和準確性 [30]。Fang [31] 專注于在不同場景中使用 LLM 作為協(xié)作駕駛的智體。
最近的進展也凸顯 LLM 在多模態(tài)推理方面的潛力。Hwang [32] 引入 EMMA,這是一種使用預(yù)訓(xùn)練 LLM 進行運動規(guī)劃的端到端多模態(tài)模型,通過 nuScenes 和 WOMD 取得最佳效果。然而,它對圖像輸入的依賴和高計算成本帶來挑戰(zhàn)。Sinha [33] 提出一個兩階段框架,將快速異常分類器與后備推理相結(jié)合,用于實時異常檢測和反應(yīng)性規(guī)劃,并在模擬中展示穩(wěn)健性。這些研究強調(diào) LLM 在 AV 決策中的潛力,其中實時推理和適應(yīng)性至關(guān)重要。然而,大多數(shù)研究都集中在簡單的場景上,缺乏在高沖突環(huán)境中的適應(yīng)性。
SafeDrive 是一個基于 LLM 的知識和數(shù)據(jù)驅(qū)動的風險敏感決策框架,如圖所示。SafeDrive 結(jié)合自然駕駛數(shù)據(jù)和高風險場景,使 AV 能夠在復(fù)雜、動態(tài)的環(huán)境中做出自適應(yīng)的安全決策。
該框架從大量數(shù)據(jù)輸入開始(圖 a),將所有道路使用者、所有條件場景和全覆蓋數(shù)據(jù)組合成一個典型和高風險駕駛場景的綜合數(shù)據(jù)庫。在耦合風險量化模塊(圖 b)中,包括成本圖和多維風險字段在內(nèi)的高級風險建模動態(tài)量化風險,為決策提供詳細的輸入。LLM 決策模塊(圖 c)使用數(shù)據(jù)驅(qū)動的生成、風險先驗知識和思維鏈 (CoT) 推理來生成實時的風險敏感決策。此外,自適應(yīng)記憶更新,可確??梢曰貞浧痤愃频慕?jīng)驗來改進決策過程。這些決策嵌入到風險-敏感駕駛智體(圖 d)中,其提供準確的風險警告,回顧過去的經(jīng)驗并做出自適應(yīng)決策。自我調(diào)整系統(tǒng)確保實時識別風險,并通過閉環(huán)反思機制持續(xù)更新駕駛策略。
總體而言,SafeDrive 增強實時響應(yīng)能力、決策安全性和適應(yīng)性,應(yīng)對高風險、不可預(yù)測場景中的挑戰(zhàn)。
耦合風險量化
RQ1. 如何有效地對安全-緊要環(huán)境中的耦合風險進行建模和量化?
感知風險的概念由 Naatanen & Summala [34] 定義,是事件發(fā)生的主觀概率與該事件后果的乘積。本文采用一種動態(tài)駕駛員風險場 (DRF) 模型,該模型可適應(yīng)車輛速度和轉(zhuǎn)向動態(tài),該模型受到 Kolekar [21-22] 的啟發(fā)。DRF 表示駕駛員對未來位置的主觀信念,在靠近自車時分配更高的風險,并隨著距離的增加而降低。事件后果通過根據(jù)場景中目標的危險程度為其分配實驗確定的成本來量化,與主觀評估無關(guān)。整體量化感知風險 (QPR) 計算為所有網(wǎng)格點的事件成本和 DRF 的總和。這種方法有效地捕捉駕駛員感知和行動中的不確定性,提供駕駛風險的全面衡量標準。
駕駛員風險場。這項工作擴展 DRF,使其能夠考慮基于車速和轉(zhuǎn)向角的動態(tài)變化。DRF 使用運動學(xué)汽車模型計算,其中預(yù)測路徑取決于車輛的位置 (x/car, y/car)、航向 φ/car 和轉(zhuǎn)向角 δ。假設(shè)轉(zhuǎn)向角恒定,預(yù)測行駛弧的半徑由以下公式給出:R/car = L / tan(δ), 其中 L 是汽車的軸距。利用車輛的位置和圓弧半徑,可以找到轉(zhuǎn)彎圓心 (x/c , y/c ),然后計算圓弧長度 s,表示沿路徑的距離。
DRF 被建模為具有高斯橫截面的環(huán)面。環(huán)境中的每個目標都分配有一個成本,從而創(chuàng)建一個成本圖。該圖通過元素乘法與 DRF 相結(jié)合,并在網(wǎng)格上求和以計算量化感知風險(QPR)。
該指標反映駕駛員對潛在事故發(fā)生可能性和嚴重程度的感知,將主觀感知與客觀風險量化相結(jié)合。
全方位風險量化。傳統(tǒng)的駕駛員風險場 (DRF) 僅關(guān)注面向前方的半圓。為了實現(xiàn)自動駕駛的現(xiàn)實風險評估,本文模型將其擴展到 360 度視角,同時納入前后車輛的風險。通過包括后車的 DRF 及其與自車的碰撞成本,從各個角度創(chuàng)建統(tǒng)一的風險狀況,增強現(xiàn)場覺察和安全性。
該方法不僅計算總體風險,還評估每個參與者的具體風險屬性。這樣可以識別出那些構(gòu)成更大危險的,從而更有針對性地識別和警告風險。
風險-敏感的 LLM 決策
RQ2. 如何引導(dǎo)基于 LLM 的智體獲得安全且類似人類的駕駛行為?
基于之前介紹的自動駕駛系統(tǒng)風險量化和先前知識驅(qū)動范式,利用大模型的推理能力提出 SafeDrive,這是一個知識具大和數(shù)據(jù)驅(qū)動的框架,如圖所示。本文中,GPT-4 充當決策智體,驅(qū)動推理過程并生成動作。用來自現(xiàn)實世界數(shù)據(jù)集的手動注釋場景描述,并與下一幀動作配對作為真值標簽,包括 HighD(高速公路)、InD(城市交叉路口)和 RounD(環(huán)形交叉路口)。這些描述提供環(huán)境背景,例如周圍車輛的 ID、位置和速度,使 GPT-4 能夠解釋環(huán)境并支持推理和決策。
SafeDrive 架構(gòu)包含四個核心模塊:風險模塊、推理模塊、記憶模塊和反思模塊。該過程是迭代的:推理模塊根據(jù)系統(tǒng)消息、場景描述、風險評估做出決策并存儲類似的記憶;反思模塊評估決策并提供自我反思過程;記憶模塊存儲正確的決策以供將來檢索。使用三個真實世界數(shù)據(jù)集作為輸入,這個自學(xué)習(xí)循環(huán)提高決策的準確性和處理多樣化復(fù)雜場景的適應(yīng)性?;?LLM 的整體決策算法如算法 1 所示。
如圖所示,在動態(tài)場景中,SafeDrive 接收用戶導(dǎo)航指令和場景描述,實時評估周圍車輛的風險屬性(例如 QPR 值)、位置和速度。然后,系統(tǒng)利用 LLM 推理和歷史記憶進行可行性檢查、車道評估和決策,以確定最安全的操作,例如變道??傮w而言,通過將多維風險量化與 GPT-4 的推理相結(jié)合,SafeDrive 可提供實時、風險敏感的決策。在高速公路和交叉路口等高風險場景中,它會識別不安全行為并做出自適應(yīng)決策(例如減速或轉(zhuǎn)彎)。閉環(huán)反射機制確保持續(xù)優(yōu)化,增強響應(yīng)能力、適應(yīng)性和安全性。
風險模塊。風險模塊根據(jù)上述風險量化模型和定義的閾值為每個參與者生成詳細的文本風險評估。這些閾值是通過實驗確定的,考慮到風險分布和常見的安全標準,解決縱向和橫向風險。這種整合確保在決策中更加謹慎,指導(dǎo) GPT-4 駕駛智體有效避免或減輕不安全行為。
推理模塊。推理模塊通過三個關(guān)鍵組件促進系統(tǒng)決策過程。它從一條系統(tǒng)消息開始,該消息定義 GPT-4 駕駛智體的角色,概述預(yù)期的響應(yīng)格式,并強調(diào)決策的安全原則。在收到由場景描述和風險評估組成的輸入后,該模塊與記憶模塊交互以檢索類似的成功過去樣本及其正確的推理過程。最后,動作解碼器將決策轉(zhuǎn)換為針對自身車輛的具體動作,例如加速、減速、轉(zhuǎn)彎、變道或保持空轉(zhuǎn)。這種結(jié)構(gòu)化方法可確保做出明智且有安全意識的決策。
記憶模塊。記憶模塊是系統(tǒng)的核心組件,它通過利用過去的駕駛經(jīng)驗來增強決策能力。它使用 GPT 嵌入將矢量化場景存儲在矢量數(shù)據(jù)庫中。數(shù)據(jù)庫使用一組手動創(chuàng)建的樣例進行初始化,每個樣例都包含場景描述、風險評估、模板推理過程和正確操作。遇到新場景時,系統(tǒng)通過使用相似度分數(shù)匹配矢量化描述來檢索相關(guān)經(jīng)驗。在決策過程之后,新樣本將添加到數(shù)據(jù)庫中。這個動態(tài)框架支持持續(xù)學(xué)習(xí),使系統(tǒng)能夠適應(yīng)不同的駕駛條件。
反思模塊。反思模塊評估并糾正駕駛智體做出的錯誤決定,啟動思考過程,思考智體為什么選擇錯誤的動作。修正后的決策及其推理會被儲存在記憶模塊中,作為參考,以防止將來再次出現(xiàn)類似的錯誤。該模塊不僅允許系統(tǒng)不斷演進,還為開發(fā)人員提供詳細的日志信息,使他們能夠分析和改進系統(tǒng)消息,以改進智體的決策邏輯。