理解老司機(jī)，超越老司機(jī)！LeapAD：具身智能加持下的雙過(guò)程自駕系統(tǒng)（上海AI Lab等）

作者：Jianbiao Mei等 2024-06-04 09:48:14

今天為大家分享知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛新工作——LeapAD。LeapAD將心理學(xué)上的雙過(guò)程理論應(yīng)用到自動(dòng)駕駛領(lǐng)域，結(jié)合了常識(shí)知識(shí)和大語(yǔ)言模型，實(shí)現(xiàn)閉環(huán)自動(dòng)駕駛決策制定并擁有持續(xù)進(jìn)化的能力。通過(guò)不斷對(duì)環(huán)境的交互積累經(jīng)驗(yàn)，自我反思糾正錯(cuò)誤的決策，從而實(shí)現(xiàn)持續(xù)學(xué)習(xí)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

論文信息

論文題目：Continuously Learning, Adapting, and, Improving: A Dual-Process Approach to Autonomous Driving
論文發(fā)表單位：浙江大學(xué)，上海人工智能實(shí)驗(yàn)室，華東師范大學(xué)
論文地址：https://arxiv.org/abs/2405.15324
代碼地址：https://github.com/PJLab-ADG/LeapAD

研究動(dòng)機(jī)

最近的數(shù)據(jù)驅(qū)動(dòng)方法在自動(dòng)駕駛領(lǐng)域取得了巨大的成功，然而，這些方法在很大程度上依賴于訓(xùn)練數(shù)據(jù)分布，它們主要是對(duì)觀察到的模式進(jìn)行歸納，而沒(méi)有推論的能力。自動(dòng)駕駛算法雖然能學(xué)會(huì)一些模式，但在遇到復(fù)雜情況時(shí)，它可能會(huì)做出錯(cuò)誤的判斷，因?yàn)樗鼪](méi)有理解底層的語(yǔ)義信息和事物之間的關(guān)系。這就好比是，讓一個(gè)只見(jiàn)過(guò)斑點(diǎn)狗的人來(lái)描述所有狗的外貌，可能會(huì)有些不準(zhǔn)確。因此，迫切需要一種能夠?qū)ξ匆?jiàn)過(guò)的場(chǎng)景進(jìn)行推理并以人類認(rèn)知方式利用駕駛知識(shí)的系統(tǒng)。

我們?nèi)祟悓W(xué)習(xí)開(kāi)車的過(guò)程其實(shí)是個(gè)不斷嘗試和學(xué)習(xí)的過(guò)程。人類司機(jī)會(huì)根據(jù)周圍的情況作出決定，然后根據(jù)反饋來(lái)調(diào)整駕駛行為。這是因?yàn)槿祟惖拇竽X有兩套系統(tǒng)在協(xié)同工作：1) 一個(gè)是快速、基于經(jīng)驗(yàn)的，就好像是直覺(jué)——啟發(fā)式過(guò)程（系統(tǒng)-I）；2) 另一個(gè)是緩慢、理性的，更像是邏輯推理——分析過(guò)程（系統(tǒng)-II）。這兩種思維方式在我們學(xué)習(xí)開(kāi)車的過(guò)程中都發(fā)揮了作用。

剛開(kāi)始學(xué)開(kāi)車的時(shí)候，我們很依賴常識(shí)和直覺(jué)。通過(guò)不斷的練習(xí)和試錯(cuò)，我們逐漸培養(yǎng)出開(kāi)車的技能，并且開(kāi)始更理性地思考我們的行為。隨著時(shí)間的推移，這些技能變成了習(xí)慣，就像是肌肉記憶一樣，讓我們?cè)谑煜さ穆窙r下可以快速、本能地做出反應(yīng)。即使我們拿到駕照后，我們還會(huì)通過(guò)日常的駕駛和意外事故來(lái)不斷學(xué)習(xí)，不斷提高我們的駕駛技能。

基于雙過(guò)程理論的自動(dòng)駕駛系統(tǒng)

基于上述動(dòng)機(jī)，我們開(kāi)發(fā)了一個(gè)具有不斷學(xué)習(xí)、適應(yīng)和改進(jìn)能力的雙過(guò)程閉環(huán)自動(dòng)駕駛系統(tǒng)——LeapAD。與人類的注意力機(jī)制類似，LeapAD中的場(chǎng)景理解模塊主要關(guān)注可能影響駕駛決策的關(guān)鍵物體，簡(jiǎn)化環(huán)境描述和決策過(guò)程。基于場(chǎng)景理解模塊提供的環(huán)境描述，我們?cè)O(shè)計(jì)了一個(gè)模擬人類認(rèn)知過(guò)程的雙過(guò)程決策模塊，包括啟發(fā)式過(guò)程和分析過(guò)程。通過(guò)閉環(huán)實(shí)驗(yàn)，分析過(guò)程積累經(jīng)驗(yàn)并構(gòu)建包含高質(zhì)量駕駛決策的可轉(zhuǎn)移記憶庫(kù)。這些知識(shí)可以適應(yīng)各種場(chǎng)景并能夠遷移到啟發(fā)式過(guò)程中，用于后續(xù)的閉環(huán)決策。當(dāng)交通事故發(fā)生時(shí)，分析過(guò)程介入并分析歷史事件并更新記憶庫(kù)，使系統(tǒng)能夠通過(guò)自我反思不斷改進(jìn)。

LeapAD框架介紹

如下圖所示，LeapAD由3部分組成：（1）用于場(chǎng)景理解的VLM；（2）由分析過(guò)程和啟發(fā)式過(guò)程組成的雙進(jìn)程決策模塊 ；（3）以及用于低級(jí)控制的操作執(zhí)行器。

場(chǎng)景理解模塊：、我們?nèi)祟愒陂_(kāi)車時(shí)會(huì)特別關(guān)注周圍的重要事物，這樣可以避免我們的大腦負(fù)擔(dān)過(guò)重，提高我們的反應(yīng)速度，減少出錯(cuò)的可能性。這種方法有助于我們更專注地駕駛，減少發(fā)生事故的可能。

在LeapAD中，場(chǎng)景理解模塊的設(shè)計(jì)靈感來(lái)源于人類駕駛中的注意力管理，它聚焦于關(guān)鍵對(duì)象，以減少?zèng)Q策過(guò)程中的信息過(guò)載。通過(guò)這種方法，系統(tǒng)能夠快速識(shí)別并理解車輛、自行車、交通信號(hào)、停車標(biāo)志等重要元素，這些元素的詳細(xì)描述有助于駕駛者做出準(zhǔn)確和及時(shí)的反應(yīng)。

基礎(chǔ)視覺(jué)語(yǔ)言模型（VLM）在通用領(lǐng)域表現(xiàn)良好，但在駕駛特定領(lǐng)域的知識(shí)上有所欠缺。因此，我們采取了有監(jiān)督微調(diào)（SFT）策略，利用11K個(gè)經(jīng)過(guò)標(biāo)注的數(shù)據(jù)樣本，對(duì)VLM進(jìn)行訓(xùn)練。這個(gè)過(guò)程讓模型能夠輸出與駕駛決策直接相關(guān)的語(yǔ)言描述，包括：

語(yǔ)義屬性：模型能識(shí)別并描述交通參與者（如車輛和自行車）和交通設(shè)施（如信號(hào)燈和標(biāo)志）的類別。
空間屬性：提供物體的位置信息，如邊界框、車道位置以及與車輛的距離，這對(duì)于避免碰撞至關(guān)重要。
運(yùn)動(dòng)屬性：物體的運(yùn)動(dòng)方向，幫助駕駛者預(yù)測(cè)其可能的動(dòng)向。
行為推理：模型能理解這些物體對(duì)駕駛的影響，比如預(yù)測(cè)它們的行駛意圖，從而支持駕駛者做出相應(yīng)的決策。

通過(guò)這種方式，LeapAD的場(chǎng)景理解模塊不僅提升了對(duì)駕駛環(huán)境的理解，還提高了駕駛者的決策效率和安全性，確保在復(fù)雜駕駛場(chǎng)景中保持靈活和警覺(jué)。

分析過(guò)程：LeapAD的大腦，它像我們?nèi)祟惖睦硇运季S一樣，用邏輯推理來(lái)處理復(fù)雜情況，做出安全的駕駛決策。大語(yǔ)言模型（LLM）通過(guò)在各種數(shù)據(jù)集上進(jìn)行廣泛的預(yù)訓(xùn)練，已經(jīng)囊括了大量的世界知識(shí)，具有很好的推理理解和處理復(fù)雜問(wèn)題的能力。這種能力恰好符合我們對(duì)駕駛場(chǎng)景中分析過(guò)程的需求，因?yàn)闆Q策必須基于深入的環(huán)境分析和情境理解。分析過(guò)程利用 LLM 的強(qiáng)大功能，利用其蘊(yùn)含的世界知識(shí)來(lái)理解場(chǎng)景描述并執(zhí)行高質(zhì)量的駕駛分析和決策。

分析過(guò)程通過(guò)閉環(huán)實(shí)驗(yàn)積累了很多經(jīng)驗(yàn)，就像我們的記憶一樣。這些經(jīng)驗(yàn)可以幫助LeapAD在未來(lái)類似情況下更快速地做出反應(yīng)。我們還引入了反思機(jī)制，就像是用分析過(guò)程來(lái)反思交通事故。就像下面的圖表所示的那樣，當(dāng)系統(tǒng)的啟發(fā)式部分在進(jìn)行閉環(huán)駕駛時(shí)，任何意外事件都會(huì)觸發(fā)反思機(jī)制。在這個(gè)過(guò)程中，分析過(guò)程會(huì)仔細(xì)分析事故發(fā)生前的情況，找出錯(cuò)誤，并提供正確的決策。從這個(gè)反思過(guò)程中得到的見(jiàn)解會(huì)被整合到記憶庫(kù)中，這樣LeapAD就能不斷地從失敗中學(xué)習(xí)，并在未來(lái)的駕駛中做出更加明智、更準(zhǔn)確的決策。

啟發(fā)式過(guò)程：就好比是LeapAD的直覺(jué)，它雖然不像分析過(guò)程那樣能提供非常精確的推理和決策，但它的處理速度非常快，就像我們?nèi)祟愸{駛員的肌肉記憶一樣。通過(guò)不斷的練習(xí)和經(jīng)驗(yàn)，它能夠迅速適應(yīng)各種情況，而且在處理速度上比分析過(guò)程快了很多（在我們的實(shí)驗(yàn)中大約快 5 倍）。為了讓啟發(fā)式過(guò)程更好地應(yīng)用這些經(jīng)驗(yàn)，我們使用了有監(jiān)督微調(diào)（SFT），就像是把知識(shí)內(nèi)化到直覺(jué)中，讓它更好地適應(yīng)各種情況。此外，它通過(guò)一種few-shot策略來(lái)增強(qiáng)對(duì)未曾見(jiàn)過(guò)的場(chǎng)景的處理能力，從而做出更加穩(wěn)健的決策。

在few-shot策略中，啟發(fā)式過(guò)程主要依靠當(dāng)前場(chǎng)景描述與記憶庫(kù)中存儲(chǔ)的描述之間的特征相似性來(lái)檢索相似的駕駛場(chǎng)景。然而，由于場(chǎng)景描述中存在冗余的語(yǔ)言信息，直接根據(jù)原始描述計(jì)算文本相似度使場(chǎng)景之間的區(qū)分變得困難。因此，我們聚焦于關(guān)鍵元素，如對(duì)象類別、車道位置以及與車輛的距離，來(lái)簡(jiǎn)化相似場(chǎng)景的查找過(guò)程。這樣，我們優(yōu)先考慮對(duì)駕駛決策影響重大的元素，提高了相似度計(jì)算的效率和決策的穩(wěn)健性。這種方法有效地減少了冗余信息的影響，使得直覺(jué)在處理新場(chǎng)景時(shí)更加精準(zhǔn)和有效。

實(shí)驗(yàn)結(jié)果

我們?cè)?CARLA仿真中進(jìn)行閉環(huán)實(shí)驗(yàn)，以評(píng)估LeapAD的性能。為了驗(yàn)證有效性，我們?cè)赥own05基準(zhǔn)上進(jìn)行了閉環(huán)駕駛場(chǎng)景的綜合評(píng)估。我們的評(píng)估指標(biāo)包括駕駛分?jǐn)?shù) (DS)、路線完成度 (RC) 和違規(guī)分?jǐn)?shù) (IS)。RC表示代理成功導(dǎo)航的路線的比例，IS表示因事故而受到的處罰。通過(guò)將 RC 乘以 IS，我們獲得了最終的度量 DS，用于評(píng)估我們的方法在路線上的駕駛性能。

如表1所示，LeapAD優(yōu)于所有其他僅依賴相機(jī)傳感器輸入的方法此外，我們的方法超越了TransFuser，后者還利用了 LiDAR 傳感器輸入。

此外，我們還進(jìn)行了一系列的消融實(shí)驗(yàn)來(lái)驗(yàn)證LeapAD的持續(xù)學(xué)習(xí)能力。我們發(fā)現(xiàn)，當(dāng)shot個(gè)數(shù)從0個(gè)增加到3個(gè)，系統(tǒng)的閉環(huán)表現(xiàn)逐步提升。證明了記憶庫(kù)中經(jīng)驗(yàn)的價(jià)值和few-shot這種形式對(duì)反思過(guò)程的有效性。并且我們的實(shí)驗(yàn)還表明隨著記憶庫(kù)大小的增加，性能會(huì)逐漸提高。這進(jìn)一步證明了我們提出的LeapAD的持續(xù)學(xué)習(xí)能力，表明我們的模型的性能可以隨著經(jīng)驗(yàn)的積累而提高。另外我們還從反思過(guò)程和記憶庫(kù)的遷移性兩方面的消融實(shí)驗(yàn)進(jìn)一步證明LeapAD的可持續(xù)學(xué)習(xí)能力。我們選擇了一些得分較低的路線進(jìn)行多輪反思實(shí)驗(yàn)，反思后的經(jīng)驗(yàn)被添加到記憶庫(kù)中。通過(guò)圖 5我們可以看到反思5次后，DS可以從29.34提升到88.89，這證明了反思機(jī)制能夠顯著提高LeapAD的性能。

Demo 示例

下面是幾個(gè)簡(jiǎn)單的閉環(huán)實(shí)驗(yàn)示例：

這段視頻主要展現(xiàn)了我們的模型對(duì)于車禍這種corner case的反應(yīng)。即使訓(xùn)練數(shù)據(jù)中很少有這樣的場(chǎng)景，面對(duì)突發(fā)情況LeapAD也可以及時(shí)制動(dòng)。

這段視頻主要反映了車應(yīng)對(duì)復(fù)雜十字路口的情況，可以看到LeapAD可以輕松跟隨紅綠燈的指示。

這段視頻反映了車輛面對(duì)一些停車標(biāo)識(shí)和突然出現(xiàn)的行人的反應(yīng)。車輛在經(jīng)過(guò)并看到停止信號(hào)時(shí)停止，啟動(dòng)后，面對(duì)橫穿的行人能夠及時(shí)制動(dòng)。

總結(jié)

LeapAD是一套先進(jìn)的自動(dòng)駕駛系統(tǒng)，它具備持續(xù)學(xué)習(xí)、靈活適應(yīng)和不斷優(yōu)化的能力，仿佛賦予了車輛一顆智慧之心。與人類注意力的運(yùn)作機(jī)制相類似，該系統(tǒng)能夠精準(zhǔn)捕捉對(duì)駕駛決策至關(guān)重要的信息，從而有效簡(jiǎn)化駕駛環(huán)境，降低決策過(guò)程中的復(fù)雜性。LeapAD擁有兩種截然不同的決策模式。一種模式依賴于快速且基于經(jīng)驗(yàn)的決策機(jī)制，仿佛人類的直覺(jué)一般迅捷而準(zhǔn)確；而另一種模式則通過(guò)深入細(xì)致的分析推理來(lái)做出決策，就如同人類深思熟慮的過(guò)程。這兩種模式共同協(xié)作，使LeapAD能夠在各種駕駛場(chǎng)景中展現(xiàn)出卓越的性能。不僅如此，LeapAD還具備強(qiáng)大的自我完善能力，能夠不斷學(xué)習(xí)和進(jìn)步。它能夠與現(xiàn)有的智能汽車系統(tǒng)完美地?zé)o縫融合，在車輛運(yùn)行過(guò)程中，LeapAD能夠同時(shí)進(jìn)行雙過(guò)程決策，即在邊緣運(yùn)行中進(jìn)行啟發(fā)式?jīng)Q策，同時(shí)又能借助云端處理更為復(fù)雜的駕駛場(chǎng)景。這種獨(dú)特的能力使得LeapAD在自動(dòng)駕駛領(lǐng)域脫穎而出，為未來(lái)的智能交通發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)，為人們提供更為安全、舒適的駕乘體驗(yàn)。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心