像人類一樣開車:大語言模型重新思考自動駕駛
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
這是7月份采用大語言模型研究自動駕駛的論文“Drive Like a Human: Rethinking Autonomous Driving with Large Language Models“,來自上海AI實驗室和華東師范。
本文探討用大型語言模型(LLM)以類似人類的方式理解駕駛環(huán)境的潛力,并分析其在面對復(fù)雜場景時的推理、解釋和記憶能力。傳統(tǒng)的基于優(yōu)化和模塊化的自動駕駛(AD)系統(tǒng)在處理長尾極端情況時面臨固有的性能限制。為了解決這個問題,作者思考一個理想的AD系統(tǒng)應(yīng)該像人一樣駕駛,通過連續(xù)駕駛積累經(jīng)驗,用常識解決問題。為了實現(xiàn)這一目標,確定AD系統(tǒng)所需的三個關(guān)鍵能力:推理、解釋和記憶。通過構(gòu)建閉環(huán)系統(tǒng)來展示LLM在駕駛場景中使用LLM的可行性,展示其理解和環(huán)境交互能力。
如圖就是GPT-3.5 在 高速環(huán)境中進行閉環(huán)駕駛的示意圖:(a) GPT-3.5 用感知工具觀察高速環(huán)境并做出控制車輛的決策,形成閉環(huán)。(b) GPT-3.5 采用 ReAct 策略(來自論文“React: Synergizing reasoning and acting in language models”. arXiv 2210.03629)來規(guī)劃動作和使用工具,同時通過思考、行動和觀察的循環(huán)來感知周圍環(huán)境。
與人類一樣,GPT-3.5 在駕駛時評估其行為的潛在后果,并權(quán)衡結(jié)果以做出最明智的決定。與廣泛使用的基于強化學(xué)習(xí) (RL) 和基于搜索的方法不同,GPT-3.5 不僅可以解釋場景和操作,還可以利用常識來優(yōu)化其決策過程。
與基于 RL 的方法相比,GPT-3.5 在 高速環(huán)境中實現(xiàn)了超過 60% 的零樣本通過率,無需任何微調(diào)。相比之下,基于 RL 的方法嚴重依賴多次迭代來實現(xiàn)有競爭力的性能。例如,如圖(a)所示,由于碰撞受到嚴厲懲罰,基于RL的智體學(xué)習(xí)了一種策略,為了防止碰撞,在開始時減速,為隨后的加速創(chuàng)造廣闊的空間。這表明基于RL的方法經(jīng)常產(chǎn)生這種意想不到的解決方案?;谒阉鞯姆椒ㄍㄟ^優(yōu)化目標函數(shù)來做出決策,忽略函數(shù)中未提及的未定義部分。如圖(b)所示,基于搜索的智體可能會表現(xiàn)出激進的變道行為以實現(xiàn)高駕駛效率,從而增加碰撞風(fēng)險。此外,即使沒有其他車輛在前方,基于搜索的方法也可能進行無意義的變道操作。這可能是因為,對于基于搜索的智體來說,在安全的前提下,變道和保持速度在目標功能中具有同等的優(yōu)先級。因此,智體隨機選擇其中一個操作。
總之,基于RL和基于搜索的方法都不能真正像人類一樣思考和駕駛,因為缺乏常識、解釋場景以及權(quán)衡利弊的能力。相比之下,GPT-3.5 可以解釋每個動作的后果,通過提供提示,可以使 GPT-3.5 以價值為導(dǎo)向、并做出更像人類的決策。
雖然人類駕駛員和以前基于優(yōu)化的AD系統(tǒng)都擁有基本的駕駛技能,但根本區(qū)別在于人類對世界有常識性的理解。常識是,從日常生活中積累的對周圍發(fā)生的事情做合理而實用的判斷[11]。有助于駕駛的常識可以從日常生活的各個方面得出。當出現(xiàn)新的駕駛情況時,人類駕駛員可以根據(jù)常識快速評估場景并做出合理的決定。相比之下,傳統(tǒng)的AD系統(tǒng)可能在駕駛領(lǐng)域有經(jīng)驗,但缺乏常識,因此無法應(yīng)對這種情況。
像GPT-3.5這樣的LLM已經(jīng)接受了大量自然語言數(shù)據(jù)的訓(xùn)練,并且對常識了如指掌[2]。這標志著與傳統(tǒng)AD方法的重大背離,使LLM能夠像人類駕駛員一樣用常識推理復(fù)雜的駕駛場景。
如圖所示,兩張相似但不同的照片被輸入LLM。第一張照片描繪了一輛皮卡車在卡車車廂里攜帶幾個交通錐前往目的地。第二張照片還描繪了一輛皮卡的卡車車廂里有交通錐,但周圍地面上散落著其他交通錐。由于 GPT-3.5 缺乏處理包括圖像在內(nèi)的多模態(tài)輸入的能力,文中用 LLaMA-Adapter v2 視覺指令模型(來自論文“Llama-adapter v2: Parameter-efficient visual instruction model“,arXiv 2304.15010)作為圖像處理前端。指示LLaMA Adapter盡可能詳細地描述照片。然后將此描述用作觀察,要求 GPT-3.5 評估該場景是否具有潛在危險,并為假設(shè)跟隨卡車的自車做出決定。在圖(a)中描述的第一個案例中,LLaMA-Adapter識別出照片中的皮卡車攜帶多個交通錐,并推斷它可能正在將它們運送到目的地?;谶@些觀察結(jié)果,GPT-3.5 成功分析了駕駛場景。GPT-3.5 沒有被交通錐的存在所誤導(dǎo),而是認為這種情況是無害的,基于卡車將貨物運送到目的地是很常見的。GPT-3.5 建議自車沒有必要減速,并警告說不必要的減速可能對交通流量造成危險。對于圖(b)中描述的第二個案例,交通錐不僅在卡車車廂內(nèi),而且散落在地面上,用LLaMA-Adapter準確表示這個內(nèi)容。盡管與第一個案例略有不同,但 GPT-3.5 的反應(yīng)截然相反。它認為這種情況具有潛在的危險,因為卡車周圍散落的交通錐,并建議自車減速并保持一定距離,避免與這些交通錐發(fā)生任何碰撞。
以上的例子展示了LLM在駕駛場景中強大的零樣本理解和推理能力。利用常識知識,不僅讓LLM能夠更好地理解場景中的語義信息,還能讓其做出更理性的決策,更符合人類的駕駛行為。因此,擁有常識知識可以提高自動駕駛系統(tǒng)能力的上限,使其能夠處理未知的長尾情況,真正接近人類駕駛員的駕駛能力。
持續(xù)學(xué)習(xí)[28]是人類駕駛的另一個關(guān)鍵方面。新手司機在遇到復(fù)雜的交通狀況時,由于經(jīng)驗有限,通常會謹慎駕駛。隨著時間的推移,隨著駕駛經(jīng)驗的積累,駕駛員會遇到新的交通場景,發(fā)展新的駕駛技能,并鞏固他們以前的經(jīng)驗,最終成為經(jīng)驗豐富的駕駛員。基于優(yōu)化的方法旨在通過獲取越來越多的失敗案例并重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)來模仿持續(xù)學(xué)習(xí)的過程。然而,這種方法不僅乏味且昂貴,而且從根本上無法實現(xiàn)持續(xù)學(xué)習(xí)。常規(guī)駕駛和長尾極端情況案例之間的分布差異對平衡兩者構(gòu)成了重大挑戰(zhàn),最終導(dǎo)致“災(zāi)難性遺忘”。因此,需要一種更有效的方法來實現(xiàn)自動駕駛系統(tǒng)中真正的持續(xù)學(xué)習(xí)。
下圖給出了記憶過程的示例。該場景涉及一輛藍色自車和一輛黃車在一條略寬于汽車兩倍的狹窄車道上在相反方向相遇。將場景轉(zhuǎn)換為結(jié)構(gòu)化文本輸入GPT-3.5后,模型很好地理解了場景,包括車輛的狀態(tài)、方向和目的地。然而,當要求它對場景做出決定時,GPT-3.5 給出了一個安全但過于謹慎的建議,即自車應(yīng)該停下來等待另一輛車先通過。為了提高LLM的性能,專家就人類駕駛員如何處理這種情況提供了實用的建議,其中包括保持汽車移動并將其稍微向左輕推。LLM然后認識到有足夠的空間讓兩輛車通過,減速可能會擾亂交通流量。它將情況總結(jié)為“同一車道上的兩輛車相互靠近”,并記錄記憶以及正確的決定。利用這些記憶,輸入了另一個場景,即兩輛車以不同的速度和位置在狹窄的小巷中相遇,并要求LLM做出決定。LLM成功地認識到這只是“同一車道上的兩輛車相互靠近”決策場景的另一種變型,并建議自車繼續(xù)行駛而不需減速等待,是一種安全的辦法。
記憶能力不斷收集駕駛案例以獲得經(jīng)驗,并通過檢索現(xiàn)有記憶來輔助決策,賦予LLM在自動駕駛領(lǐng)域的持續(xù)學(xué)習(xí)能力。此外,這大大降低了LLM在類似情況下的決策成本,并提高了其實際性能。
原文鏈接:https://mp.weixin.qq.com/s/DQpGuGWAona7JHKlQuA3eQ