下一代自動駕駛系統,少不了大模型,系統調研來了
隨著大語言模型 (LLM) 和視覺基礎模型 (VFM) 的出現,受益于大模型的多模態人工智能系統有潛力像人類一樣全面感知現實世界、做出決策。在最近幾個月里,LLM 已經在自動駕駛研究中引起了廣泛關注。盡管 LLM 具有巨大潛力,但其在駕駛系統中的關鍵挑戰、機遇和未來研究方向仍然缺乏文章對其詳細闡明。
在本文中,騰訊地圖、普渡大學、UIUC、弗吉尼亞大學的研究人員對這個領域進行了系統調研。該研究首先介紹了多模態大型語言模型 (MLLM) 的背景,使用 LLM 開發多模態模型的進展,以及對自動駕駛的歷史進行回顧。然后,該研究概述了用于駕駛、交通和地圖系統的現有 MLLM 工具,以及現有的數據集。該研究還總結了第一屆 WACV 大語言和視覺模型自動駕駛研討會 (LLVM-AD) 的相關工作,這是應用 LLM 在自動駕駛領域的首個研討會。為了進一步推動這一領域的發展,該研究還討論了關于如何在自動駕駛系統中應用 MLLM,以及需要由學術界和工業界共同解決的一些重要問題。
- 綜述鏈接:https://arxiv.org/abs/2311.12320
- 研討會鏈接:https://llvm-ad.github.io/
- Github 鏈接:https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving
綜述結構
多模態大語言模型(MLLM) 最近引起了廣泛的關注,其將 LLM 的推理能力與圖像、視頻和音頻數據相結合,通過多模態對齊使它們能夠更高效地執行各種任務,包括圖像分類、將文本與相應的視頻對齊以及語音檢測。此外,一些研究已經證明 LLM 可以處理機器人領域的簡單任務。然而,MLLM 在自動駕駛領域的整合依然十分緩慢,我們不禁提出疑問,像 GPT-4、PaLM-2 和 LLaMA-2 這樣的 LLM 是否有潛力改良現有的自動駕駛系統?
在本綜述中,研究人員認為將 LLM 整合到自動駕駛領域可以在駕駛感知、運動規劃、人車交互和運動控制方面帶來顯著的范式轉變,提供以用戶為中心、適應性更強、更可信的未來交通方案。在感知方面,LLM 可以利用工具學習 (Tool Learning) 調用外部 API 來訪問實時的信息源,例如高精地圖、交通報告和天氣信息,從而使車輛更全面地理解周圍環境。自動駕駛汽車可以在讀取實時交通數據后,用 LLM 推理擁堵路線并建議替代路徑以提高效率和安全駕駛。對于運動規劃和人車交互,LLM 可以促進以用戶為中心的溝通,使乘客能夠用日常語言表達他們的需求和偏好。在運動控制方面,LLM 首先使控制參數可以根據駕駛者的偏好進行定制,實現了駕駛體驗的個性化。此外,LLM 還可以通過解釋運動控制過程的每個步驟來提供對用戶的透明化。該綜述預計,在未來的 SAE L4-L5 級別的自動駕駛車輛中,乘客可以在駕駛時使用語言、手勢甚至眼神來傳達他們的請求,由 MLLM 通過集成視覺顯示或語音響應來提供實時的車內和駕駛反饋。
自動駕駛和多模態大語言模型的發展歷程
自動駕駛 MLLM 的研究總結:當前模型的 LLM 框架主要有 LLaMA、Llama 2、GPT-3.5、GPT-4、Flan5XXL、Vicuna-13b。FT、ICL 和 PT 在本表中指的是微調、上下文學習和預訓練。文獻鏈接可以參考 github repo: https://github.com/IrohXu/Awesome-Multimodal-LLM-Autonomous-Driving
為了搭建自動駕駛和 LLM 之間的橋梁,相關研究人員在 2024 年 IEEE/CVF 冬季計算機視覺應用會議 (WACV) 上組織了首屆大語言和視覺模型自動駕駛研討會(LLVM-AD)。該研討會旨在增強學術研究人員和行業專業人士之間的合作,探討在自動駕駛領域實施多模態大型語言模型的可能性和挑戰。LLVM-AD 將進一步推動后續的開源實際交通語言理解數據集的發展。
首屆 WACV 大型語言和視覺模型自動駕駛研討會 (LLVM-AD) 共接受了九篇論文。一些論文圍繞自動駕駛中的多模態大語言模型主題展開,重點關注了將 LLM 整合到用戶 - 車輛交互、運動規劃和車輛控制中。還有幾篇論文探討了 LLM 在自動駕駛車輛中類人交互和決策方面的新應用。例如,”Drive Like a Human” 和”Drive as You Speak” 探討了 LLM 在復雜駕駛場景中解釋和推理,模仿人類行為的框架。”Human-Centric Autonomous Systems With LLMs” 強調了以用戶為中心設計 LLM 的重要性,利用 LLM 來解釋用戶命令。這種方法代表了向以人為中心的自主系統的重大轉變。除了融合 LLM,研討會還涵蓋了部分基于純視覺和數據處理的方法。此外,研討會也提出了創新的數據處理和評估方法。例如,NuScenes-MQA 介紹了一種新的自動駕駛數據集注釋方案。總的來說,這些論文展示了將語言模型和先進技術整合到自動駕駛中取得的進展,為更直觀、高效和以人為中心的自動駕駛車輛鋪平了道路。
針對未來的發展,該研究提出以下幾點研究方向:
1、自動駕駛中多模態大語言模型的新數據集
盡管大語言模型在語言理解方面取得了成功,但將其應用于自動駕駛仍面臨挑戰。這是因為這些模型需要整合和理解來自不同模態的輸入,如全景圖像、三維點云和高精地圖。目前的數據規模和質量的限制意味著現有數據集難以全面應對這些挑戰。此外,從 NuScenes 等早期開源數據集注釋的視覺語言數據集可能無法為駕駛場景中的視覺語言理解提供穩健的基準。因此,迫切需要新的、大規模的數據集,涵蓋廣泛的交通和駕駛場景,彌補之前數據集分布的長尾(不均衡)問題,以有效地測試和增強這些模型在自動駕駛應用中的性能。
2、自動駕駛中大語言模型的硬件支持
自動駕駛汽車中不同的功能對硬件的需求各不相同。在車輛內部使用 LLM 進行駕駛規劃或參與車輛控制需要實時處理和低延遲以確保安全,這增加了計算需求并影響功耗。如果 LLM 部署在云端,數據交換的帶寬將成為另一個關鍵的安全因素。相比之下,將 LLM 用于導航規劃或分析與駕駛無關的命令(如車載音樂播放)不需要高查詢量和實時性,使得遠程服務成為可行的方案。未來,自動駕駛中的 LLM 可以通過知識蒸餾進行壓縮,以減少計算需求和延遲,目前在這一領域仍然有很大發展空間。
3、使用大語言模型理解高精地圖
高精地圖在自動駕駛車輛技術中起著至關重要的作用,因為它們提供了有關車輛運行的物理環境的基本信息。高精地圖中的語義地圖層非常重要,因為它捕獲了物理環境的意義和上下文信息。為了有效地將這些信息編碼到下一代由 LLM 驅動的自動駕駛中,需要新的模型來映射這些多模態特征到語言空間。騰訊已經開發了基于主動學習的 THMA 高精地圖 AI 自動標注系統,能夠生產和標記數十萬公里規模的高精地圖。為了促進這一領域的發展,騰訊在 THMA 的基礎上提出了 MAPLM 數據集,包含全景圖像、三維激光雷達點云和基于上下文的高精地圖注釋,以及一個新的問答基準 MAPLM-QA。
4、人車交互中的大語言模型
人車交互以及理解人類的駕駛行為,在自動駕駛中也構成了一個重大挑戰。人類駕駛員常常依賴非語言信號,例如減速讓路或使用肢體動作與其他駕駛員或行人交流。這些非語言信號在道路上的交流中扮演著至關重要的角色。過去有許多涉及自動駕駛系統的事故是因為自動駕駛汽車的行為往往出乎其他駕駛員意料。未來,MLLM 能夠整合來自各種來源的豐富上下文信息,并分析駕駛員的視線、手勢和駕駛風格,以更好地理解這些社交信號并做出高效規劃。通過估計其他駕駛員的社交信號,LLM 可以提高自動駕駛汽車的決策能力和整體安全性。
5、個性化自動駕駛
隨著自動駕駛汽車的發展,一個重要的方面是考慮它們如何適應用戶個人的駕駛偏好。越來越多的人認為,自動駕駛汽車應該模仿其用戶的駕駛風格。為了實現這一點,自動駕駛系統需要學習并整合用戶在各個方面的偏好,如導航、車輛維護和娛樂。LLM 的指令調整 (Instruction Tunning) 能力和上下文學習能力使其非常適合將用戶偏好和駕駛歷史信息整合到自動駕駛汽車中,從而提供個性化的駕駛體驗。
總結
多年來,自動駕駛一直是人們關注的焦點,吸引著眾多風險投資人。將 LLM 集成到自動駕駛汽車中會帶來獨特的挑戰,但克服這些挑戰將顯著增強現有的自動駕駛系統。可以預見的是,LLM 支持的智能座艙具備理解駕駛場景和用戶偏好的能力,并在車輛與乘員之間建立更深層次的信任。此外,部署 LLM 的自動駕駛系統將可以更好地應對道德困境,涉及權衡行人的安全與車輛乘員的安全,促進在復雜的駕駛場景中更可能符合道德的決策過程。本文集成了 WACV 2024 LLVM-AD 研討會委員會成員的見解,旨在激勵研究人員為開發由 LLM 技術支持的下一代自動駕駛汽車做出貢獻。