OmniDrive: 一個(gè)關(guān)于大模型與3D駕駛?cè)蝿?wù)對(duì)齊的框架
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
從一個(gè)新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。
題目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning
作者單位:北京理工大學(xué),NVIDIA,華中科技大學(xué)
開源地址:GitHub - NVlabs/OmniDrive
多模態(tài)大語言模型(MLLMs)的進(jìn)展導(dǎo)致了對(duì)基于LLM的自動(dòng)駕駛的興趣不斷增長(zhǎng),以利用它們強(qiáng)大的推理能力。然而,利用MLLMs強(qiáng)大的推理能力來改進(jìn)規(guī)劃行為是具有挑戰(zhàn)性的,因?yàn)樗枰?D推理的完整3D情境意識(shí)。為了解決這一挑戰(zhàn),本工作提出了OmniDrive,這是一個(gè)關(guān)于智能體模型與3D駕駛?cè)蝿?wù)之間強(qiáng)大對(duì)齊的全面框架。框架從一個(gè)新穎的3D MLLM架構(gòu)開始,該架構(gòu)使用稀疏查詢將視覺表示提升和壓縮到3D,然后將其輸入LLM。這種基于查詢的表示允許我們聯(lián)合編碼動(dòng)態(tài)對(duì)象和靜態(tài)地圖元素(例如,交通車道),為3D中的感知-行動(dòng)對(duì)齊提供了一個(gè)簡(jiǎn)潔的世界模型。進(jìn)一步提出了一個(gè)新的基準(zhǔn),其中包括全面的視覺問答(VQA)任務(wù),包括場(chǎng)景描述、交通規(guī)則、3D基礎(chǔ)、反事實(shí)推理、決策制定和規(guī)劃。廣泛的研究表明,OmniDrive在復(fù)雜的3D場(chǎng)景中具有出色的推理和規(guī)劃能力。