成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM全搞定!OmniDrive:集3D感知、推理規劃于一體(英偉達最新)

人工智能 智能汽車
本文通過提出一個全面的端到端自主駕駛框架OmniDrive,在LLM-agent的基礎上提供了一種有效的3D推理和規劃模型,并構建了一個更具挑戰性的基準,推動了自動駕駛領域的進一步發展。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

這篇論文致力于解決當前多模態大語言模型 (MLLMs) 在自動駕駛應用中存在的關鍵挑戰,尤其是將MLLMs從2D理解擴展到3D空間的問題。由于自動駕駛車輛 (AVs) 必須對3D環境做出準確的決策,這一擴展顯得尤為重要。3D空間理解對于AV來說必不可少,因為它直接影響車輛做出明智決策、預測未來狀態以及與環境安全互動的能力。

圖片

當前的多模態大語言模型(如LLaVA-1.5)通常僅能處理較低分辨率的圖像輸入(例如),這是由于視覺編碼器的分辨率限制和LLM序列長度的限制。然而,自動駕駛應用需要高分辨率的多視角視頻輸入,以確保車輛能在長距離內感知環境并安全決策。此外,現有的許多2D模型架構難以有效處理這些輸入,因為它們需要大量的計算和存儲資源。

在此背景下,本文提出了一種全新的3D MLLM架構,借鑒了Q-Former風格的設計。該架構采用交叉注意力解碼器,將高分辨率的視覺信息壓縮到稀疏查詢中,使其更易于擴展到高分辨率輸入。這種架構與視角模型家族(如DETR3D、PETR(v2)、StreamPETR和Far3D)具有顯著的相似性,因為它們都利用了稀疏的3D查詢機制。通過對這些查詢附加3D位置編碼并與多視角輸入進行交互,本文的架構實現了對3D空間的理解,從而更好地利用了2D圖像中的預訓練知識。

除了模型架構的創新,本文還提出了一個更具挑戰性的基準——OmniDrive-nuScenes。該基準涵蓋了一系列需要3D空間理解和長距離推理的復雜任務,并引入了反事實推理基準,以通過模擬決策和軌跡來推測潛在結果。這一基準有效彌補了當前開放式評估中偏向于單一專家軌跡的問題,從而避免了在專家軌跡上的過擬合。

綜上所述,本文通過提出一個全面的端到端自主駕駛框架OmniDrive,在LLM-agent的基礎上提供了一種有效的3D推理和規劃模型,并構建了一個更具挑戰性的基準,推動了自動駕駛領域的進一步發展。具體貢獻如下:

  1. 提出了一種3D Q-Former架構,適用于各種駕駛相關任務,包括目標檢測、車道檢測、3D視覺定位、決策制定和規劃。
  2. 引入了OmniDrive-nuScenes基準,這是第一個為解決規劃相關挑戰而設計的QA基準,涵蓋了精確的3D空間信息。
  3. 實現了在規劃任務上的最佳表現

詳解OmniDrive

整體結構

本文提出的OmniDrive-Agent結合了Q-Former和基于查詢的3D感知模型的優點,在多視角圖像特征中高效獲取3D空間信息,解決自主駕駛中的3D感知與規劃任務。整體架構如圖所示。

  1. 視覺編碼器:首先,使用共享的視覺編碼器提取多視角圖像特征
  2. 位置編碼:將提取的圖像特征與位置編碼一起輸入到Q-Former3D中。
  3. Q-Former3D模塊:其中,表示拼接操作。為了簡潔起見,公式中省略了位置編碼。此步驟后,查詢集合成為交互后的。其中,表示3D位置編碼,是多視角圖像特征。
  • 多視角圖像特征采集:接下來,這些查詢從多視角圖像中收集信息:
  • 查詢初始化與自注意力:在Q-Former3D中,初始化檢測查詢和載體查詢,并進行自注意力操作以交換它們之間的信息:
  1. 輸出處理
  • 感知任務預測:利用感知查詢預測前景元素的類別和坐標。
  • 載體查詢對齊與文本生成:載體查詢則通過單層MLP對齊至LLM令牌的維度(如LLaMA中的4096維度),并進一步用于文本生成。
  1. 載體查詢的作用

通過該架構設計,OmniDrive-Agent能夠高效地從多視角圖像中獲取豐富的3D空間信息,并結合LLM進行文本生成,為3D空間感知與自主駕駛提供新的解決方案。

Multi-task and Temporal Modeling

作者的方法受益于多任務學習和時序建模。在多任務學習中,作者可以為每個感知任務集成特定的Q-Former3D模塊,并采用統一的初始化策略(請參見\cref{Training Strategy})。在不同的任務中,載體查詢能夠收集不同交通元素的信息。作者的實現涵蓋了諸如中心線構建和3D目標檢測等任務。在訓練和推理階段,這些模塊共享相同的3D位置編碼。

關于時序建模,作者將具有top-k分類分數的感知查詢存儲在記憶庫中,并逐幀傳播。傳播后的查詢通過交叉注意力與當前幀的感知查詢和載體查詢進行交互,從而擴展模型對視頻輸入的處理能力。

Training Strategy

OmniDrive-Agent的訓練策略分為兩個階段:2D預訓練和3D微調。在初始階段,作者首先在2D圖像任務上對多模態大模型(MLLMs)進行預訓練,以初始化Q-Former和載體查詢。移除檢測查詢后,OmniDrive模型可以被視為一個標準的視覺語言模型,能夠基于圖像生成文本。因此,作者采用LLaVA v1.5的訓練策略和數據,在558K圖文對上預訓練OmniDrive。在預訓練期間,除Q-Former外,所有參數保持凍結狀態。隨后,使用LLaVA v1.5的指令調優數據集對MLLMs進行微調。在微調過程中,圖像編碼器保持凍結,其他參數均可訓練。

在3D微調階段,目標是增強模型的3D定位能力,同時盡可能保留其2D語義理解能力。為此,作者為原始的Q-Former添加了3D位置編碼和時序模塊。在該階段,作者使用LoRA技術以較小的學習率微調視覺編碼器和大語言模型,并以相對較大的學習率訓練Q-Former3D。在這兩個階段中,OmniDrive-Agent的損失計算僅包括文本生成損失,而不考慮BLIP-2中的對比學習和匹配損失。

OmniDrive-nuScenes

為了對駕駛多模態大模型代理進行基準測試,作者提出了OmniDrive-nuScenes,這是一個基于nuScenes數據集的新型基準,包含高質量的視覺問答(QA)對,涵蓋了3D領域的感知、推理和規劃任務。

OmniDrive-nuScenes的亮點在于其完全自動化的QA生成流程,該流程使用GPT-4生成問題和答案。類似于LLaVA,作者的流程將3D感知的標注作為上下文信息提供給GPT-4。在此基礎上,作者進一步利用交通規則和規劃模擬作為額外輸入,幫助GPT-4更好地理解3D環境。作者的基準不僅測試模型的感知和推理能力,還通過涉及注意力、反事實推理和開環規劃的長時域問題,挑戰模型在3D空間中的真實空間理解和規劃能力,因為這些問題要求對未來幾秒內的駕駛規劃進行模擬以得出正確答案。

除了用于離線問答的生成流程外,作者還提出了一個在線生成多樣化定位問題的流程。這個流程可以看作是一種隱含的數據增強方式,用于提升模型的3D空間理解和推理能力。

Offline Question-Answering

在離線QA生成流程中,作者使用上下文信息來生成nuScenes上的QA對。首先,作者使用GPT-4生成場景描述,并將三視角的前視圖和三視角的后視圖拼接成兩幅獨立的圖像輸入到GPT-4中。通過提示輸入,GPT-4可以描述天氣、時間、場景類型等信息,并識別各視角的方向,同時避免逐視角描述,而是以相對自車的位置描述內容。

接下來,為了讓GPT-4V更好地理解交通元素之間的相對空間關系,作者將對象和車道線的關系表示成類似文件樹的結構,并根據對象的3D邊界框,將其信息轉換成自然語言描述。

隨后,作者通過模擬不同的駕駛意圖生成軌跡,包括車道保持、左側換道和右側換道,并利用深度優先搜索算法將車道中心線連接起來,生成所有可能的行駛路徑。此外,作者對nuScenes數據集中自車軌跡進行了聚類,選取具有代表性的駕駛路徑,并將其作為模擬軌跡的一部分。

最終,通過對離線QA生成流程中的不同上下文信息進行組合,作者能夠生成多種類型的QA對,包括場景描述、注意力對象識別、反事實推理和決策規劃。GPT-4可以基于模擬和專家軌跡識別威脅對象,并通過對駕駛路徑的安全性進行推理,給出合理的駕駛建議。

Online Question-Answering

為了充分利用自動駕駛數據集中的3D感知標注,作者在訓練過程中以在線方式生成大量定位類任務。這些任務旨在加強模型的3D空間理解和推理能力,包括:

  1. 2D到3D定位:給定特定相機上的2D邊界框,模型需要提供對應對象的3D屬性,包括類別、位置、大小、朝向和速度。
  2. 3D距離:基于隨機生成的3D坐標,識別目標位置附近的交通元素,并提供它們的3D屬性。
  3. 車道到對象:基于隨機選擇的車道中心線,列出該車道上的所有對象及其3D屬性。

Metrics

OmniDrive-nuScenes數據集涉及場景描述、開環規劃和反事實推理任務。每個任務側重不同的方面,難以使用單一指標進行評估。因此,作者針對不同的任務設計了不同的評估標準。

對于場景描述相關任務(如場景描述和注意力對象選擇),作者采用常用的語言評估指標,包括METEOR、ROUGE和CIDEr來評估句子相似性。在開環規劃任務中,作者使用碰撞率和道路邊界交叉率來評估模型的性能。對于反事實推理任務,作者使用GPT-3.5提取預測中的關鍵字,并將這些關鍵字與真實情況進行比較,以計算不同事故類別的精確率和召回率。

實驗結果

上表展示了對規劃相關任務的消融研究結果,包括反事實推理和開環規劃的性能評估。

完整模型,即Q-Former3D,在反事實推理和開環規劃任務上都表現出色。在反事實推理任務中,模型在“紅燈違規”和“可通行區域違規”類別上都展示了較高的精準率和召回率,分別為57.6%/58.3%和48.5%/58.6%。同時,該模型在“碰撞”類別中取得了最高的召回率(72.6%)。在開環規劃任務中,Q-Former3D在平均碰撞率和路界交叉率上均表現出色,分別達到了3.79%和4.59%。

移除在線訓練數據(No Online)后,反事實推理任務中的“紅燈違規”類別召回率有所提高(65.6%),但整體性能略有下降。碰撞和可通行區域違規的精準率和召回率均較完整模型略低,而開環規劃任務的平均碰撞率上升至4.93%,平均路界交叉率下降到4.02%,這反映出在線訓練數據對于提高模型整體規劃性能的重要性。

在架構消融實驗中,Q-Former2D版本在“紅燈違規”類別上取得最高精準率(58.3%)和較高召回率(61.1%),但其他類別的表現不如完整模型,特別是“碰撞”和“可通行區域違規”類別的召回率明顯下降。在開環規劃任務中,平均碰撞率和路界交叉率均高于完整模型,分別為3.98%和6.03%。

采用Dense BEV架構的模型在所有類別的反事實推理任務上均表現較好,但召回率整體偏低。開環規劃任務中的平均碰撞率和路界交叉率分別達到了4.43%和8.56%。

當移除時間模塊時(No Temporal),模型在反事實推理任務的表現顯著下降,特別是平均碰撞率上升至6.07%,路界交叉率達到5.83%。

在感知監督方面,移除車道線監督(No Lane)后,模型在“碰撞”類別的召回率顯著下降,而反事實推理任務的其他類別和開環規劃任務的指標表現相對穩定。完全移除物體與車道線的3D感知監督(No Object & Lane)后,反事實推理任務各類別的精準率和召回率均有下降,特別是“碰撞”類別的召回率降至53.2%。開環規劃任務中的平均碰撞率和路界交叉率分別升至6.77%和8.43%,顯著高于完整模型。

從以上實驗結果可以看出,完整模型在反事實推理和開環規劃任務中表現出色。在線訓練數據、時間模塊以及車道線與物體的3D感知監督對模型性能的提升起到了重要作用。完整模型能夠有效地利用多模態信息進行高效的規劃與決策,而消融實驗的結果進一步驗證了這些組件在自動駕駛任務中的關鍵作用。

同時,來看NuScenes-QA的表現:展示了OmniDrive在開環規劃任務中的性能,與其他現有方法進行了對比。結果顯示,OmniDrive++(完整版本)在各項指標上均取得了最佳表現,尤其在開環規劃的平均誤差、碰撞率和路界交叉率三個方面均優于其他方法。

OmniDrive++的表現:OmniDrive++模型在1秒、2秒和3秒的預測時間內,L2平均誤差分別為0.14、0.29和0.55米,最終平均誤差僅為0.33米。此外,該模型的平均碰撞率和平均路界交叉率也分別達到了0.30%和3.00%,遠低于其他方法。尤其在碰撞率方面,OmniDrive++在1秒和2秒的預測時間段內都實現了零碰撞率,充分展示了其出色的規劃和避障能力。

與其他方法的對比:相較于其他先進的基準模型,例如UniAD、BEV-Planner++和Ego-MLP,OmniDrive++在所有關鍵指標上都表現優異。UniAD在使用高層級命令和自車狀態信息的情況下,其L2平均誤差為0.46米,而OmniDrive++在相同設置下的誤差更低,為0.33米。同時,OmniDrive++的碰撞率和路界交叉率也比UniAD顯著降低,尤其在碰撞率方面減少了近一半。

與BEV-Planner++相比,OmniDrive++在所有預測時間段內的L2誤差均顯著降低,尤其在3秒預測時間段內,誤差由0.57米降至0.55米。同時,在碰撞率和路界交叉率方面,OmniDrive++也優于BEV-Planner++,碰撞率由0.34%降至0.30%,路界交叉率由3.16%降至3.00%。

消融實驗:為了進一步評估OmniDrive架構中的關鍵模塊對性能的影響,作者還比較了不同版本的OmniDrive模型的表現。OmniDrive(不使用高層級命令和自車狀態信息)在預測誤差、碰撞率和路界交叉率方面均明顯遜于完整模型,尤其是在3秒預測時間段內的L2誤差達到了2.84米,平均碰撞率高達3.79%。

當僅使用OmniDrive模型(無高層級命令和自車狀態信息)時,預測誤差、碰撞率和路界交叉率有所改善,但與完整模型相比仍有差距。這表明,整合高層級命令和自車狀態信息對提高模型的整體規劃性能具有顯著作用。

整體而言,實驗結果清晰地展示了OmniDrive++在開環規劃任務上的卓越性能。通過整合多模態信息、高層級命令和自車狀態信息,OmniDrive++在復雜的規劃任務中實現了更精準的路徑預測和更低的碰撞率與路界交叉率,為自主駕駛的規劃與決策提供了強有力的支持。

討論

作者提出的OmniDrive代理和OmniDrive-nuScenes數據集在多模態大模型領域引入了一種新的范式,能夠解決3D環境中的駕駛問題,并為此類模型的評估提供了一個全面的基準。然而,每個新方法和數據集都具有其優點和不足之處。

OmniDrive代理提出了一種兩階段的訓練策略:2D預訓練和3D微調。在2D預訓練階段,通過利用LLaVA v1.5的圖像文本配對數據集預訓練Q-Former和carrier queries,實現了圖像特征與大型語言模型之間的更好對齊。在3D微調階段,引入了3D位置信息編碼和時間模塊,增強了模型的3D定位能力。通過利用LoRA對視覺編碼器和語言模型進行微調,OmniDrive既保持了對2D語義的理解,又增強了對3D定位的掌握。這樣分階段的訓練策略充分發揮了多模態大模型的潛力,使其在3D駕駛場景中具有更強的感知、推理和規劃能力。另一方面,OmniDrive-nuScenes作為一種全新的基準,專門為評估駕駛大模型的能力設計。其完全自動化的QA生成流程通過GPT-4生成高質量的問答對,涵蓋了從感知到規劃的不同任務。此外,在線生成的定位任務也為模型提供了隱含的數據增強,幫助其更好地理解3D環境。該數據集的優勢還在于它不僅測試模型的感知和推理能力,還通過長時域問題來評估模型的空間理解和規劃能力。這種全面的基準為未來多模態大模型的研發提供了強有力的支持。

然而,OmniDrive代理和OmniDrive-nuScenes數據集也存在一些不足之處。首先,由于OmniDrive代理在3D微調階段需要微調整個模型,訓練資源需求較高,使得訓練時間和硬件成本顯著增加。此外,OmniDrive-nuScenes的數據生成完全依賴GPT-4,雖然保證了問題的質量和多樣性,但也導致生成的問題更傾向于自然語言能力強的模型,這可能使模型在基準測試時更依賴于語言特性而非實際駕駛能力。盡管OmniDrive-nuScenes提供了一個全面的QA基準,但其覆蓋的駕駛場景仍然有限。數據集中涉及的交通規則和規劃模擬僅基于nuScenes數據集,這使得生成的問題難以完全代表現實世界中的各種駕駛場景。此外,由于數據生成流程的高度自動化,生成的問題難免會受到數據偏見和提示設計的影響。

結論

作者提出的OmniDrive代理和OmniDrive-nuScenes數據集為3D駕駛場景中的多模態大模型研究帶來了新的視角和評估基準。OmniDrive代理的兩階段訓練策略成功地結合了2D預訓練和3D微調,使得模型在感知、推理和規劃方面均表現出色。OmniDrive-nuScenes作為全新的QA基準,為評估駕駛大模型提供了全面的指標。然而,仍需進一步研究以優化模型的訓練資源需求,改進數據集的生成流程,并確保生成的問題能夠更準確地代表現實駕駛環境。總體而言,作者的方法和數據集在推進駕駛領域多模態大模型研究方面具有重要意義,為未來的工作奠定了堅實基礎。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-12-08 13:17:00

數據模型

2011-05-06 13:05:12

微星3D

2019-11-18 10:22:01

深度學習編程人工智能

2025-03-14 10:26:58

2011-07-18 19:36:00

海爾一體機

2011-05-06 13:05:20

聯想IdeaCentr聯想B

2023-09-10 12:37:38

模型英偉達

2010-11-29 10:38:10

SGICPUGPU

2012-05-30 15:39:18

復合一體機評測

2012-07-27 12:40:50

一體電腦

2012-05-08 14:56:02

聯想一體機

2012-02-21 11:52:30

聯想一體機

2024-05-06 11:37:20

自動駕駛3D

2023-10-20 09:43:56

模型訓練

2015-09-07 15:21:14

樂事一體機

2024-05-16 09:24:17

3D技術

2021-11-08 06:02:17

CSS 技巧代碼重構

2024-12-18 18:57:58

2024-10-15 14:58:44

2025-06-24 08:40:00

3D模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜视频在线免费观看 | 精品一区免费 | 狠狠爱综合网 | 日本免费一区二区三区四区 | 亚洲狠狠 | 久久久久国产精品一区二区 | 久久久久亚洲国产| 国产精品美女久久久久aⅴ国产馆 | 日韩伦理一区二区 | 国产免费拔擦拔擦8x高清 | 成人在线观看免费 | 久久成人免费视频 | 亚洲欧美在线观看 | 亚洲综合久久精品 | 久久99视频免费观看 | 欧美精品一区二区三区四区 在线 | 亚洲一区二区精品视频 | 一区二区成人 | 岛国av免费在线观看 | 国产日韩欧美 | 成人h电影在线观看 | 久一久| 亚洲激情视频在线 | 99精品欧美 | 午夜精品一区二区三区在线观看 | 日韩欧美黄色 | 免费一区二区 | 99视频在线看 | 另类二区 | 欧美在线视频观看 | 精品免费在线 | 久在线 | 国产黄色网址在线观看 | 人操人人 | 99亚洲精品 | 日本aa毛片a级毛片免费观看 | 久久久久久久久一区 | 国产免费又黄又爽又刺激蜜月al | 日韩av在线一区 | 9久9久9久女女女九九九一九 | 国产精品自拍视频 |