成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

六大數(shù)據(jù)集全部SOTA!最新DriveMM:自動(dòng)駕駛一體化多模態(tài)大模型(美團(tuán)&中山大學(xué))

人工智能 新聞
今天為大家分享中山大學(xué)&美團(tuán)最新的多模態(tài)大模型工作—DriveMM!全面邁向一體化,六大數(shù)據(jù)集全面SOTA。

寫(xiě)在前面 & 筆者的個(gè)人理解

近年來(lái),視覺(jué)-語(yǔ)言數(shù)據(jù)和模型在自動(dòng)駕駛領(lǐng)域引起了廣泛關(guān)注。許多精心設(shè)計(jì)和標(biāo)注的數(shù)據(jù)集用于微調(diào)多模態(tài)大模型,使模型不僅能理解視覺(jué)輸入并生成文本回答,更能適用于自動(dòng)駕駛多種應(yīng)用場(chǎng)景。由于駕駛場(chǎng)景的復(fù)雜多變以及駕駛行為的多樣性,現(xiàn)有的自動(dòng)駕駛模型和數(shù)據(jù)往往專(zhuān)注于單一場(chǎng)景和任務(wù)。雖然這些方法表現(xiàn)出了顯著的性能,但模型的適用性局限于特定場(chǎng)景和任務(wù),比如特定的輸入類(lèi)型和數(shù)據(jù)集特定的任務(wù)。一方面,我們注意到不同數(shù)據(jù)集的收集方法是由其特定任務(wù)決定的。例如,專(zhuān)注于極端情況和特殊物體感知的數(shù)據(jù)集只需要前視圖圖像,而與車(chē)輛行為預(yù)測(cè)和自車(chē)決策相關(guān)的任務(wù)則需要多視角甚至視頻的輸入。另一方面,每個(gè)數(shù)據(jù)集都聚焦于特定子任務(wù)。因此,在單一數(shù)據(jù)集上訓(xùn)練的專(zhuān)有模型缺乏處理現(xiàn)實(shí)世界中復(fù)雜多樣任務(wù)所需的通用能力和遷移至新場(chǎng)景新任務(wù)的泛化能力。為了解決這些問(wèn)題,本文提出了DriveMM,一種通用的大型多模態(tài)模型,旨在處理多種數(shù)據(jù)輸入,如圖像和多視角視頻,同時(shí)執(zhí)行廣泛的自動(dòng)駕駛?cè)蝿?wù),包括感知、預(yù)測(cè)和決策。

圖片

總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:

  • 提出了一種新型的一體化多模態(tài)大模型DriveMM,它具有執(zhí)行各種AD任務(wù)的通用能力和有效轉(zhuǎn)移到新數(shù)據(jù)集的泛化能力。
  • 介紹了評(píng)估自動(dòng)駕駛LMM的綜合基準(zhǔn),其中包括六個(gè)公共數(shù)據(jù)集、四種輸入類(lèi)型和十三個(gè)具有挑戰(zhàn)性的任務(wù)。據(jù)我們所知,這是首次使用多個(gè)基準(zhǔn)來(lái)評(píng)估自動(dòng)駕駛LLM。
  • 提出了一個(gè)大模型原則,用于對(duì)不同的多模態(tài)數(shù)據(jù)和AD數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練和微調(diào)。DriveMM展示了最先進(jìn)的性能,并在所有評(píng)估的基準(zhǔn)測(cè)試中始終優(yōu)于在單個(gè)數(shù)據(jù)集上訓(xùn)練的模型。

圖片

相關(guān)工作回顧

Vision-Language Driving Datasets

近年來(lái),已經(jīng)開(kāi)發(fā)了許多視覺(jué)語(yǔ)言驅(qū)動(dòng)數(shù)據(jù)集,旨在訓(xùn)練和評(píng)估為AD場(chǎng)景設(shè)計(jì)的LMM。DRAMA、CODA-LM和DriveVLM專(zhuān)注于風(fēng)險(xiǎn)目標(biāo)和極端情況學(xué)習(xí)。除了單視圖數(shù)據(jù)外,許多研究還基于nuScenes數(shù)據(jù)集構(gòu)建了多視圖數(shù)據(jù)。例如,NuScenes QA為3D對(duì)象關(guān)系引入了自由形式的問(wèn)答注釋。DriveLM、OmniDrive和NuInstruct使用原始標(biāo)注和LLM生成視覺(jué)問(wèn)答對(duì),涵蓋感知、推理和計(jì)劃。此外,MAPLM集成了多視圖數(shù)據(jù)和LiDAR數(shù)據(jù)來(lái)分析和識(shí)別路面狀況。在這篇論文中,我們擴(kuò)充和標(biāo)準(zhǔn)化了多個(gè)駕駛數(shù)據(jù)集,為不同的自動(dòng)駕駛場(chǎng)景訓(xùn)練了一個(gè)全面的LMM。

LMMs for Autonomous Driving

LMM在各種任務(wù)中表現(xiàn)出了令人印象深刻的表現(xiàn)。最近,研究人員開(kāi)始探索LLM在AD領(lǐng)域的潛力。早期的工作,DiLu和GPT Driver試圖利用GPT-3.5和GPT-4作為駕駛規(guī)劃工具。隨后,DriveGPT4和RDA Driver引入了端到端的LMM,可以生成控制信號(hào)或軌跡。與通過(guò)語(yǔ)言處理駕駛操作的方法不同,LMDrive和DriveMLM使用解碼器從隱藏的嵌入中預(yù)測(cè)控制信號(hào)。為了提高感知和推理能力,有幾種方法旨在改進(jìn)模型架構(gòu)。Reason2Drive提出了一種先驗(yàn)標(biāo)記器來(lái)提取局部圖像特征,BEV-InMLLM將鳥(niǎo)瞰圖(BEV)表示注入到LMM中。OmniDrive使用Q-Former3D將2D預(yù)訓(xùn)練知識(shí)與基本的3D空間理解相結(jié)合。ELM包含一個(gè)時(shí)間感知令牌選擇模塊,用于準(zhǔn)確查詢(xún)時(shí)間線索。盡管這些方法已經(jīng)證明了令人滿意的性能,但它們的適用性?xún)H限于特定的場(chǎng)景和任務(wù),例如特定的數(shù)據(jù)類(lèi)型或特定于數(shù)據(jù)集的任務(wù)。有鑒于此,我們提出了一種一體化的LMM,旨在有效地處理AD中的各種駕駛場(chǎng)景和任務(wù)。

DriveMM方法詳解

概覽

本文提出的DriveMM是一種一體化的LMM,旨在有效地處理AD中的各種駕駛數(shù)據(jù)和任務(wù)。形式上,給定車(chē)輛傳感器捕獲的視覺(jué)信號(hào)Xv和用戶指令Xt,DriveMM F(·)提供了與駕駛相關(guān)的分析和建議:

圖片

Xv可以表示各種數(shù)據(jù)格式,包括單目、環(huán)視圖像或LiDAR捕獲的圖像、多圖像、視頻和多視頻,而Xt則包含與感知、預(yù)測(cè)、推理、決策等有關(guān)的問(wèn)題。通過(guò)整合不同的數(shù)據(jù)和任務(wù),DriveMM可以在廣泛的AD視覺(jué)語(yǔ)言數(shù)據(jù)上進(jìn)行訓(xùn)練,從而在不同的數(shù)據(jù)集和任務(wù)之間實(shí)現(xiàn)相互改進(jìn)。此外,一旦經(jīng)過(guò)訓(xùn)練,DriveMM可以有效地部署在各種現(xiàn)實(shí)世界的AD場(chǎng)景中,例如不同的相機(jī)和雷達(dá)系統(tǒng)配置,以及各種AD任務(wù)。

在接下來(lái)的部分中,我們首先描述DriveMM的架構(gòu),它能夠處理不同傳感器捕獲的多種類(lèi)型的數(shù)據(jù)。為了促進(jìn)模型對(duì)AD場(chǎng)景的理解,我們收集了具有多種數(shù)據(jù)格式和任務(wù)的不同數(shù)據(jù)集,然后增強(qiáng)和標(biāo)準(zhǔn)化它們的問(wèn)答對(duì),以加強(qiáng)不同數(shù)據(jù)集之間的協(xié)作。為了在各種數(shù)據(jù)集和任務(wù)上有效地訓(xùn)練DriveMM,我們采用了一種課程學(xué)習(xí)方法來(lái)逐步提高模型的能力。

Model Architecture

圖片

我們的目標(biāo)是設(shè)計(jì)一個(gè)高效的模型架構(gòu),可以同步處理廣告場(chǎng)景中的單幅圖像、多幅圖像、單視圖視頻和多視圖視頻。如圖2所示,DriveMM遵循了LLaVA等主要LMM的設(shè)計(jì)。它由三個(gè)部分組成:視覺(jué)編碼器Fe(·)、投影儀Fp(·)和LLM Fl(·)。

視覺(jué)編碼器SigLIP:

圖片

之后,投影儀將圖像特征投影到單詞嵌入空間中:

圖片

基于視覺(jué)標(biāo)記Hv和用戶指令Xt,LLM逐步計(jì)算目標(biāo)單詞的概率:

圖片

視角感知提示。在方程式(4)中,典型的LMM[2,26]會(huì)使LLM輸入的視覺(jué)特征變平,無(wú)法區(qū)分視角(如前視圖或后視圖)和格式(如圖像或視頻)。為了解決這個(gè)問(wèn)題,我們提出了一種感知視角的提示。如表2所示,我們使用不同的占位符(即image和video)進(jìn)行圖像和視頻輸入,其中占位符在輸入LLM之前將被相應(yīng)的令牌替換。我們還為具有不同視角的圖像/視頻分配了數(shù)字標(biāo)簽,并在文中解釋了每種圖像/視頻的具體相機(jī)或激光雷達(dá)。為了提高計(jì)算效率,我們對(duì)視頻特征Hv應(yīng)用2×2的空間池,然后將它們展平為視覺(jué)標(biāo)記。DriveMM結(jié)合了視角和數(shù)據(jù)格式的信息,可以更好地解釋復(fù)雜的交通狀況,識(shí)別多個(gè)對(duì)象及其空間關(guān)系,并做出更明智的決策。

圖片

數(shù)據(jù)

在LMM的訓(xùn)練中,數(shù)據(jù)在啟用和激活LLM理解多模態(tài)信息的能力方面發(fā)揮著至關(guān)重要的作用。為了提高DriveMM在多模態(tài)AD場(chǎng)景中的理解和推理能力,我們構(gòu)建了三個(gè)不同的數(shù)據(jù)集:傳統(tǒng)多模態(tài)數(shù)據(jù)、感知數(shù)據(jù)和自動(dòng)駕駛數(shù)據(jù)。

Conventional Multimodal Data

最近的研究表明,隨著數(shù)據(jù)量的增加,LMM可以實(shí)現(xiàn)更高的性能。然而,與在線可用的豐富圖像文本數(shù)據(jù)相比,AD圖像文本數(shù)據(jù)明顯有限。為了提高DriveMM的性能,我們使用廣泛的多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練了一個(gè)基礎(chǔ)模型,從而能夠使用單幅圖像、多幅圖像和視頻進(jìn)行推理。

具體來(lái)說(shuō),我們構(gòu)建了一個(gè)多模態(tài)數(shù)據(jù)集,其中包括圖像-文本對(duì)和各種視覺(jué)指令調(diào)整數(shù)據(jù)。圖像-文本對(duì)的目標(biāo)是對(duì)齊視覺(jué)編碼器和LLM,使模型能夠?qū)D像有基本的理解。我們使用了多個(gè)數(shù)據(jù)集,包括LCS-558K、COCO118K、CC3M。為了增強(qiáng)模型處理各種傳感器配置(如單視圖和多視圖相機(jī))中的視覺(jué)數(shù)據(jù)的能力,我們利用OneVision數(shù)據(jù)中的視覺(jué)指令調(diào)整數(shù)據(jù),包括圖像、多圖像和視頻。

Perception Data

為了使DriveMM具備AD感知能力,我們創(chuàng)建了一個(gè)全面的基礎(chǔ)數(shù)據(jù)集,包括各種數(shù)據(jù)格式。對(duì)于單幅圖像數(shù)據(jù),我們使用COCO和Object365數(shù)據(jù)集。我們從圖像中隨機(jī)選擇一個(gè)類(lèi)別,并使用基礎(chǔ)提示(例如,“檢測(cè)圖像中的所有<category>”)來(lái)提示模型檢測(cè)該類(lèi)別中的所有對(duì)象。我們用邊界框[xmin,ymin,xmax,ymax]或區(qū)域中心[xcenter,ycenter]表示對(duì)象的位置。基于圖像的大小,x和y值在0到100的范圍內(nèi)進(jìn)行歸一化。對(duì)于多視圖圖像和多視圖視頻,我們采用nuScenes[3]數(shù)據(jù)集。為了給模型注入空間意識(shí),我們希望它不僅能預(yù)測(cè)物體邊界框,還能估計(jì)相機(jī)的視角。因此,我們用[cam,xmin,ymin,xmax,ymax]或[cam,xcenter,ycenter]表示對(duì)象的位置,其中cam表示相機(jī)視角,如“cam BACK”。圖3左下角展示了感知數(shù)據(jù)的一個(gè)示例。

圖片

Autonomous Driving Data

在這里,我們收集了不同的數(shù)據(jù)集來(lái)訓(xùn)練一個(gè)一體化的LMM,該LMM可以同步處理不同場(chǎng)景中的各種AD任務(wù)。具體來(lái)說(shuō),我們使用了六個(gè)自動(dòng)駕駛數(shù)據(jù)集:CODA-LM、MAPLM、DriveLM、LingoQA、OmniDrive和NuInstruct。表1顯示了六個(gè)數(shù)據(jù)集的詳細(xì)描述。這些數(shù)據(jù)集包括各種傳感器配置,如攝像頭和激光雷達(dá),以及不同的AD任務(wù),包括感知、預(yù)測(cè)和規(guī)劃。值得一提的是,不同的數(shù)據(jù)集可能會(huì)表現(xiàn)出不同的問(wèn)題模態(tài)。為了促進(jìn)協(xié)作增強(qiáng),我們對(duì)問(wèn)答對(duì)進(jìn)行了如下擴(kuò)充和標(biāo)準(zhǔn)化。問(wèn)答增強(qiáng)。一些數(shù)據(jù)集僅限于一組固定的模板。例如,CODA-LM僅包含三個(gè)問(wèn)題模板,而MAPLM則使用了五個(gè)。這阻礙了模型推廣的潛力。為了克服這一局限性,我們使用GPT-4o-mini來(lái)增強(qiáng)問(wèn)答對(duì)并增加其多樣性。此外,很大一部分問(wèn)題是開(kāi)放式的。為了進(jìn)一步增強(qiáng)多樣性,我們將一些開(kāi)放式問(wèn)題隨機(jī)轉(zhuǎn)換為多項(xiàng)選擇題。圖3右下角展示了一個(gè)增強(qiáng)示例。

問(wèn)答標(biāo)準(zhǔn)化。不同的數(shù)據(jù)集可能在問(wèn)答風(fēng)格上表現(xiàn)出不一致。例如,DriveLM使用“<c6,CAM BACK,1088.3,497.5>”來(lái)表示一個(gè)對(duì)象,其中“c6”表示類(lèi)ID。相比之下,NuInstruct使用“<car>[c6,139,343,1511,900]”的格式,其中“c6”表示相機(jī)ID。為了確??鐢?shù)據(jù)集的兼容性,我們標(biāo)準(zhǔn)化了對(duì)象的表示并明確指定了表示格式。此外,為了適應(yīng)不同大小的圖像中的邊界框,我們根據(jù)圖像的大小將邊界框的坐標(biāo)標(biāo)準(zhǔn)化為0到100的范圍。例如,對(duì)于NuInstruct數(shù)據(jù)集,我們將對(duì)象重新表示為“<car>[CAM BACK RIGHT,8.688,38.111,94.438,100.000]”,并在問(wèn)題末尾添加格式化指令,如圖3右下角所示。

訓(xùn)練

在本節(jié)中,我們將介紹一種課程學(xué)習(xí)方法,以逐步提高模型在各種AD數(shù)據(jù)和任務(wù)上的性能,從而形成一體化的自動(dòng)駕駛模型DriveMM。具體來(lái)說(shuō),我們逐漸增加數(shù)據(jù)的復(fù)雜性,從單個(gè)圖像到多個(gè)視頻,以及從圖像字幕到駕駛推理的任務(wù)復(fù)雜性,以訓(xùn)練DriveMM。如圖3所示,訓(xùn)練過(guò)程分為四個(gè)步驟:

第一階段:語(yǔ)言圖像對(duì)齊。這一階段的目標(biāo)是為預(yù)訓(xùn)練的法學(xué)碩士提供多模態(tài)理解的基本能力。為了實(shí)現(xiàn)這一點(diǎn),我們訓(xùn)練投影儀與LLM的單詞嵌入空間對(duì)齊。我們凍結(jié)了視覺(jué)編碼器和LLM,只優(yōu)化了LCS-558K上的投影儀。

第二階段:?jiǎn)畏鶊D像預(yù)訓(xùn)練。在這個(gè)階段,我們通過(guò)集體優(yōu)化整個(gè)模型來(lái)進(jìn)一步增強(qiáng)模型理解單個(gè)圖像的能力。我們使用所概述的圖像-文本對(duì)并優(yōu)化模型的所有參數(shù),以提高LLM對(duì)多模態(tài)任務(wù)的適用性。

第三階段:多能力預(yù)訓(xùn)練。為了獲得訓(xùn)練AD系統(tǒng)的穩(wěn)健基礎(chǔ)模型,我們?cè)鰪?qiáng)了模型在不同場(chǎng)景下的推理和感知能力。為此,我們利用所描述的視覺(jué)指令調(diào)優(yōu)數(shù)據(jù)來(lái)增強(qiáng)模型,以推理基本的視覺(jué)元素。此外,我們使用所描述的感知數(shù)據(jù)來(lái)促進(jìn)模型的感知能力。值得注意的是,訓(xùn)練數(shù)據(jù)包括多種數(shù)據(jù)格式,包括單圖像、單視頻、多視圖圖像和多視圖視頻。通過(guò)為模型配備處理各種數(shù)據(jù)和任務(wù)的能力,我們?yōu)橛?xùn)練一體化AD模型奠定了基礎(chǔ)。

第四階段:Driving微調(diào)。為了使DriveMM能夠處理廣泛的AD任務(wù),我們?cè)诓煌鸟{駛數(shù)據(jù)集上進(jìn)一步微調(diào)了模型。具體來(lái)說(shuō),我們利用了六個(gè)增強(qiáng)和標(biāo)準(zhǔn)化的自動(dòng)駕駛數(shù)據(jù)集。在這個(gè)階段,我們優(yōu)化了模型的所有參數(shù)。一旦經(jīng)過(guò)訓(xùn)練,所提出的一體化DriveMM可以有效地部署在各種AD場(chǎng)景中,例如不同的攝像頭和雷達(dá)系統(tǒng)配置,以及各種AD任務(wù)。

實(shí)驗(yàn)結(jié)果

圖片圖片

結(jié)論

本文提出了一種一體化的大型多模態(tài)自動(dòng)駕駛模型DriveMM,它可以處理各種類(lèi)型的數(shù)據(jù),并在現(xiàn)實(shí)世界中執(zhí)行多種駕駛?cè)蝿?wù),表現(xiàn)出出色的通用性和魯棒性。據(jù)我們所知,我們是第一個(gè)開(kāi)發(fā)AD綜合模型并在各種AD場(chǎng)景中跨多個(gè)數(shù)據(jù)集評(píng)估模型的公司。通過(guò)增強(qiáng)和標(biāo)準(zhǔn)化幾個(gè)開(kāi)源數(shù)據(jù)集并設(shè)計(jì)與數(shù)據(jù)相關(guān)的提示,我們從頭開(kāi)始對(duì)模型進(jìn)行多步預(yù)訓(xùn)練和微調(diào)。DriveMM在現(xiàn)實(shí)場(chǎng)景中的各種數(shù)據(jù)和任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-03-14 14:06:52

訓(xùn)練模型

2024-04-11 07:09:43

大模型人工智能AI

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2023-10-24 09:53:56

自動(dòng)駕駛模型

2024-03-12 09:24:38

智能駕駛

2021-12-17 11:55:09

自動(dòng)駕駛數(shù)據(jù)人工智能

2024-01-29 06:40:00

AI模型

2023-12-08 10:10:56

模型論文調(diào)研

2014-11-13 10:17:30

中山大學(xué)新炬網(wǎng)絡(luò)學(xué)院大數(shù)據(jù)技術(shù)

2021-02-24 15:38:37

數(shù)據(jù)語(yǔ)言架構(gòu)

2024-12-18 18:57:58

2023-09-13 13:21:52

模型數(shù)據(jù)

2024-03-25 08:15:02

數(shù)據(jù)分析AI 一體化大數(shù)據(jù)

2023-08-22 13:20:00

模型訓(xùn)練

2023-12-05 09:40:18

自動(dòng)駕駛數(shù)據(jù)

2020-10-22 15:35:35

自動(dòng)駕駛美團(tuán)人工智能

2024-07-10 08:52:17

2024-03-25 12:40:19

訓(xùn)練模型

2009-05-19 11:46:21

2013-08-30 09:36:34

中間件虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文在线一区二区 | 欧美激情国产精品 | 久久国产一区 | 亚洲字幕在线观看 | 亚洲欧美日韩国产综合 | 免费午夜剧场 | 成人黄视频在线观看 | 蜜桃av鲁一鲁一鲁一鲁 | 免费视频久久久久 | 精品一区在线 | 中文字幕一区二区在线观看 | 欧洲色| a a毛片 | 国产99精品 | 一区二区三区亚洲视频 | 午夜性视频 | 91短视频网址 | 亚洲精品福利在线 | 成在线人视频免费视频 | 日本人麻豆 | 精品一二区 | 久久午夜视频 | 精品视频在线观看 | 精品婷婷| 亚洲天堂一区二区 | 99re在线| 黄网站涩免费蜜桃网站 | 最新91在线 | 国产综合久久 | 国产精品无码永久免费888 | 亚洲综合免费 | a级毛片免费高清视频 | 亚洲www.| 国产一区二区自拍 | 国产精品美女久久久久久不卡 | 国产www在线 | 久久久久久久久久久国产 | 国内毛片毛片毛片毛片 | 日韩和的一区二区 | 在线视频亚洲 | 国产精品区二区三区日本 |