成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直接干到未來!DriveDreamer-2:世界首個自定義駕駛場景流生成,提升50%!

人工智能 新聞
DriveDreamer的框架上,并結合了一個大語言模型(LLM)來生成用戶定義的駕駛視頻。具體來說,LLM接口最初被合并以將用戶的查詢轉換為代理軌跡。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

世界車型在自動駕駛方面表現出了優勢,尤其是在多視圖駕駛視頻的生成方面。然而,在生成自定義駕駛視頻方面仍然存在重大挑戰。在本文中,我們提出了DriveDreamer-2,它建立在DriveDreamer的框架上,并結合了一個大語言模型(LLM)來生成用戶定義的駕駛視頻。具體來說,LLM接口最初被合并以將用戶的查詢轉換為代理軌跡。隨后,根據軌跡生成符合交通規則的HDMap。最終,我們提出了統一多視圖模型,以增強生成的駕駛視頻的時間和空間連貫性。DriveDreamer-2是世界上第一款生成自定義駕駛視頻的世界模型,它可以以用戶友好的方式生成不常見的駕駛視頻(例如,車輛突然駛入)。此外,實驗結果表明,生成的視頻增強了駕駛感知方法(如3D檢測和跟蹤)的訓練。此外,DriveDreamer-2的視頻生成質量超過了其他最先進的方法,FID和FVD得分分別為11.2和55.7,相對提高了~30%和~50%。

  • 開源鏈接:https://drivedreamer2.github.io/

總結來說,本文的主要貢獻如下:

  • 我們推出DriveDreamer-2,這是世界上第一款以用戶友好的方式生成虛擬駕駛視頻的車型。
  • 我們提出了一種僅使用文本提示作為輸入的交通仿真管道,可用于生成用于駕駛視頻生成的各種交通條件。
  • UniMVM旨在無縫集成視圖內和視圖間的空間一致性,提高生成的駕駛視頻的整體時間和空間一致性。
  • 大量實驗表明,DriveDreamer-2可以制作各種定制的駕駛視頻。此外,DriveDreamer-2與以前性能最好的方法相比,可將FID和FVD提高約30%和約50%。此外,DriveDreamer-2生成的駕駛視頻增強了對各種駕駛感知方法的訓練。

相關工作回顧

世界模型

世界方法的主要目標是建立動態環境模型,賦予主體對未來的預測能力。在早期的探索中,變分自動編碼器(VAE)和長短期記憶(LSTM)被用于捕捉過渡動力學和排序功能,在不同的應用中顯示出顯著的成功。構建駕駛世界模型帶來了獨特的挑戰,主要源于現實世界駕駛任務固有的高樣本復雜性。為了應對這些挑戰,ISO Dream引入了將視覺動力學明確分解為可控和不可控狀態的方法。MILE戰略性地將世界建模納入鳥瞰圖(BEV)語義分割空間。最近,DriveDreamer、GAIA-1、ADriver-I和Drive-WM探索了利用強大的擴散模型或自然語言模型在現實世界中訓練駕駛世界模型。然而,這些方法中的大多數在很大程度上依賴于結構化信息(例如,3D框 、HDMaps和光流)作為條件。這種獨立性不僅限制了互動性,也限制了世代的多樣性。

視頻生成

視頻生成和預測是理解視覺世界的關鍵技術。在視頻生成的早期階段,探索了變分自動編碼器(VAE)、基于流的模型和生成對抗網絡(GANs)等方法。語言模型也用于復雜的視覺動力學建模。最近的進展表明,擴散模型對視頻生成的影響越來越大。值得注意的是,視頻擴散模型在生成具有逼真幀和平滑過渡的高質量視頻方面表現出卓越的能力,提供了增強的可控性。這些模型無縫地適應各種輸入條件,包括文本、canny、草圖、語義圖和深度圖。在自動駕駛領域,DriveDreamer-2利用強大的擴散模型學習視覺動力學。

交通仿真

駕駛仿真器是自動駕駛開發的基石,旨在提供一個仿真真實世界條件的受控環境。LCTGen使用LLM將詳細的語言描述編碼為向量,然后使用生成器生成相應的仿真場景。這種方法需要高度詳細的語言描述,包括代理的速度和方向等信息。TrafficGen理解交通場景中的固有關系,從而能夠在同一地圖內生成多樣化和合法的交通流。CTG通過采用符合交通約束的手動設計的損失函數來生成交通仿真。CTG++進一步擴展了CTG,利用GPT-4將用戶語言描述轉換為損失函數,該函數指導場景級條件擴散模型生成相應的場景。在DriveDreamer-2中,我們構建了一個函數庫來微調LLM,以實現用戶友好的文本到流量仿真,消除了復雜的損失設計或復雜的文本提示輸入。

詳解DriveDreamer-2

圖2展示了DriveDreamer-2的總體框架。首先提出了一種定制的交通仿真來生成前臺代理軌跡和后臺HDMaps。具體而言,DriveDreamer-2利用微調后的LLM將用戶提示轉換為代理軌跡,然后引入HDMap生成器,使用生成的軌跡作為條件來仿真道路結構。DriveDreamer-2利用定制的流量仿真管道,能夠為后續視頻生成生成生成各種結構化條件。在DriveDreamer架構的基礎上,提出了UniMVM框架,以統一視圖內和視圖間的空間一致性,從而增強生成的駕駛視頻的整體時間和空間一致性。在接下來的章節中,我們將深入研究定制交通fang'zhen和UniMVM框架的細節。

自定義交通仿真

在所提出的定制交通仿真管道中,構建了一個軌跡生成函數庫來微調LLM,這有助于將用戶提示轉移到不同的代理軌跡中,包括切入和掉頭等動作。此外,該管道包含HDMap生成器,用于仿真背景道路結構。在此階段,先前生成的代理軌跡充當條件輸入,確保生成的HDMap符合流量約束。在下文中,我們將詳細介紹LLM的微調過程和HDMap生成器的框架。

用于軌跡生成的微調LLM以前的交通仿真方法需要復雜的參數規范,包括代理的速度、位置、加速度和任務目標等細節。為了簡化這一復雜的過程,我們建議使用構建的軌跡生成函數庫對LLM進行微調,從而將用戶友好的語言輸入有效地轉換為全面的交通仿真場景。如圖3所示,構建的函數庫包括18個函數,包括代理函數(轉向、等速、加速度和制動)、行人函數(行走方向和速度)以及其他實用函數,如保存軌跡。在這些函數的基礎上,文本到Python腳本對是手動策劃的,用于微調LLM(GPT-3.5)。腳本包括一系列基本場景,如變道、超車、跟隨其他車輛和執行掉頭。此外,我們還包括更不常見的情況,如行人突然橫穿馬路,車輛駛入車道。以用戶輸入的車輛切入為例,相應的腳本包括以下步驟:首先生成切入軌跡(agent.cut_in()),然后生成相應的ego-car軌跡(agent.forward());最后利用實用程序的保存功能,以數組形式直接輸出ego-car和其他代理的軌跡。有關更多詳細信息,請參閱補充材料。在推理階段,我們將提示輸入擴展到預定義的模板,微調后的LLM可以直接輸出軌跡陣列。

HDMap生成綜合交通仿真不僅需要前臺代理的軌跡,還需要生成后臺HDMap元素,如車道和人行橫道。因此,提出了HDMap生成器,以確保背景元素與前景軌跡不沖突。在HDMap生成器中,我們將背景元素生成公式化為條件圖像生成問題,其中條件輸入是BEV軌跡圖,目標是BEV HDMap。與以前主要依賴于輪廓條件(邊緣、深度、方框、分割圖)的條件圖像生成方法不同,所提出的HDMap生成器探索前景和背景交通元素之間的相關性。具體地,HDMap生成器是在圖像生成擴散模型上構建的。為了訓練生成器,我們對HDMap數據集進行軌跡規劃。在軌跡圖中,指定不同的顏色來表示不同的代理類別。同時,目標HDMap包括三個通道,分別表示車道邊界、車道分隔線和行人交叉口。在HDMap生成器中,我們使用2D卷積層的堆棧來合并軌跡圖條件。然后,使用將生成的特征圖無縫集成到擴散模型中(有關其他架構詳細信息,請參見補充)。在訓練階段,擴散正向過程逐漸將噪聲ε添加到潛在特征中,從而產生噪聲潛在特征。然后我們訓練εθ來預測我們添加的噪聲,并且HDMap生成器φ通過:

如圖4所示,利用所提出的HDMap生成器,我們可以基于相同的軌跡條件生成不同的HDMap。值得注意的是,生成的HDMaps不僅遵守交通約束(位于車道分隔帶兩側的車道邊界和十字路口的人行橫道),而且與軌跡無縫集成。

UniMVM

利用定制交通仿真生成的結構化信息,可以通過DriveDreamer的框架生成多視圖駕駛視頻。然而,在以前的方法中引入的視圖關注并不能保證多視圖的一致性。為了緩解這個問題,采用圖像或視頻條件來生成多視圖駕駛視頻。雖然這種方法增強了不同觀點之間的一致性,但它是以降低發電效率和多樣性為代價的。在DriveDreamer-2中,我們在DriveDreamer框架中引入了UniMVM。UniMVM旨在統一多視圖駕駛視頻的生成,無論是否具有相鄰視圖條件,這確保了時間和空間的一致性,而不會影響生成速度和多樣性。

多視圖視頻聯合分布可以通過以下方式獲得:

如圖5所示,我們將UniMVM的范式與DriveDreamer[56]和Drive-WM[59]的范式進行了比較。與這些同行相比,UniMVM將多個視圖統一為一個完整的視頻生成補丁,而不引入跨視圖參數。此外,可以通過調整掩碼m來完成各種驅動視頻生成任務。特別地,當m被設置為掩碼未來的T?1幀時,UniMVM基于第一幀的輸入啟用未來視頻預測。將m配置為屏蔽{FL、FR、BR、B、BL}視圖,使UniMVM能夠利用前視圖視頻輸入實現多視圖視頻輸出。此外,當m被設置為屏蔽所有視頻幀時,UniMVM可以生成多視圖視頻,并且定量和定性實驗都驗證了UniMVM能夠以增強的效率和多樣性生成時間和空間相干的視頻。

視頻生成基于UniMVM公式,可以在DriveDreamer[56]的框架內生成駕駛視頻。具體來說,我們的方法首先統一了交通結構化條件,這導致了HDMaps和3D盒子的序列。注意,3D框的序列可以從代理軌跡導出,并且3D框的大小是基于相應的代理類別來確定的。與DriveDreamer不同,DriveDreamer-2中的3D盒子條件不再依賴于位置嵌入和類別嵌入。相反,這些框被直接投影到圖像平面上,起到控制條件的作用。這種方法消除了引入額外的控制參數,如[56]中所述。我們采用三個編碼器將HDMaps、3D框和圖像幀嵌入到潛在空間特征yH、yB和yI中。然后,我們將空間對齊的條件yH,yB與Zt連接起來,以獲得特征輸入Zin,其中Zt是通過前向擴散過程從yI生成的噪聲潛在特征。對于視頻生成器的訓練,所有參數都通過去噪分數匹配進行優化[26](詳見補充)。

實驗

用戶自定義駕駛視頻生成

DriveDreamer-2提供了一個用戶友好的界面,用于生成駕駛視頻。如圖1a所示,用戶只需要輸入文本提示(例如,在雨天,有一輛汽車駛入)。然后DriveDreamer-2生成與文本輸入對齊的多視圖駕駛視頻。圖6展示了另外兩個自定義駕駛視頻。上圖描繪了白天ego汽車向左變道的過程。下圖展示了一個意想不到的行人在夜間橫穿馬路,促使ego汽車剎車以避免碰撞。值得注意的是,生成的視頻展示了非凡的真實感,我們甚至可以觀察到遠光燈在行人身上的反射。

生成視頻的質量評估

為了驗證視頻生成質量,我們將DriveDreamer-2與nuScenes驗證集上的各種駕駛視頻生成方法進行了比較。為了進行公平的比較,我們在三種不同的實驗設置下進行了評估——無圖像條件、有視頻條件和第一幀多視圖圖像條件。實驗結果如表1所示,表明DriveDreamer-2在所有三種設置中都能始終如一地獲得高質量的評估結果。具體而言,在沒有圖像條件的情況下,DriveDreamer-2的FID為25.0,FVD為105.1,顯示出比DriveDreamer的顯著改進。此外,盡管僅限于單視圖視頻條件,但與使用三視圖視頻條件的DriveWM相比,DriveDreamer-2在FVD方面表現出39%的相對改善。此外,當提供第一幀多視圖圖像條件時,DriveDreamer-2實現了11.2的FID和55.7的FVD,大大超過了以前的所有方法。

更多可視化:

結論和討論

本文介紹了DriveDreamer-2,這是DriveDreamer框架的創新擴展,開創了用戶自定義駕駛視頻的生成。DriveDreamer-2利用大型語言模型,首先將用戶查詢轉移到前臺代理軌跡中。然后,可以使用所提出的HDMap生成器生成背景交通狀況,并將代理軌跡作為條件。生成的結構化條件可以用于視頻生成,我們提出了UniMVM來增強時間和空間的一致性。我們進行了廣泛的實驗來驗證DriveDreamer-2可以生成不常見的駕駛視頻,例如車輛的突然機動。重要的是,實驗結果展示了生成的視頻在增強駕駛感知方法訓練方面的效用。此外,與最先進的方法相比,DriveDreamer-2顯示出卓越的視頻生成質量,FID和FVD得分分別為11.2和55.7。這些分數代表了大約30%和50%的顯著相對改進,肯定了DriveDreamer-2在多視圖駕駛視頻生成方面的功效和進步。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-10-28 13:30:00

2024-10-22 09:40:00

模型生成

2023-09-26 13:33:27

AI自動駕駛

2010-07-28 10:08:19

硅光芯片每秒50GB

2024-08-29 09:40:51

2023-12-04 09:33:00

自動駕駛視覺

2024-10-30 09:26:41

2024-08-20 09:15:00

2023-10-23 10:11:36

自動駕駛技術

2015-03-04 14:10:06

2011-11-15 13:07:52

TegraARM架構超級計算機

2012-07-10 11:31:37

OpenFlowSDN

2011-08-25 11:44:21

LUA腳本魔獸世界

2020-10-22 13:10:56

機器學習人工智能計算機

2023-08-28 13:06:19

AI模型

2016-11-13 16:08:07

2020-05-15 12:27:33

RPA人工智能

2022-12-07 07:48:36

WebStorm自定義TouchBar

2021-01-18 11:46:28

漏洞惡意軟件Malvuln

2024-12-27 15:37:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产情侣激情 | 97精品国产97久久久久久免费 | 久久久www成人免费精品张筱雨 | 亚洲性视频| 久久天堂网 | 干一干操一操 | 国产精品视频播放 | 亚洲导航深夜福利涩涩屋 | 欧美中文字幕 | 欧美精品片| 亚洲欧美激情四射 | 亚洲精品国产a久久久久久 午夜影院网站 | 超碰在线播 | 欧美αv| 综合久久综合久久 | 一区二区三区视频在线观看 | 日韩高清中文字幕 | av免费网站在线 | 日韩成人一区 | 国产成人在线一区二区 | 日韩不卡视频在线观看 | 久久av一区二区三区 | 中文字幕一区二区在线观看 | 在线观看涩涩视频 | 青青操91 | 二区三区视频 | 国产精品69毛片高清亚洲 | 国内精品久久久久久久 | 一区二区三区在线观看视频 | 欧美日韩精品免费观看 | 欧美黄 片免费观看 | 99精品久久 | 中国人pornoxxx麻豆 | 91精品久久久久久综合五月天 | 欧美国产日韩在线 | 国产麻豆乱码精品一区二区三区 | 日韩三级电影一区二区 | 色综合久 | 欧美黄色网络 | 欧美日韩大陆 | 国产精品视频久久 |