成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Delphi:更適合端到端模型的world model,更長(zhǎng)更真更可控!(理想汽車&西湖大學(xué))

人工智能 智能汽車
今天為大家分享西湖大學(xué)&理想汽車團(tuán)隊(duì)的最新的工作—Delphi,一種新的基于擴(kuò)散模型的可控長(zhǎng)視頻生成的方法,大步邁向端到端!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

導(dǎo)讀:

理想汽車智駕團(tuán)隊(duì)聯(lián)合西湖大學(xué)等提出了一種新的基于擴(kuò)散模型的可控長(zhǎng)視頻生成的方法--Delphi,來(lái)釋放端到端模型的泛化性能。該方法可以在公開(kāi)的nuScenes數(shù)據(jù)集上生成長(zhǎng)達(dá) 40 幀的具備時(shí)空一致性的長(zhǎng)視頻,該時(shí)長(zhǎng)大約是目前最優(yōu)方法可生成時(shí)長(zhǎng)的 5 倍。以Delphi為數(shù)據(jù)引擎,該文進(jìn)一步地提出了一個(gè) failure-case driven framework,該框架能有效地提升數(shù)據(jù)采樣的效率,從而用最小的數(shù)據(jù)成本提升端到端模型在復(fù)雜場(chǎng)景上的泛化性能。在大規(guī)模的nuSenes數(shù)據(jù)集上的實(shí)驗(yàn)表明,以Delphi為數(shù)據(jù)引擎的的failure-case driven framework, 僅需生成4% 的訓(xùn)練數(shù)據(jù)集大小,就能夠?qū)⒍说蕉俗詣?dòng)駕駛模型的規(guī)劃性能提高 25%。

論文信息

  • 論文題目:Unleashing Generalization of End-to-End Autonomous Driving with Controllable Long Video Generation
  • 論文發(fā)表單位:西湖大學(xué),理想汽車,天津大學(xué)中山大學(xué),東南大學(xué),哈爾濱工程大學(xué),哈爾濱工業(yè)大學(xué)
  • 論文地址:https://arxiv.org/abs/2406.01349
  • 項(xiàng)目主頁(yè):https://westlake-autolab.github.io/delphi.github.io/

圖片

寫在前面|為什么提出?

圖片

使用生成模型來(lái)合成新數(shù)據(jù)已經(jīng)成為自動(dòng)駕駛領(lǐng)域解決數(shù)據(jù)稀缺問(wèn)題的事實(shí)標(biāo)準(zhǔn)。雖然現(xiàn)有方法能夠提升感知模型的性能,但我們發(fā)現(xiàn)這些方法未能改善端到端自動(dòng)駕駛模型的規(guī)劃性能,因?yàn)樯傻囊曨l通常少于8幀,且空間和時(shí)間的一致性問(wèn)題不可忽視。為此,我們提出了Delphi,一種基于擴(kuò)散模型的長(zhǎng)視頻生成方法,通過(guò)跨多視角的共享噪聲建模機(jī)制來(lái)增加空間一致性,并通過(guò)特征對(duì)齊模塊實(shí)現(xiàn)精確的可控性和時(shí)間一致性。我們的方法能夠生成多達(dá)40幀的視頻而不失去一致性,約為現(xiàn)有最先進(jìn)方法的5倍。不同于隨機(jī)生成新數(shù)據(jù)的策略,我們進(jìn)一步設(shè)計(jì)了一個(gè)采樣策略,使Delphi生成與失敗案例相似的新數(shù)據(jù),以提高采樣效率。這是通過(guò)借助預(yù)訓(xùn)練視覺(jué)語(yǔ)言模型建立一個(gè)failure-case driven framework實(shí)現(xiàn)的。我們的廣泛實(shí)驗(yàn)表明,Delphi生成的長(zhǎng)視頻質(zhì)量更高,超越了現(xiàn)有最先進(jìn)的方法。因此,盡管只生成了訓(xùn)練數(shù)據(jù)集大小的4%,我們的框架首次超越了感知和預(yù)測(cè)任務(wù),將端到端自動(dòng)駕駛模型的規(guī)劃性能提升了25%。請(qǐng)參考項(xiàng)目主頁(yè):https://westlake-autolab.github.io/delphi.github.io/

Demo示例

在nuScenes數(shù)據(jù)集上的長(zhǎng)視頻生成(40幀)

精準(zhǔn)的控制能力

該文從兩方面來(lái)展示了Delphi的精準(zhǔn)控制能力。

首先,對(duì)于instance-level即物體級(jí)別的時(shí)序一致性,與現(xiàn)有最優(yōu)方法相比,Delphi可以在前后幀上保持同一車輛實(shí)例的外觀一致性:

圖片

除此之外,Delphi展示了優(yōu)秀的multi-level編輯能力。如下圖所示,通過(guò)編輯instance caption / scene caption, Delphi可以精準(zhǔn)地改變場(chǎng)景中實(shí)例的顏色屬性/整體的天氣屬性:

圖片

Scaleing up

除此之外,為了驗(yàn)證訓(xùn)練數(shù)據(jù)規(guī)模的影響,該文又做了一個(gè)額外的實(shí)驗(yàn)(注意:只有該處用了extra training data)。即通過(guò)在私有的多視角駕駛數(shù)據(jù)集 ? 上進(jìn)行額外訓(xùn)練(訓(xùn)練數(shù)據(jù)大約比 nuScenes 大 50 倍),Delphi 展示了生成多達(dá) 120 幀具有時(shí)空一致性的長(zhǎng)視頻的有趣功能。這充分體現(xiàn)了Delphi的可擴(kuò)展性。

? 理想汽車股份有限公司 版權(quán)所有。

應(yīng)用:可用于閉環(huán)評(píng)估的視覺(jué)渲染器

Delphi 可以用作具有逼真圖像生成能力的數(shù)據(jù)引擎,并進(jìn)一步支持端到端模型(如 UniAD)的閉環(huán)評(píng)估。下面我們展示了在 nuNcenes 上進(jìn)行閉環(huán)評(píng)估的視頻demo:

上面一排展示的是 nuNcenes 數(shù)據(jù)集采集到的一段開(kāi)環(huán)評(píng)估場(chǎng)景:“自車以恒定速度行駛”,其中自車不能與真實(shí)環(huán)境交互。下排展示了我們使用 Delphi 在 nuNcenes 上的一段閉環(huán)評(píng)估場(chǎng)景:“自車加速,與前車的距離不斷減小,最終撞上前車”。以Delphi作為數(shù)據(jù)引擎,端到端算法可以自由地與真實(shí)環(huán)境交互,從而在仿真環(huán)境中就可實(shí)現(xiàn)上路實(shí)測(cè)的效果。

方法框架介紹

我們首先介紹Delphi,一種用于生成自動(dòng)駕駛長(zhǎng)多視角視頻的創(chuàng)新方法。然后介紹了一個(gè)failure-case driven framework,展示了如何利用長(zhǎng)視頻生成能力,僅通過(guò)訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù),來(lái)自動(dòng)增強(qiáng)端到端模型的泛化能力。

Delphi: A Controllable Long Video Generation Method

Delphi的整體框架如上圖所示。現(xiàn)有方法往往忽略了時(shí)間和空間維度上的噪聲處理,導(dǎo)致長(zhǎng)視頻生成質(zhì)量較差。相比之下,我們提出了兩個(gè)關(guān)鍵組件來(lái)解決這些問(wèn)題:Noise Reinitialization Module(NRM)和 Feature-aligned Temporal Consistency(FTCM)。

  1. Noise Reinitialization Module

多視角視頻自然在時(shí)間和視角維度上表現(xiàn)出相似性。然而,現(xiàn)有方法分為兩類:一類是并行單視角視頻生成方法,無(wú)法直接應(yīng)用于戶外多視角場(chǎng)景;另一類是多視角生成模型,它們添加的獨(dú)立噪聲未考慮視角間的一致性。我們通過(guò)引入跨這兩個(gè)維度的共享噪聲來(lái)解決這個(gè)問(wèn)題。具體而言,如上圖(b)所示,我們?cè)跁r(shí)間維度上引入共享運(yùn)動(dòng)噪聲 m,在視角維度上引入共享全景噪聲 p。最終輸出的多視角視頻的噪聲版本在時(shí)間和視角維度上都具有相關(guān)性。其中引入共享噪聲的過(guò)程可以表示如下:

圖片

  1. Feature-aligned Temporal Consistency

現(xiàn)有方法在生成當(dāng)前幀時(shí),利用簡(jiǎn)單的交叉注意力機(jī)制將前一幀的信息融合到當(dāng)前視角中。然而,它們往往忽略了不同網(wǎng)絡(luò)深度處的特征具有不同的感受野。結(jié)果是,這種粗略的特征交互方法未能捕捉到前一幀中不同層次的所有信息,導(dǎo)致視頻生成性能不理想。

為了解決這個(gè)問(wèn)題,我們提出了一種更有效的結(jié)構(gòu),旨在完全建立相鄰幀中相同網(wǎng)絡(luò)深度下的對(duì)齊特征之間的特征交互,如上圖(c)所示。我們的做法是確保全局一致性并優(yōu)化局部一致性,其中包含兩個(gè)主要設(shè)計(jì):Scene-aware Attention 和 Instance-aware Attention。

  • Scene-aware Attention

為了充分利用前一幀中不同網(wǎng)絡(luò)深度的豐富信息,我們提出了一種場(chǎng)景級(jí)跨幀注意力機(jī)制。具體來(lái)說(shuō),該模塊在相鄰幀中相同網(wǎng)絡(luò)深度的特征上執(zhí)行注意力計(jì)算。其計(jì)算過(guò)程可以表示如下:

圖片

  • Instance-aware Attention

為了增強(qiáng)場(chǎng)景中移動(dòng)物體的一致性,我們提出了一種實(shí)例感知跨幀注意力機(jī)制。與場(chǎng)景級(jí)注意力相比,該模塊使用前景邊界框作為注意力掩碼,在相鄰幀的局部區(qū)域中計(jì)算特征交互。其計(jì)算過(guò)程可以表示如下:

圖片

Failure-case Driven Framework

圖片

為了利用生成的數(shù)據(jù),常見(jiàn)的方法是隨機(jī)抽取訓(xùn)練數(shù)據(jù)集的一個(gè)子集,然后應(yīng)用視頻生成模型來(lái)增強(qiáng)這些數(shù)據(jù),從而提升下游任務(wù)的性能。我們假設(shè)這種隨機(jī)抽樣并未考慮現(xiàn)有的長(zhǎng)尾案例分布,還有進(jìn)一步優(yōu)化的空間。因此,我們提出了一個(gè)簡(jiǎn)單但有效的 failure-case driven framework,通過(guò)四個(gè)步驟來(lái)降低計(jì)算成本。如上圖所示,我們首先評(píng)估現(xiàn)有的失敗案例,然后采用一種 visual language-based 的方法來(lái)分析這些數(shù)據(jù)中的模式,并檢索相似的場(chǎng)景以更深入地理解上下文。接著,我們多樣化場(chǎng)景和實(shí)例的描述,以生成具有不同外觀的新數(shù)據(jù)。最后,我們用這些額外的數(shù)據(jù)對(duì)下游任務(wù)進(jìn)行訓(xùn)練,以提高泛化能力。

請(qǐng)注意,所有這些操作都是在訓(xùn)練集上進(jìn)行的,以避免任何驗(yàn)證信息的潛在泄漏。每個(gè)組件的詳細(xì)實(shí)現(xiàn)請(qǐng)參見(jiàn)補(bǔ)充材料。

實(shí)驗(yàn)結(jié)果

本文在大規(guī)模真實(shí)場(chǎng)景的nuScenes進(jìn)行實(shí)驗(yàn),以評(píng)估生成模型的性能,實(shí)驗(yàn)結(jié)果如下。我們的評(píng)估指標(biāo)包括FID、FVD 和下游模型在新生成數(shù)據(jù)上的性能來(lái)評(píng)估 image、video和sim-to-real gap。

主要實(shí)驗(yàn)

  1. 將 Delphi 與最先進(jìn)的視頻生成方法進(jìn)行比較

圖片

如表1所示,Delphi 在短視頻生成任務(wù)上以明顯優(yōu)勢(shì)超越了現(xiàn)有的最先進(jìn)方法,并且可以生成長(zhǎng)達(dá)40幀的視頻。

  1. 本文的 failure-case driven framework 增強(qiáng)了端到端規(guī)劃模型的泛化性能

圖片

為了證明我們框架的有效性,我們?cè)诒?中比較了三個(gè)因素:生成案例數(shù)量、數(shù)據(jù)引擎(視頻生成方法)和數(shù)據(jù)源選擇。總的來(lái)說(shuō),我們發(fā)現(xiàn),通過(guò)僅生成訓(xùn)練集大小的4%數(shù)據(jù),我們的方法可以將碰撞率從0.33降低到0.27,降低了25%。然而,在相同的設(shè)置下,如果我們使用其他數(shù)據(jù)引擎(如 Panacea)對(duì) UniAD 進(jìn)行微調(diào),碰撞率會(huì)增加。盡管如此,我們還是利用隨機(jī)抽樣對(duì)兩種數(shù)據(jù)引擎進(jìn)行了比較,我們的方法始終優(yōu)于基線。

我們?cè)谙聢D中展示了我們的框架如何修復(fù)失敗案例:

圖片

如果我們從驗(yàn)證集中對(duì)layout進(jìn)行采樣,會(huì)發(fā)生什么?

由于 Delphi 只看到 nuScenes 的訓(xùn)練集,一個(gè)自然的問(wèn)題是,我們是否可以包含驗(yàn)證集,看看是否可以進(jìn)一步提升下游任務(wù)的性能?在這里,我們收集了來(lái)自訓(xùn)練集和驗(yàn)證集的失敗案例。請(qǐng)注意,由于我們的框架只使用layout和caption,因此驗(yàn)證集中的原始視頻片段在任何訓(xùn)練過(guò)程中都不會(huì)被暴露。我們注意到,僅生成429個(gè)cases,僅占訓(xùn)練集大小的1.5%,碰撞率就從0.33降低到0.26。這個(gè)結(jié)果可能對(duì)工業(yè)從業(yè)者很有趣,即僅看到訓(xùn)練集視頻的diffusion-based方法可以通過(guò)layout和caption,來(lái)有效地提升驗(yàn)證集的性能。

消融實(shí)驗(yàn)

sim-to-real gap 的消融實(shí)驗(yàn)

為了進(jìn)一步評(píng)估 sim-to-real gap,我們使用不同比例的合成數(shù)據(jù)訓(xùn)練 UniAD。在表3 的第二行,我們用純生成的視頻片段訓(xùn)練 UniAD,碰撞率從0.34增加到0.50。這表明合成數(shù)據(jù)尚不能完全替代真實(shí)數(shù)據(jù)。相比之下,如果我們考慮增量學(xué)習(xí)的設(shè)置,即使用額外數(shù)據(jù)訓(xùn)練 UniAD 時(shí),使用合成數(shù)據(jù)能夠顯著提升性能,而使用額外的真實(shí)數(shù)據(jù)則會(huì)使性能從0.34惡化到0.38。

圖片

場(chǎng)景和實(shí)例編輯的消融實(shí)驗(yàn)

表4 展示了數(shù)據(jù)多樣性對(duì)端到端模型的有效性。具體來(lái)說(shuō),我們通過(guò)兩種方法編輯現(xiàn)有場(chǎng)景:scene-level editing 和 instance-level editing。這一高級(jí)功能使我們能夠從有限的現(xiàn)有數(shù)據(jù)中生成大量的新數(shù)據(jù)。如表4所示,同時(shí)編輯場(chǎng)景和實(shí)例能取得最佳性能。利用強(qiáng)大的精確可控性,Delphi 通過(guò)生成更豐富和多樣的數(shù)據(jù),最大化端到端模型的性能。

圖片

NRM 和 FTCM的消融實(shí)驗(yàn)

在表5 中,我們驗(yàn)證了兩個(gè)模塊NRM和FTCM。我們看到所有指標(biāo)均顯著提高,從而驗(yàn)證了我們提出方法的有效性。特別是,F(xiàn)TCM 結(jié)構(gòu)將 FID 從 22.85 提高到 19.81,而 NRM 則進(jìn)一步提升了這一指標(biāo)。

圖片

總結(jié)

本文提出了一種用于自動(dòng)駕駛場(chǎng)景的新型視頻生成方法,可以在 nuScenes 數(shù)據(jù)集上合成多達(dá)40幀的視頻。令人驚訝的是,本文展示了以僅使用訓(xùn)練數(shù)據(jù)集訓(xùn)練的擴(kuò)散模型為數(shù)據(jù)引擎,并通過(guò)一個(gè)樣本高效的 failure-case driven framework,就能夠提升端到端規(guī)劃模型的planning性能。我們希望能為該領(lǐng)域的研究人員和實(shí)踐者在解決數(shù)據(jù)稀缺問(wèn)題上提供一些啟示,并向確保自動(dòng)駕駛車輛道路安全邁出堅(jiān)實(shí)的一步。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-08-05 13:08:54

2023-07-20 15:46:24

2011-12-07 20:43:33

2025-01-16 10:11:58

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2024-12-18 10:30:00

自動(dòng)駕駛模型數(shù)據(jù)

2021-06-30 09:00:00

測(cè)試Web軟件

2020-10-26 13:51:11

Kafka數(shù)據(jù)端到端

2024-09-19 18:49:54

完全同態(tài)加密FHE機(jī)器學(xué)習(xí)

2025-01-09 14:34:50

2024-06-27 09:50:56

2020-11-10 13:08:45

鐳速功能視覺(jué)

2009-03-17 09:56:00

802.11n測(cè)試無(wú)線網(wǎng)絡(luò)

2024-09-10 12:11:18

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2019-04-11 09:22:31

AI 數(shù)據(jù)人工智能

2016-11-14 17:36:57

Angular 2應(yīng)用程序端對(duì)端

2022-10-19 09:27:39

2024-08-08 09:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩在线一区二区 | 国产精品久久久久久 | 亚洲一区二区在线电影 | 免费国产一区 | 日韩有码在线播放 | 伊人久久麻豆 | 欧美一区二区三区视频在线播放 | 91精品国产欧美一区二区 | av天天看 | 在线播放一区 | av中文字幕在线 | 午夜影院污 | 日韩精品一区二区三区中文在线 | 一区二区在线不卡 | 亚洲精品中文字幕 | 国产久 | 国产一级片网站 | 九九免费视频 | 免费在线观看av网站 | 福利一区二区 | 欧美在线a | 日韩精品一区二区三区中文字幕 | 欧美亚洲高清 | 久久精品综合 | 久久91av| 欧美乱淫视频 | 成人午夜免费在线视频 | 国产乱码精品1区2区3区 | 国产成人一区 | 九九久久久 | 免费视频久久久久 | 九九综合 | 日韩免费视频一区二区 | 91视频在线网站 | 国产激情视频在线免费观看 | 日韩欧美在线不卡 | 一区二区三区高清 | 在线观看国产www | 久久久久国产一区二区三区四区 | 欧美日韩专区 | 1区2区视频 |