成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

直接暴漲十個點!地平線提出DOME:擴散和Occ雙管齊下,打造超真實世界模型!

人工智能 新聞
今天為大家分享地平線和中科院軟件研究所最新的世界模型工作—DOME!擴散和OCC雙管齊下,打造世界模型。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面 && 筆者理解

在任何一組東西中,最重要的只占其中一小部分,約20%,其余80%盡管是多數,卻是次要的,這就是著名的“二八定律”。而自動駕駛發展至今,解決剩余20%的“重要的”長尾問題和極端案例一直是一件比較棘手的事情。即使是最先進的SOTA和最廣泛的數據收集工作也難以解決。而解決這些挑戰的一個有希望的方法在于世界模型。世界模型結合了歷史上下文和其它智能體的行動來預測環境觀察的未來演變。這允許自動駕駛模型更深入地預測未來,改進行動可行性的評估。

世界模型可以分為幾種類型:包括基于2D視頻的模型和基于3D表示的模型,比如利用LiDAR和占用框架的模型。前者基于視頻的世界模型在維持跨視圖和跨時間一致性方面會面臨一些挑戰,從而阻礙了它們在現實世界場景中的應用。而基于占用的世界模型避免了這個問題。這些模型以歷史占用序列作為輸入,并預測未來的占用觀察,用原始的3D表示確保了內在的3D一致性。另外,占用標注相對容易獲得,因為它們可以有效地從稀疏的LiDAR標注中學習,或者可能通過時間幀的自監督學習獲得。基于占用的模型也是模態不確定的,表明它們可以從單目或環視相機生成,或者從LiDAR傳感器生成。

現有的基于占用的世界模型可以分為兩種類型:基于自回歸的和基于擴散的:

  1. 基于自回歸的方法以自回歸的方式使用離散標記預測未來的占用。然而,由于這些方法依賴于離散標記器,量化過程導致信息丟失,限制了預測高保真占用的能力。此外,自回歸方法難以生成真實的長時間占用序列。
  2. 基于擴散的方法將空間和時間信息展平為一維的標記序列,而不是單獨處理它們,導致在有效捕獲空間時間信息方面存在困難。因此,將歷史占用信息整合到模型中變得困難,因為空間和時間數據被結合在一起。這種限制意味著模型可以生成輸出,但不能預測,限制了其在現實世界場景中的適用性。此外,作者發現大多數占用世界模型對細粒度控制的探索不足,導致過度擬合特定場景,限制了它們對下游任務的適用性。

為了解決上述問題,作者提出了一種預測未來占用幀的新方法,稱為DOME。具體來說,作者的方法包括兩個組件:Occ-VAE和DOME。為了克服離散標記的限制,作者的Occ-VAE使用連續的潛在空間來壓縮占用數據。這允許有效的壓縮,同時保留高保真細節。作者世界模型展示了兩個關鍵特征:

  1. 高保真度和長時生成。作者采用時空擴散變換器來預測未來的占用幀。通過利用上下文占用條件,作者將歷史占用信息作為輸入。時空架構有效地捕獲了空間和時間信息,實現了精細細節,并能夠生成長時預測(32秒)。
  2. 細粒度可控性。作者通過引入軌跡重采樣方法來解決預測中的精確控制挑戰,這顯著提高了模型生成更精確和多樣化占用預測的能力。

圖片

相關工作

3D 占用預測

3D 占用預測任務涉及預測每個3D體素的占用狀態和語義標簽。最近的方法專注于基于視覺的占用預測,使用圖像作為輸入。這些方法可以根據它們的特征增強分為三種主流類型:鳥瞰圖(BEV)、三視角圖(TPV)和基于體素的方法。

基于BEV的方法在BEV空間中學習特征,對遮擋不太敏感。它首先使用主干網絡提取2D圖像特征,應用視點變換以獲得BEV特征,最后使用3D占用頭進行預測。然而,由于其自上而下的投影,BEV方法難以傳達詳細的3D信息。為了解決這個限制,基于TPV的方法利用三個正交投影平面,增強了描述細粒度3D結構的能力。這些方法同樣提取2D圖像特征,然后將它們提升到三個平面上,然后將投影的特征相加以形成3D空間表示。與這些基于投影的方法相對,基于體素的方法直接從原始3D空間學習,有效地捕獲了全面的空間信息。這些方法從主干網絡提取2D圖像特征,并將它們轉換為3D表示,然后由3D占用頭處理以進行占用預測。

自動駕駛世界模型

世界模型是智能體周圍環境的表示。給定智能體的行動和歷史觀察,它預測下一個觀察,幫助智能體對其環境有一個全面的了解。最近的方法旨在通過整合不同的模態,如點云或3D占用,來擴展自動駕駛世界模型。基于LiDAR的世界模型預測4D LiDAR點云。Copilot4D是一種使用VQVAE和離散擴散來預測未來觀察的世界建模方法。它在幾個數據集上提高了50%以上的預測精度,展示了GPT類無監督學習在機器人技術的潛力。另一種方法是基于占用的世界模型,它通過3D占用預測未來場景。OccWorld是一個用于自動駕駛的3D世界模型,它使用3D占用預測自我車輛的運動和周圍場景的演變。OccSora是一個基于擴散的模型,用于模擬自動駕駛中3D世界的演變。它使用4D場景標記器和DiT世界模型進行占用生成,輔助自動駕駛中的決策。

模型框架

作者介紹了DOME,一個基于擴散的占用世界模型。作者的方法由兩個主要組件組成:Occ-VAE和DOME。為了使世界模型與軌跡條件對齊,作者提出了軌跡編碼器和軌跡重采樣技術,專門設計用于增強模型的可控性。

圖片

Occ-VAE

Occ-VAE是作者模型的核心組件,它使用變分自編碼器(VAE)將占用數據壓縮到潛在空間,這對于提高表示的緊湊性和世界模型預測的效率至關重要。注意到離散標記器通常無法保留占用幀的精細細節,作者提出將密集的占用數據編碼到連續的潛在空間中,以更好地保留復雜的空間信息。如圖2所示的提出的架構,細節如下:

DOME:基于擴散的占用世界模型

軌跡作為條件

圖片

圖片

軌跡重采樣:這個問題源于訓練數據集中的不平衡和有限多樣性。例如,在nuScenes數據集中,訓練集包含700個場景,但大多數涉及車輛直行(大約87%,見圖4(c)),突出了不平衡問題。此外,在同一場景中,車輛只通過一次,導致在相同場景下不同軌跡條件下缺乏多樣化的3D占用樣本。這導致模型過度擬合場景,僅根據上下文觀察學習基于真實特征的觀察。原始軌跡分布如圖4(a)所示。

作者的重采樣軌跡分布如圖4(b)所示。與圖4(a)相比,它填補了軌跡分布的空白,表明作者的方法增強了多樣性并減輕了不平衡。圖4(c)所示的駕駛方向直方圖進一步支持了這種改進。

總之,作者的軌跡重采樣方法既簡單又有效。據作者所知,作者是第一個探索世界模型預測的占用數據增強。這種方法具有很高的通用性,可以應用于所有類型的占用數據,包括機器標注的、LiDAR收集的或自監督的數據。它只需要姿態和占用數據,而不需要LiDAR數據或3D邊界框。

世界模型的應用

實驗結果

實驗設置

作者在nuScenes數據集上進行實驗,使用IoU(交并比)和mIoU(平均交并比)指標來評估占用重建和4D占用預測。更高的IoU和mIoU值表明在壓縮過程中信息丟失較少,反映了更好的重建性能,并展示了對未來周圍環境更準確的理解。

占用重建

盡可能壓縮的同時精確重建占用對于下游任務如預測和生成至關重要。在這里,作者將Occ-VAE與使用占用標記器的現有方法進行比較,并評估它們的重建精度。占用重建的定量結果如表1所示。作者在IoU和mIoU指標上都實現了最先進的重建性能,分別為83.1%的mIoU和77.3%的IoU。

圖片

4D占用預測

作者在各種設置下將其方法與現有的4D占用預測方法進行比較。這些設置包括使用地面實況3D占用數據(-O)作為輸入,以及使用現成的3D占用預測器(-F)的預測結果作為輸入。按照Wei et al.(2024)的實驗設置,作者使用FB-OCC作為占用提取器,利用來自相機輸入的預測。

定性結果如圖5所示。定量結果如表2所示,表明作者的DOME-O實現了最先進的性能,mIoU為27.10%,IoU為36.36%。作者觀察到與現有方法相比,在短期(1秒)和長期(3秒)預測方面都有顯著改進,表明作者的模型有效地捕獲了場景隨時間的基本演變。DOME-F可以被認為是一種端到端的基于視覺的4D占用預測方法,因為它僅使用周圍的相機捕獲作為輸入。盡管任務具有挑戰性,作者的方法仍然實現了有競爭力的性能,進一步證明了DOME具有很強的泛化能力。

圖片圖片

作者還展示了模型的長期生成能力,如圖6所示,以及在給定相同起始幀的情況下,通過軌跡條件進行操作的能力,如圖7所示。此外,作者還在表4中將其方法的生成能力與現有的占用世界模型進行了比較,作者的方法能夠生成的持續時間是OccWorld的兩倍,是OccSora的兩倍。

圖片圖片

消融研究

不同的軌跡條件:作者測試了軌跡條件的不同設置,結果如表3所示。Traj.表示是否使用姿態條件進行預測,Res.表示是否使用作者的軌跡重采樣增強,Yaw表示是否添加偏航角嵌入。即使不使用任何姿態條件,作者發現其模型優于OccWorld。軌跡信息通過為模型提供場景變化的明確方向而不是要求它從多種可能性中推斷出來,顯著改善了預測。偏航角嵌入在IoU方面提供了輕微的改進。

圖片

上下文幀的數量:作者發現在預測過程中提供更多的上下文幀可以帶來更好的預測(見表5),因為額外的幀為模型提供了關于其他車輛和場景的運動和變化的更明確信息。然而,作者也觀察到增加幀的數量不如使用軌跡信息高效,因為模型必須導航模糊的幀歷史來預測未來的運動。對于基于智能體確定的運動進行預測的世界模型來說,這種歧義是不必要的。

結論和展望

作者提出了一個基于擴散的世界模型DOME,它根據歷史數據預測未來的占用幀。它整合了帶有軌跡編碼器和重采樣技術的Occ-VAE,以增強可控性。DOME展示了高保真度生成,有效地預測了占用空間中未來場景的變化,并且可以生成比以前方法長兩倍的占用序列。這種方法在自動駕駛的端到端規劃中具有應用前景。不過作者發現訓練作者的模型仍然需要大量的計算資源。在未來,作者將探索更輕量級和計算效率高的方法,或者采用微調范式以減少資源需求。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2016-09-21 15:15:00

APICloud

2015-09-18 13:19:39

VMware容器技術

2012-01-04 16:01:28

2024-11-20 10:00:00

2010-11-11 11:54:52

IT管理運維管理北塔

2014-05-16 11:13:22

2010-01-28 15:05:50

互聯網

2015-09-29 15:56:33

2013-05-29 09:47:54

2010-01-21 17:05:21

互聯網

2011-06-09 10:54:51

2012-03-01 11:45:13

梭子魚云端IT

2010-02-25 14:27:59

Windows CE

2010-04-21 18:33:35

2025-01-02 09:12:34

2014-08-08 13:54:32

QQ瀏覽器

2010-09-08 16:19:24

諾西LTE

2022-07-20 13:48:58

蘋果裁員減緩招聘

2015-10-08 15:39:01

IT分銷商互聯網+
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人深夜福利 | 黄色高清视频 | 久久99精品久久久 | 国产三级国产精品 | 久草中文网 | 中文字幕国产视频 | 欧美激情第一区 | 国产三级精品视频 | 日日骑 | 日韩欧美手机在线 | 午夜爽爽爽男女免费观看影院 | 激情国产在线 | 国产亚洲欧美在线 | 亚洲一区二区三区免费在线观看 | 一区二区中文 | 中文字幕精品视频 | 99久久精品免费看国产四区 | 成人精品久久 | 欧美中文字幕一区二区 | 欧美成人精品一区二区男人看 | 天天精品在线 | 日韩成人在线视频 | 国产成人免费网站 | 亚洲精品电影在线观看 | 国产激情片在线观看 | 成人午夜电影在线观看 | 2023亚洲天堂 | 亚洲午夜精品 | 国产精品一区二区三区四区 | 久久久久久久久淑女av国产精品 | 久久99视频这里只有精品 | 伊人焦久影院 | 国产农村妇女毛片精品久久麻豆 | 久久99精品久久久久久国产越南 | 成年女人免费v片 | 欧美八区| 日韩精品免费视频 | 久久成人一区 | 成人在线视频观看 | 中文字幕日韩欧美一区二区三区 | 国产美女精品 |