端到端大一統前夕？GenAD：LLM和軌跡規劃全搞定

作者：Jiazhi Yang 2024-03-20 09:29:41

自動駕駛agents作為高級人工智能的一個有前景的應用，感知周圍環境，構建內部世界模型表示，做出決策，并作出響應行動。

今天汽車人和大家分享一篇自動駕駛領域中第一個大規模視頻預測模型。為了消除高成本數據收集的限制，并增強模型的泛化能力，從網絡獲取了大量數據，并將其與多樣化和高質量的文本描述配對。由此產生的數據集累積了超過2000小時的駕駛視頻，涵蓋了世界各地具有多樣化天氣條件和交通場景的區域。本文提出了GenAD，它繼承了最近潛在擴散模型的優點，通過新穎的時間推理模塊處理駕駛場景中的挑戰性動態情況。它可以以zero-shot的方式泛化到各種未見的駕駛數據集，超越了一般或駕駛特定的視頻預測模型。此外，GenAD可以被調整為一個動作條件的預測模型或一個運動規劃器，具有在真實世界駕駛應用中的巨大潛力。

寫在前面&筆者的個人理解

自動駕駛agents作為高級人工智能的一個有前景的應用，感知周圍環境，構建內部世界模型表示，做出決策，并作出響應行動。然而，盡管學術界和工業界已經進行了數十年的努力，但它們的部署仍然受到限制，僅限于某些區域或場景，并且不能無縫地應用于整個世界。其中一個關鍵原因是學習模型在結構化自動駕駛系統中的有限泛化能力。通常，感知模型面臨著在地理位置、傳感器配置、天氣條件、開放目標等多樣化環境中泛化的挑戰；而預測和規劃模型則面臨著無法泛化到具有不確定未來的情景和不同駕駛意圖的挑戰。受人類學習感知和認知世界的啟發，本文主張將駕駛視頻作為通用接口，用于泛化到不同的環境和動態未來。

基于這一觀點，預測駕駛視頻模型被認為是完全捕捉駕駛場景世界知識的理想選擇（如上面圖1所示）。通過預測未來，視頻預測器基本上學習了自動駕駛的兩個關鍵方面：世界如何運行，以及如何在復雜環境中安全操控。

近年來，社區已經開始采用視頻作為表示觀察行為和動作的接口，用于各種機器人任務。對于諸如經典視頻預測和機器人技術的領域，視頻背景主要是靜態的，機器人的移動速度較慢，視頻的分辨率較低。相比之下，對于駕駛場景，它需要應對室外環境高度動態化、agents具有更大運動范圍以及傳感器分辨率覆蓋大范圍視野的挑戰。這些差異導致了自動駕駛應用面臨著重大挑戰。

幸運的是，在駕駛領域已經有一些初步嘗試開發視頻預測模型。盡管在預測質量方面取得了令人鼓舞的進展，但這些嘗試并沒有像經典機器人任務（例如控制）中那樣實現理想的泛化能力，而是局限于限定的情景，例如交通密度低的高速公路，以及小規模的數據集，或者受限的條件，難以生成多樣化的環境。如何發掘視頻預測模型在駕駛領域的潛力仍然鮮有探索。

受以上討論的啟發，我們的目標是構建一個用于自動駕駛的視頻預測模型，能夠泛化到新的條件和環境。為了實現這一目標，需要回答以下問題：

（1）如何以可行和可擴展的方式獲取數據？

（2）我們如何構建一個預測模型來捕捉動態場景的復雜演變？

（3）如何將（基礎）模型應用于下游任務？

規模化數據。 為了獲得強大的泛化能力，需要大量且多樣化的數據。受基礎模型從互聯網規模數據中學習成功的啟發，我們從網絡和公共許可的數據集構建我們的駕駛數據集。與現有的選項相比，由于其受到監管的收集流程的限制，現有的選項在規模和多樣性上受到限制，而在線數據在幾個方面具有很高的多樣性：地理位置、地形、天氣條件、安全關鍵場景、傳感器設置、交通元素等。為了確保數據具有高質量且適合大規模訓練，我們通過嚴格的人工驗證從YouTube上詳盡地收集駕駛記錄，并刪除意外損壞幀。此外，視頻與各種文本級別的條件配對，包括利用現有的基礎模型生成和優化的描述，以及由視頻分類器推斷出的高級指令。通過這些步驟，我們構建了迄今為止最大的公共駕駛數據集OpenDV-2K，其中包含超過2000小時的駕駛視頻，比廣泛使用的nuScenes數據集大374倍。

通用預測模型。 學習一個通用的駕駛視頻預測器面臨幾個關鍵挑戰：生成質量、訓練效率、因果推理和視角劇烈變化。我們通過提出一種新穎的兩階段學習的時間生成模型來解決這些方面的問題。為了同時捕捉環境細節、提高生成質量和保持訓練效率，我們借鑒了最近潛在擴散模型（LDMs）的成功經驗。在第一階段，我們通過對OpenDV-2K圖像進行微調，將LDM的生成分布從其預先訓練的通用視覺領域轉移到駕駛領域。在第二階段，我們將所提出的時間推理模塊插入到原始模型中，并學習在給定過去幀和條件的情況下預測未來。與傳統的時間模塊不同，我們的解決方案包括因果時間注意力和分離的空間注意力，以有效地建模高度動態的駕駛場景中的劇烈時空轉移。經過充分訓練，我們的自動駕駛生成模型（GenAD）能夠以零樣本方式泛化到各種場景。

仿真和規劃的擴展。 在進行視頻預測的大規模預訓練之后，GenAD基本上了解了世界的演變方式以及如何駕駛。我們展示了如何將其學習到的知識應用于真實世界的駕駛問題，即仿真和規劃。對于仿真，我們通過使用未來的自車軌跡作為額外條件，對預先訓練的模型進行微調，將未來的想象與不同的自車行為聯系起來。我們還賦予了GenAD在具有挑戰性的基準測試中執行規劃的能力，通過使用輕量級規劃器將潛在特征轉化為自車未來軌跡。由于其預先訓練能力能夠準確預測未來幀，我們的算法在仿真一致性和規劃可靠性方面展現出了令人期待的結果。

OpenDV-2K Dataset

OpenDV-2K數據集 這是一個用于自動駕駛的大規模多模態數據集，以支持通用視頻預測模型的訓練。其主要組成部分是大量高質量的YouTube駕駛視頻，這些視頻來自世界各地，并經過精心篩選后被收入我們的數據集中。利用視覺-語言模型自動生成了這些視頻的語言標注。為了進一步提高數據集中的傳感器配置和語言表達的多樣性，將7個公開授權的數據集合并到我們的OpenDV-2K中，如表1所示。

因此，OpenDV-2K總共包含了2059小時的視頻與文本配對，其中1747小時來自YouTube，312小時來自公開數據集。使用OpenDV-YouTube和OpenDV-2K來指定YouTube拆分和整體數據集，分別表示YouTube拆分和整體數據集。

與先前數據集的多樣性比較

表1提供了與其他公開數據集的簡要比較。除了其顯著的規模外，提出的OpenDV-2K在以下各個方面都具有多樣性。

全球地理分布。 由于在線視頻的全球性質，OpenDV-2K覆蓋了全球40多個國家和244個城市。這相比于先前的公開數據集是一個巨大的改進，先前的數據集通常只收集在少數受限制的地區。在圖2中繪制了OpenDV-YouTube的具體分布。

開放式駕駛場景。 本數據集提供了大量的現實世界中的駕駛經驗，涵蓋了像森林、大雪等極端天氣條件以及對交互式交通情況做出的適當駕駛行為等稀有環境。這些數據對于多樣性和泛化至關重要，但是在現有的公開數據集中很少被收集。

無限制的傳感器配置。 當前的駕駛數據集局限于特定的傳感器配置，包括內在和外在的相機參數、圖像、傳感器類型、光學等，這給使用不同傳感器部署學習模型帶來了巨大挑戰。相比之下，YouTube駕駛視頻是在各種類型的車輛上錄制的，具有靈活的相機設置，這有助于在使用新的相機設置部署訓練模型時的穩健性。

邁向高質量多模態數據集

駕駛視頻收集與篩選。 從廣闊的網絡中找到干凈的駕駛視頻是一項繁瑣且成本高昂的任務。為了簡化這個過程，首先選擇了某些視頻上傳者，即YouTubers。從平均長度和整體質量來看，收集了43位YouTuber的2139個高質量前視駕駛視頻。為了確保訓練集和驗證集之間沒有重疊，從中選擇了3位YouTuber的所有視頻作為驗證集，其余視頻作為訓練集。為了排除非駕駛幀，如視頻介紹和訂閱提醒，丟棄了每個視頻開頭和結尾一定長度的片段。然后，使用VLM模型BLIP-2 對每個幀進行語言上下文描述。進一步通過手動檢查這些上下文中是否包含特定關鍵字，來移除不利于訓練的黑色幀和過渡幀。數據集構建流程的示意圖見圖3，下面介紹如何生成這些上下文。

YouTube視頻的語言標注。 為了創建一個可以通過自然語言控制以相應地模擬不同未來的預測模型，為了使預測模型可控并提高樣本質量，將駕駛視頻與有意義且多樣化的語言標注配對至關重要。為OpenDV-YouTube構建了兩種類型的文本，即自車指令和幀描述，即“指令”和“上下文”，以幫助模型理解自車動作和開放世界的概念。對于指令，在Honda-HDD-Action上訓練了一個視頻分類器，用于標注4秒序列中的自車行為的14種類型的動作。這些分類指令將進一步映射到預定義字典中的多個自由形式表達。對于上下文，利用一個成熟的視覺語言模型BLIP-2，描述每個幀的主要目標和場景。有關標注的更多細節，請參閱附錄。

用公共數據集擴大語言范圍。 考慮到BLIP-2標注是為靜態幀生成的，沒有理解動態駕駛場景，例如交通燈的過渡，我們利用幾個提供駕駛場景的語言描述的公共數據集。然而，它們的元數據相對稀疏，只有一些諸如“晴天的道路”之類的詞語。使用GPT進一步提升它們的文本質量，形成描述性的“上下文”，并通過對每個視頻剪輯的記錄軌跡進行分類，生成“指令”。最終，我們將這些數據集與OpenDV-YouTube集成，建立OpenDV-2K數據集，如表1的最后一行所示。

GenAD框架

本節介紹了GenAD模型的訓練和設計。如圖4所示，GenAD分為兩個階段進行訓練，即圖像域轉移和視頻預測預訓練。第一階段將通用的文本到圖像模型調整到駕駛領域。第二階段通過提出的時間推理塊和修改的訓練方案，將文本到圖像模型擴展為視頻預測模型。最后，探討了如何將預測模型擴展到動作條件預測和規劃。

圖像域遷移

車載相機捕捉了豐富的視野，包括道路、背景建筑、周圍車輛等豐富的視覺內容，需要強大而魯棒的生成能力來產生連續和逼真的駕駛場景。為了促進學習過程，首先在第一階段進行獨立的圖像生成。具體地，使用SDXL初始化我們的模型，SDXL是一個用于文本到圖像生成的大規模潛在擴散模型（LDM），利用其合成高質量圖像的能力。它被實現為一個具有多個堆疊的卷積和注意力塊的去噪θ，通過去噪的方式學習合成圖像。具體來說，給定由前向擴散過程損壞的噪聲輸入潛在，通過以下目標函數被訓練來預測的添加噪聲ε：

其中 x 和分別是干凈和嘈雜的潛在空間，t 表示不同噪聲尺度的時間步長，c 是指導去噪過程的文本條件，它是上下文和指令的串聯。為了訓練效率，學習過程發生在壓縮的潛在空間中，而不是像素空間。在采樣過程中，模型通過迭代地去噪最后一步的預測，從標準高斯噪聲中生成圖像。然而，原始的SDXL是在通用域的數據上進行訓練的，例如肖像和藝術畫作，這些數據與自主系統無關。為了使模型適應于為駕駛場景合成圖像，在OpenDV-2K中使用圖像文本對進行文本到圖像生成的微調，目標與方程（1）相同。在SDXL的原始訓練之后，所有UNet的參數θ都在此階段進行微調，而CLIP文本編碼器和自編碼器保持凍結狀態。

視頻預測預訓練

在第二階段，利用連續視頻的幾幀作為過去的觀察，GenAD被訓練來推理所有視覺觀察，并以可信的方式預測未來的幾幀。與第一階段類似，預測過程也可以由文本條件指導。然而，由于兩個基本障礙，預測高度動態的駕駛世界在時間上是具有挑戰性的。

因果推理： 為了預測遵循駕駛世界時間因果關系的合理未來，模型需要理解所有其他agents和自車的意圖，并了解潛在的交通規則，例如，交通信號燈轉換時交通將如何變化。
視圖變化劇烈： 與Typical視頻生成基準相反，后者主要具有靜態背景，中心目標的移動速度較慢，駕駛的視圖隨時間變化劇烈。每個幀中的每個像素可能會在下一個幀中移動到一個遙遠的位置。

本文提出了時間推理block來解決這些問題。如圖4(c)所示，每個block由三個連續的注意力層組成，即因果時間注意力層和兩個解耦的空間注意力層，分別用于因果推理和模擬駕駛場景中的大的移位。

因果時間注意力。 由于第一階段訓練后的模型只能獨立處理每個幀，本文利用時間注意力在不同的視頻幀之間交換信息。注意力發生在時間軸上，并模擬每個網格特征的時間依賴性。然而，直接采用雙向時間注意力在這里幾乎無法獲得因果推理的能力，因為預測將不可避免地依賴于隨后的幀而不是過去的條件。因此，通過添加因果注意mask，限制注意力方向，鼓勵模型充分利用過去的觀察知識，并如實推理未來，就像在真實的駕駛中一樣。在經驗上發現，因果約束極大地使預測的幀與過去的幀保持一致。遵循通用做法，還在時間軸上添加了實現為相對位置嵌入的時間偏差，以區分序列的不同幀，用于時間注意力。

解耦的空間注意力。 由于駕駛視頻具有快速的視角變化，在不同的時間步長中，特定網格中的特征可能會有很大的變化，并且很難通過時間注意力進行相關性和學習，因為時間注意力具有有限的感受野。考慮到這一點，引入了空間注意力來在空間軸中傳播每個網格特征，以幫助收集用于時間注意力的信息。采用了一種解耦的自注意力變體，由于其具有線性計算復雜度，相對于二次完全自注意力，它更加高效。如圖4(c)所示，這兩個解耦注意層分別在水平和垂直軸上傳播特征。

深度交互。 直覺上，第一階段中調整的空間block獨立地使每個幀的特征朝向照片逼真性，而第二階段引入的時間block使所有視頻幀的特征朝向一致性和一致性對齊。為了進一步增強時空特征交互，本文將提出的時間推理block與SDXL中的原始Transformer block交叉，即空間注意力，交叉注意力和前饋網絡，如圖4(b)所示。

零初始化。 與先前的做法類似，對于在第二階段新引入的每個block，將其最終層的所有參數初始化為零。這樣可以避免在開始時破壞經過良好訓練的圖像生成模型的先驗知識，并穩定訓練過程。

訓練。 GenAD通過在噪聲潛變量的共同去噪過程中利用過去幀和文本條件的指導來預測未來。首先將視頻剪輯的T個連續幀投影到一批潛變量中，其中前m幀潛變量是干凈的，代表歷史觀察，而其他n=T?m幀潛變量表示要預測的未來。然后，被轉換為通過前向擴散過程產生的，其中t索引隨機抽取的噪聲尺度。模型被訓練以預測受觀察和文本c條件下的噪聲。視頻預測模型的學習目標如下所示：

其中，θ表示繼承自第一階段模型的參數，φ表示新插入的時間推理塊。遵循[8]凍結θ，并僅訓練時間推理塊，以避免干擾圖像生成模型的生成能力，并集中學習視頻中的時間依賴性。請注意，只有來自受損幀的輸出會對訓練損失做出貢獻，而來自條件幀的輸出會被忽略。訓練方法也可以很容易地應用于視頻插值，只需進行輕微的修改，即交換條件幀的索引。

擴展。 依靠在駕駛場景中訓練良好的視頻預測能力，進一步挖掘了預訓練模型在動作控制預測和規劃方面的潛力，這對于真實世界的駕駛系統非常重要。在這里，探索了nuScenes上的下游任務，該任務提供了記錄的姿態。

動作條件預測。 為了使我們的預測模型能夠受到精確的自我行為控制并充當模擬器，使用成對的未來軌跡作為額外條件對模型進行微調。具體來說，使用Fourier embedding將原始軌跡映射到高維特征。經過線性層的進一步投影后，將其添加到原始條件中。因此，自我行為通過圖4(b)中的條件交叉注意力層注入到網絡中。

規劃。 通過學習預測未來，GenAD獲得了復雜駕駛場景的強大表示，這可以進一步用于規劃。具體來說，通過凍結的GenAD的UNet編碼器提取兩個歷史幀的時空特征，該編碼器幾乎是整個模型大小的一半，并將它們饋送到多層感知器（MLP）以預測未來的路標。通過凍結的GenAD編碼器和可學習的MLP層，規劃器的訓練過程可以比端到端規劃模型UniAD 加快3400倍，驗證了GenAD學習的時空特征的有效性。

實驗

設置與實驗方案

GenAD在OpenDV-2K上分兩個階段學習，但具有不同的學習目標和輸入格式。在第一階段，模型接受（圖像，文本）對作為輸入，并在文本到圖像生成上進行訓練。將命令標注廣播到包含的所有幀中，每4秒視頻序列標注一個。該模型在32個NVIDIA Tesla A100 GPU上進行了300K次迭代訓練，總批量大小為256。在第二階段，GenAD被訓練以在過去的潛變量和文本的條件下聯合去噪未來的潛變量。其輸入為（視頻剪輯，文本）對，其中每個視頻剪輯為2Hz的4秒。當前版本的GenAD在64個GPU上進行了112.5K次迭代訓練，總batch大小為64。輸入幀在兩個階段的訓練中被調整為256×448的大小，并且以概率p = 0.1丟棄文本條件c，以啟用無分類器的引導在采樣中，這在擴散模型中通常用于改善樣本質量。

視頻預訓練結果

與最近的視頻生成方法的比較

將GenAD與最近的先進方法進行比較，使用OpenDV-YouTube、Waymo 、KITTI和Cityscapes上的未見過的地理圍欄集合進行zero-shot生成方式。圖5顯示了定性結果。圖像到視頻模型I2VGen-XL和VideoCrafter1不能嚴格按照給定的幀進行預測，導致預測幀與過去幀之間的一致性較差。在Cityscapes上訓練的視頻預測模型DMVFN在其預測中遭遇了不利的形狀扭曲，尤其是在三個未見過的數據集上。相比之下，盡管這些集合都沒有包含在訓練中，但GenAD表現出了顯著的zero-shot泛化能力和視覺質量。

與nuScenes專家的比較

還將GenAD與最近可用的專門針對nuScenes訓練的駕駛視頻生成模型進行比較。表2顯示，GenAD在圖像保真度（FID）和視頻連貫性（FVD）方面超過了所有先前的方法。

具體來說，與DrivingDiffusion相比，GenAD將FVD顯著降低了44.5%，而沒有將3D未來布局作為額外輸入。為了公平比較，訓練了一個模型變體（GenAD-nus）只在nuScenes數據集上進行訓練。我們發現，盡管GenAD-nus在nuScenes上表現與GenAD相當，但它很難推廣到未見過的數據集，例如Waymo，其中生成物會退化到nuScenes的視覺模式。相比之下，訓練在OpenDV-2K上的GenAD在各個數據集上都表現出很強的泛化能力，如前圖5所示。

在nuScenes上提供了語言條件預測樣本，如圖6所示，GenAD根據不同的文本指令模擬了相同起始點的各種未來。復雜的環境細節和自運動的自然過渡展示了令人印象深刻的生成質量。

消融研究

通過在OpenDV-2K的子集上進行75K步的訓練，執行消融實驗。從具有普通時間注意力的基線開始，逐漸引入我們提出的組件。值得注意的是，通過將時間塊與空間塊交錯，FVD顯著提高了（-17%），這是由于更充分的時空交互。時間因果關系和解耦的空間注意力都有助于更好的CLIP-SIM，改善了未來預測與條件幀之間的時間一致性。需要明確的是，表3中第四行和第三行顯示的FID和FVD的輕微增加，并不真實反映了生成質量的下降，如[8, 10, 79]中所討論的。每種設計的有效性如圖7所示。

擴展結果

動作條件預測。 進一步展示了在nuScenes上微調的動作條件模型GenAD-act的性能，如圖8和表4所示。給定兩個起始幀和一個包含6個未來路徑點的軌跡w，GenAD-act模擬了6個按照軌跡順序的未來幀。為了評估輸入軌跡w和預測幀之間的一致性，在nuScenes上建立了一個反向動力學模型（IDM）作為評估器，該模型將視頻序列映射到相應的自車軌跡上。我們利用IDM將預測幀轉換為軌跡?w，并計算w和?w之間的L2距離作為動作預測誤差。具體來說，與具有文本條件的GenAD相比，GenAD-act將動作預測誤差顯著降低了20.4%，從而實現更準確的未來模擬。

規劃結果。 表5描述了在nuScenes上的規劃結果，其中可以獲得自車的姿態真值。通過凍結GenAD編碼器，并僅優化其頂部的附加MLP，模型可以有效地學習規劃。值得注意的是，通過通過GenAD的UNet編碼器預提取圖像特征，規劃適應的整個學習過程僅需在單個NVIDIA Tesla V100設備上花費10分鐘，比UniAD規劃器的訓練高效3400倍。

結論

對GenAD進行了系統級開發研究，這是一個用于自動駕駛的大規模通用視頻預測模型。還驗證了GenAD學習表示適應駕駛任務的能力，即學習“世界模型”和運動規劃。盡管在開放領域獲得了改進的泛化能力，但增加的模型容量在訓練效率和實時部署方面帶來了挑戰。設想統一的視頻預測任務將成為未來關于表示學習和策略學習的研究的可擴展目標。另一個有趣的方向是將編碼的知識提煉出來，用于更廣泛的下游任務。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看