自動駕駛CornerCase變小Case,看生成式顯神通
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
數據的收集、標注和整理過程既耗時又昂貴是自動駕駛技術發展不得不面對的問題。結合世界模型、擴散模型,來生成高質量的訓練數據,為自動駕駛系統提供了更加真實和復雜的模擬環境。這種方法不僅降低了對真實世界數據集的依賴,還顯著提高了數據生成的效率和多樣性,為自動駕駛系統提供了更豐富的訓練樣本,使自動駕駛系統能夠更好地適應各種復雜的交通場景,有助于提升其泛化能力和魯棒性。
具體來說,近年來研究者多聚焦于如何讓各種生成式技術各顯神通,提升仿真各環節的“能力上限”。如:
1)基于世界模型生成高質量的駕駛視頻和駕駛策略,在仿真環境中模擬各種復雜場景,提升系統的魯棒性;
2)通過整合大語言模型,可以生成多視圖的自動駕駛視頻,充分考慮交通流、道路狀況、行人行為等多種因素,實現定制化的交通模擬;
3)從原始傳感器數據中提取特征,并生成自動駕駛的規劃結果,實現生成式端到端自動駕駛……
4)加強自動駕駛系統的局部語義表示和圖像推理能力,使得自動駕駛系統能夠更好地理解交通場景中的語義信息,如交通標志、行人意圖等,從而提升決策制定的準確性和安全性。
來看一些典型成果的分析。
DetDiffusion:協同生成模型和感知模型,以增強數據生成和感知
https://arxiv.org/abs/2403.13304
DetDiffusion是一個結合了生成模型和感知模型的框架,旨在提高數據生成和感知的性能。DetDiffusion的目標是通過感知信息增強圖像生成質量,并促進下游感知任務的性能。模型通過在生成過程中提取和利用感知屬性(Perception-Aware Attribute, P.A. Attr)來定制數據增強。感知屬性為一種特殊的標記,通過預訓練的檢測器(如Faster R-CNN或YOLO系列)從圖像中提取對象屬性,屬性包括類別、位置和檢測難度,這些屬性被設計為特殊的標記,以幫助擴散模型生成與感知模型訓練目標更一致的圖像。此外,模型通過分割引入了感知損失(Perception-Aware Loss, P.A. Loss),從而提高了質量和可控性。感知損失是一種新穎的損失函數,利用來自分割頭的豐富視覺特征,以實現更精細的圖像重建。它結合了掩碼損失(mask loss)和dice損失,特別針對感知增強進行優化。
DetDiffusion的編碼器使用預訓練的Vector Quantized Variational AutoEncoder (VQ-VAE),將原始圖像編碼到潛在空間。文本編碼器使用預訓練的CLIP模型將文本條件編碼。然后連接一個包含不同尺寸的resnet和transformer網絡的UNet,用于生成過程,并通過交叉注意力機制整合條件變量。模型還基于UNet中間特征的分割模塊引入分割頭,用于生成對象掩碼,與標簽真實值結合以增強可控性。訓練時,首先利用感知屬性作為條件輸入,通過感知損失進行監督,生成高質量的圖像。然后通過優化模型的高維特征空間,使用感知信息進行更準確的圖像合成。
結果顯示,DetDiffusion在圖像質量和與布局的一致性方面超越了現有的圖像(L2I)模型,并且在目標檢測任務中表現出色,顯著提高了檢測器的訓練性能。生成的圖像與真實圖像在視覺上高度一致,展現了模型在圖像生成方面的高保真度和準確性。
DriveDreamer:邁向真實世界的自動駕駛世界模型
https://arxiv.org/abs/2309.09777
DriveDreamer是一個為自動駕駛設計的現實世界驅動的世界模型,它能夠生成高質量的駕駛視頻和駕駛策略。DriveDreamer利用擴散模型(diffusion model)來構建對復雜環境的全面表示,它采用兩階段訓練流程,首先讓模型理解結構化交通約束,然后賦予模型預測未來狀態的能力。第一階段訓練Auto-DM(Autonomous-driving Diffusion Model),用于模擬和理解真實世界駕駛視頻。該階段以結構化交通信息作為條件輸入,包括高清地圖(HDMap)和3D盒子(3D box),使用時間注意力層(temporal attention layers)增強生成視頻幀的一致性。第二階段訓練ActionFormer,它是用于基于駕駛動作預測未來的交通結構條件。具體為利用門控循環單元(GRU)迭代預測未來的隱藏狀態,這些狀態隨后被解碼成未來的交通結構條件。
DriveDreamer模型包括一個條件編碼器,用于嵌入不同的條件輸入,如參考圖像、HDMap、3D盒子和動作。然后通過擴散步驟估計噪聲并生成與輸入噪聲的損失,以優化Auto-DM。最后通過交叉注意力促進文本輸入與視覺信號之間的特征交互,使文本描述能夠影響生成的駕駛場景屬性。訓練時通過文本提示動態調整生成視頻的風格,例如天氣和一天中的時間。還可以通過編碼歷史駕駛動作和Auto-DM提取的多尺度潛在特征,生成合理的未來駕駛動作。DriveDreamer還可以擴展到多視圖圖像/視頻生成,使用視圖注意力層來保持生成內容的一致性。
DriveDreamer模型的創新之處在于其對真實世界駕駛場景的深入理解,引入了Auto-DM和兩階段訓練流程,以及能夠生成與交通約束高度一致的駕駛視頻和基于歷史觀察的合理駕駛策略。這為自動駕駛的實際應用提供了一個強大的工具,特別是在提高駕駛安全性和效率方面。
DriveDreamer-2:LLM增強的世界模型,用于多樣化的駕駛視頻生成
https://arxiv.org/abs/2403.06845
DriveDreamer-2是一個根據用戶描述生成用戶自定義的駕駛視頻,增強了生成視頻的多樣性和定制化能力。它在DriveDreamer的基礎上進行了增強,并整合了大型語言模型(LLM)。DriveDreamer-2首先集成了一個大型語言模型(LLM)接口,用于將用戶的查詢轉換成代理軌跡(agent trajectories)。然后通過HDMap生成器基于軌跡生成遵守交通規則的高清地圖(HDMap),作為視頻生成的背景條件。文章引入一個統一多視圖模型(UniMVM),用于在DriveDreamer框架內生成多視圖駕駛視頻,統一了視角內和視角間的一致性。通過調整掩碼(mask),UniMVM能夠實現基于初始幀、前視視頻輸入以及無需圖像輸入的視頻生成。
模型能夠實現定制化交通模擬,即利用構建的功能庫對大型語言模型進行微調,使其能夠基于用戶文本輸入生成代理軌跡。并且,HDMap生成器使用擴散模型來模擬道路結構,將之前生成的代理軌跡作為條件輸入。DriveDreamer-2能夠生成高質量的駕駛視頻,其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分數分別為11.2和55.7,相比之前的方法有顯著提升。總體來說,DriveDreamer-2的主要貢獻在于:(1)它提出了一個使用文本提示生成多樣化交通條件的交通模擬管道。(2)引入UniMVM框架提升了生成視頻中的時間和空間連貫性。(3)通過大量實驗驗證了DriveDreamer-2生成多樣化定制化視頻的能力,并且提升了下游任務的性能。
GenAD:生成式端到端自動駕駛
https://arxiv.org/abs/2402.11502
文章介紹了一個名為GenAD(Generative End-to-End Autonomous Driving)的框架,旨在通過生成模型直接從原始傳感器數據中生成自動駕駛的規劃結果,實現生成式端到端自動駕駛(Generative End-to-End Autonomous Driving)。本文探索了端到端自動駕駛的新范式,其中關鍵是如何根據過去的場景演變預測自我汽車和周圍環境,將自動駕駛轉變為生成建模問題。文章提出了一個以實例為中心的場景表示(Instance-Centric Scene Representation),首先使用一個場景標記器(scene tokenizer)將周圍場景轉換為具有地圖意識的實例令牌(map-aware instance tokens)。然后通過背景網絡提取圖像特征,并將它們轉換到3D鳥瞰圖(BEV)空間。最后使用交叉注意力(cross-attention)和自注意力(self-attention)機制來細化地圖和代理(agent)令牌,同時整合實例和地圖信息。然后,使用變分自編碼器(VAE)學習將真實軌跡映射到高斯分布的潛在空間,以模擬軌跡的不確定性和結構化先驗,以進行軌跡先驗建模(Trajectory Prior Modeling)。最后,為實現潛在未來軌跡生成(Latent Future Trajectory Generation),采用門控循環單元(GRU)對潛在空間中的實例進行自回歸建模,以生成更有效的未來軌跡。
GenAD框架將自動駕駛視為一個生成問題,通過在結構化潛在軌跡空間中采樣,并使用學習到的時間模型來生成未來場景,同時執行運動預測和規劃。在訓練階段,使用實例分布和真實軌跡分布之間的Kullback-Leibler散度損失來強制分布匹配。在推理階段,丟棄未來軌跡編碼器,根據實例令牌的條件在潛在空間中采樣,并使用學習到的時間模型生成未來軌跡。在nuScenes基準測試中進行了廣泛的實驗,證明了GenAD在基于視覺的端到端自動駕駛中取得了最先進的性能,并且具有高效率。
MagicDrive:具有多種 3D 幾何控制的街景生成功能
https://arxiv.org/abs/2310.02601
文章介紹了一個名為MAGICDRIVE的框架,它是一個用于生成多視角街道視圖圖像和視頻的模型,這些圖像和視頻可以捕捉精細的3D幾何細節和各種場景描述。該框架通過定制的編碼策略,實現了對相機姿勢、道路地圖、3D邊界框和文本描述的精確控制。為了實現多樣化的3D幾何控制,模型需要理解不同相機姿勢(Camera Pose)下的視圖,包括內部參數(如焦距)和外部參數(如相機在世界坐標系中的位置和旋轉)。模型以道路地圖作為背景條件,提供了道路的二維網格格式信息,包括道路、人行道、交通標志等。3D邊界框(3D Bounding Boxes)用于表示場景中對象的位置和尺寸,包括車輛、行人等,每個邊界框由其8個角點的坐標定義。
通過定制編碼策略提供多樣化的 3D 幾何控制,包括:(1)場景級編碼(Scene-level Encoding):使用模板構建文本提示,并利用預訓練的CLIP文本編碼器處理文本描述。(2)3D邊界框編碼(3D Bounding Box Encoding):使用交叉注意力機制對每個邊界框進行編碼,包括類別標簽和邊界框位置。(3)道路地圖編碼(Road Map Encoding):使用額外的編碼器分支來處理道路地圖信息,實現視圖轉換和與3D邊界框的協同。此外,為了保持不同相機視角之間的一致性,MAGICDRIVE引入了一個交叉視角注意力模塊(Cross-View Attention Module)。該模塊允許目標視圖從其相鄰的左側和右側視圖中獲取信息,并通過注意力機制進行信息聚合。在訓練時,使用分類器自由引導(Classifier-Free Guidance, CFG)來加強條件引導的影響,簡化了在訓練中丟棄條件的策略。
實驗結果顯示,MAGICDRIVE在生成現實感強、與3D注釋高度一致的街道視圖方面表現出色,可以顯著提高BEV分割和3D目標檢測任務的性能。MAGICDRIVE框架通過其定制的編碼策略和交叉視角注意力模塊,實現了對街道視圖生成的精確控制,同時保持了多視角之間的一致性,為自動駕駛領域的3D感知任務提供了強大的數據支持。
CarDreamer:基于世界模型的自動駕駛開源學習平臺
https://arxiv.org/abs/2405.09111
CarDreamer是一個為自動駕駛開發和評估基于世界模型(World Model, WM)的強化學習(Reinforcement Learning, RL)算法的開源學習平臺。CarDreamer的架構包括三個主要部分:內置任務、任務開發套件和世界模型背骨:(1)世界模型Backbone(World Model Backbone):集成了最先進的世界模型,如DreamerV2、DreamerV3和Planning2Explore,使用戶能夠輕松地再現RL算法的性能。這些模型通過標準的Gym接口與其他組件解耦和通信。(2)內置任務(Built-in Tasks):提供了一系列高度可配置的駕駛任務,這些任務與Gym接口兼容,并配備了經驗優化的獎勵函數。任務包括變道、超車等,允許在難度、可觀察性、觀察模態和車輛意圖交流方面進行廣泛定制。(3)任務開發套件(Task Development Suite):通過API提供了一系列功能,包括API驅動的車輛生成和交通流控制,以及模塊化的觀察者(Observer)用于輕松收集多模態數據。此外,還有一個可視化服務器,允許用戶通過瀏覽器實時追蹤代理駕駛視頻和性能指標。
使用DreamerV3作為模型Backbone,在CarDreamer中的不同任務上進行訓練和評估。實驗結果展示了在不同駕駛任務中WM的性能。文章評估了在不同觀察模態(BEV、相機、激光雷達)下,世界模型預測未來狀態的能力。實驗結果表明,無論觀察模態如何,世界模型都能準確預測未來。此外,CarDreamer允許車輛之間進行不同程度的通信,包括視野共享和意圖共享。實驗結果表明,通信可以顯著提高交通的安全性和效率。