直接干到未來!浙大&華為Drive-OccWorld:且看世界模型如何拿下端到端!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 & 筆者的個人理解
世界模型基于各種自車行為預測潛在的未來狀態。它們嵌入了關于駕駛環境的廣泛知識,促進了安全和可擴展的自動駕駛。大多數現有方法主要關注數據生成或世界模型的預訓練范式。與上述先前的工作不同,我們提出了Drive-OccWorld,它將以視覺為中心的4D預測世界模型應用于自動駕駛的端到端規劃。具體來說,我們首先在內存模塊中引入語義和運動條件規范化,該模塊從歷史BEV嵌入中積累語義和動態信息。然后將這些BEV特征傳輸到世界解碼器,以進行未來時刻的OCC和flow預測,同時考慮幾何和時空建模。此外我們在世界模型中注入靈活的動作條件,如速度、轉向角、軌跡和命令,以實現可控發電,并促進更廣泛的下游應用。此外,我們探索將4D世界模型的生成能力與端到端規劃相結合,從而能夠使用基于職業的成本函數對未來狀態進行連續預測并選擇最佳軌跡。對nuScenes數據集的廣泛實驗表明,Drive-OccWorld可以生成合理可控的4D占用,為推動世界生成和端到端規劃開辟了新途徑。
總結來說,本文的主要貢獻如下:
- 提出了Drive OccWorld,這是一個以視覺為中心的世界模型,旨在預測4D Occ和flow,我們探索了世界模型的未來預測能力與端到端規劃的整合。
- 設計了一個簡單而高效的語義和運動條件歸一化模塊,用于語義增強和運動補償,提高了預測和規劃性能。
- 提供了一個統一的調節接口,將靈活的動作條件集成到后代中,增強了Drive OccWorld的可控性,并促進了更廣泛的下游應用。
相關工作回顧
World Models for Autonomous Driving
基于未來狀態的生成模式,現有的自動駕駛世界模型主要可分為基于2D圖像的模型和基于3D體積的模型。2D Image-based Models:旨在使用參考圖像和其他條件(例如動作、HDMaps、3D框和文本提示)預測未來的駕駛視頻。GAIA-1使用自回歸Transformer作為世界模型,根據過去的圖像、文本和動作標記預測未來的圖像標記。其他方法,如DriveDreamer、ADriver-I、DrivengDiffusion,GenAD、Vista、Delphi和Drive-WM,使用潛在擴散模型(LDMs)生成圖像到輸出視頻。這些方法側重于設計模塊,將動作、BEV布局和其他先驗元素納入去噪過程,從而產生更連貫、更合理的未來視頻代。
3D Volume-based Models:以點云或占領的形式預測未來的狀態。Copilot4D使用VQVAE對LiDAR觀測進行標記,并通過離散擴散預測未來的點云。ViDAR實現了視覺點云預測任務,以預訓練視覺編碼器。UnO根據激光雷達數據預測了一個具有自我監督功能的持續占領區。OccWorld和OccSora使用場景標記器壓縮職業輸入,并使用生成變換器預測未來的職業。UniWorld和DriveWorld提出通過4D職業重建進行4D預訓練。
在這項工作中通過輸入動作條件來實現動作可控生成,并將這種生成能力與端到端的安全駕駛規劃者相結合,從而研究了世界模型的潛在應用。
Drive-OccWorld方法詳解
準備工作
端到端的自動駕駛模型旨在直接基于傳感器輸入和自我行為來控制車輛(即規劃軌跡)。從形式上講,給定歷史傳感器觀測值和h個時間戳上的自我軌跡,端到端模型A預測了未來f個時間戳的理想自車軌跡:
駕駛世界模型W可以被視為一種生成模型,它將先前的觀察和自車行為作為輸入,生成環境的合理未來狀態:
鑒于世界模型預測未來狀態的能力,我們建議將其與規劃器集成,以充分利用世界模型在端到端規劃中的能力。具體來說引入了一個名為Drive-OccWorld的自回歸框架,該框架由一個用于預測未來職業和流動狀態的生成世界模型W和一個基于職業的規劃器P組成,該規劃器P使用成本函數來基于評估未來預測來選擇最佳軌跡。從形式上講,我們將Drive OccWorld公式化如下,它自動回歸預測下一個時間戳的未來狀態和軌跡:
在接下來的部分中,我們將詳細介紹世界模型的結構,為W配備動作可控生成,并將其與P集成以進行端到端規劃。
4D Forecasting with World Model
如圖2所示,Drive-OccWorld包括三個組件:(1)歷史編碼器WE,它將歷史相機圖像作為輸入,提取多視圖幾何特征,并將其轉換為BEV嵌入。根據之前的工作,我們使用視覺BEV編碼器作為我們的歷史編碼器。(2)具有語義和運動條件歸一化的記憶隊列WM,它在潛在空間中采用簡單而高效的歸一化操作來聚合語義信息并補償動態運動,從而積累更具代表性的BEV特征。(3)世界解碼器WD,其通過具有歷史特征的時間建模來提取世界知識,以預測未來的語義職業和流動。靈活的動作條件可以注入WD,以實現可控生成。集成了基于occ的規劃器P,用于連續預測和規劃。
Semantic- and Motion-Conditional Normalization旨在通過結合語義和動態信息來增強歷史BEV嵌入。
如圖3所示,我們實現了一個輕量級的預測頭來生成體素語義概率:
在運動條件歸一化中,我們補償自車和其他代理在不同時間戳上的運動。具體來說,自車姿態變換矩陣(考慮了自我載體從時間戳-t到+t的移動)被展平并編碼到MLP處理的嵌入中,以生成仿射變換參數。
具體來說,WD將可學習的BEV查詢作為輸入,并執行可變形的自注意、與歷史嵌入的時間交叉注意、與動作條件的條件交叉注意力以及前饋網絡來生成未來的BEV嵌入。條件層在BEV查詢和動作嵌入之間執行交叉注意力,這將在下一節中說明,將動作可控信息注入預測過程。在獲得下一個BEV嵌入后,預測頭利用通道到高度操作來預測語義占用和3D backward centripetal flow。
Action-Controllable Generation
由于現實世界的固有復雜性,自我載體的運動狀態對于世界模型理解主體如何與其環境交互至關重要。因此,為了全面涵蓋環境,我們建議利用各種行動條件,使Drive OccWorld具有可控生成的能力。
Unified Conditioning Interface旨在將異質動作條件整合到連貫的嵌入中。我們首先將所需的動作編碼到傅里葉嵌入中(,通過額外的學習投影將其連接和融合,以與WD中條件交叉注意力層的維度對齊。該方法有效地將靈活的條件集成到可控的生成中。
End-to-End Planning with World Model
現有的世界模型主要關注數據生成或自動駕駛的相關范式。盡管最近的一項開創性工作Drive WM提出將生成的駕駛視頻與基于圖像的獎勵函數相結合來規劃軌跡,但環境的幾何3D特征并沒有完全用于運動規劃。如圖2所示,鑒于我們的世界模型提供的未來occ預測能力,我們引入了一個基于occ的規劃器,對代理和可駕駛區域的占用網格進行采樣,以確定安全約束。此外,未來的BEV嵌入用于學習考慮細粒度3D結構的成本量,為安全規劃提供更全面的環境信息。
基于占用的成本函數旨在確保自駕車的安全駕駛。它由多個成本因素組成:(1)代理安全成本限制了自車與其他代理(如行人和車輛)的碰撞。它懲罰與其他道路使用者占用的網格重疊的軌跡候選者。此外,在橫向或縱向距離方面與其他主體太近的軌跡也受到限制,以避免潛在的碰撞。(2)道路安全成本確保車輛在道路上行駛。它從占用預測中提取道路布局,懲罰超出可駕駛區域的軌跡。(3)學習量成本受ST-P3的啟發。它使用基于F bev+t的可學習頭部來生成成本量,從而對復雜的世界進行更全面的評估。
規劃損失Lplan由三個部分組成:引入的max-margin損失,用于約束軌跡候選的安全性;用于模仿學習的l2損失;以及確保規劃軌跡避開障礙物占用的網格的碰撞損失。
實驗結果
Main Results of 4D Occupancy Forecasting
Inflated Occupancy and Flow Forecasting。表1展示了nuScenes數據集上Inflated的占用率和流量預測的比較。盡管Drive OccWorld在當前時刻的結果mIoUc上表現稍差,但它在mIoUf上的表現比Cam4DOcc高出2.0%,表明其預測未來狀態的能力更強。
Fine-grained Occupancy Forecasting:表2展示了nuScenes占用率的細粒度占用預測比較。結果表明,與所有其他方法相比,Drive OccWorld實現了最佳性能。值得注意的是,對于當前和未來時間戳的一般可移動對象,Drive OccWorldP在mIoU上分別比Cam4DOcc高出1.6%和1.1%,這表明它能夠準確定位可移動對象以進行安全規劃。圖4提供了跨框架的職業預測和流量預測的定性結果。
可控性。在表3中,我們考察了各種作用條件下的可控性。與基線變量相比,注入任何動作條件都會產生收益。值得注意的是,低水平條件,即軌跡和速度,為未來的預測提供了更大的改進。相比之下,最高級別的命令條件改善了當前時間戳的mIoUc結果,但對未來的預測提供了有限的增強。可以這么理解,結合更多的低級條件,如軌跡,可以為自車提供更具體的行動,以了解其與世界的相互作用,從而有效地增強未來的預測。
有趣的是,如表4所示,與使用預測軌跡相比,使用地面真實軌跡作為行動條件可以獲得更好的規劃結果。相反,在入住率和流量預測質量方面觀察到相反的趨勢。表3中第2行和第7行的比較表明,使用預測軌跡而不是地面真實軌跡可以略微提高預測質量。表1和表2中的結果進一步支持了這一觀察結果,其中Drive OccWorldP的表現優于Drive OccWorldA。我們認為,在使用預測軌跡時,對BEV特征施加的軌跡約束可能會導致占用率和流量質量的性能提高。這一發現表明,應用軌跡預測也可以提高感知性能,這與UniAD的結果一致。
此外,在圖5中,我們展示了Drive OccWorld基于特定自我運動模擬各種未來職業的能力,展示了Drive OccWorld作為神經仿真為自動駕駛生成合理職業的潛力。
End-to-end Planning with Drive-OccWorld
表5展示了與現有端到端方法相比,L2錯誤和沖突率方面的規劃性能。我們提供ST-P3和UniAD不同評估方案設置下的結果。具體來說,NoAvg表示相應時間戳的結果,而TemAvg則通過0.5秒到相應時間戳之間的平均性能來計算指標。
如表5所示,與現有方法相比,Drive OccWorldP實現了更優的規劃性能。例如,Drive OccWorldP?在以下方面分別獲得了33%、22%和9.7%的相對改善L2@1s、L2@2s和L2@3s與UniAD相比?。我們將這一改進歸因于世界模型積累世界知識和展望未來狀態的能力。它有效地增強了未來時間戳的規劃結果,并提高了端到端規劃的安全性和魯棒性。
最近的研究考察了將自車狀態納入規劃模塊的影響。根據這項研究,我們還對我們的自我狀態模型和之前的工作進行了公平的比較。我們的研究結果表明,Drive OccWorld在遙遠的未來時間戳仍然達到了最高的性能,證明了持續預測和規劃的有效性。
消融實驗結果如下:
其他可視化結果:
結論
本文提出了Drive OccWorld,這是一個用于自動駕駛的4D Occ預測和規劃世界模型。靈活的動作條件可以注入到動作可控發電的世界模型中,促進更廣泛的下游應用。基于職業的規劃器與運動規劃的世界模型相結合,考慮了安全性和環境的3D結構。實驗表明,我們的方法在職業和流量預測方面表現出了顯著的性能。通過利用世界模型積累世界知識和展望未來狀態的能力來提高規劃結果,從而增強端到端規劃的安全性和穩健性。