港理工OccProphet:純視覺Occ SOTA!速度提升至2.6倍,內存占用減少60%
本文分享一篇由香港理工大學最近公開的發表于ICLR2025的論文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一個輕量級的觀察器-預報器-細化器框架OccProphet來實現高效的未來4D占用預測。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多個數據集上取得最先進的4D占用預測性能,成本減少近80%!相比此前最先進的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,內存占用減少近60%,僅需24G顯存即可完成訓練和推理。代碼即將開源。
- 論文鏈接:https://arxiv.org/abs/2502.15180
- 代碼鏈接:https://github.com/JLChen-C/OccProphet
圖1:(左)OccProphet示意圖。OccProphet僅接收多相機視頻輸入,并生成未來時刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升約20%,速度提升約160%
動機
提升自動駕駛車輛對動態環境的感知與預測能力,是自動駕駛安全性和可靠性的迫切需求。傳統的占據感知(Occupancy Perception)方法通過學習空間中的占據狀態,能夠理解環境的當前和過去狀態,而無法預測未來動態。事實上,預測未來場景對于安全駕駛和避免碰撞至關重要。
這篇文章研究基于相機的占用預測(Occupancy Forecasting),能夠理解自動駕駛車輛周圍環境的動態變化,并對未來進行合理預測??紤]到現有的基于相機的占據預測方法(例如Cam4DOcc)計算成本高,不具備在計算資源受限的邊緣設備(例如自動駕駛車輛)的部署能力,這篇文章的主要動機在于開發一種輕量且高效的框架——OccProphet。
它僅僅使用環視圖片序列作為輸入,能準確預測未來時刻的4D占據(時間維度+空間維度)。在輕量化處理上,OccProphet引入了三大精簡模塊(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合與三元組注意力融合策略,旨在在顯著降低計算需求的同時提升預測的準確性。這一進步,首次展現了4D占用感知在自動駕駛車輛上部署的可行性。
方法詳解
如圖2所示,OccProphet 是一種新型的僅基于攝像頭的占據預測框架,它不管在訓練階段還是推理階段都是計算友好的。
圖2:OccProphet概述。它接收來自環視攝像頭的多幀圖像作為輸入,并輸出未來的占用情況或占用流動。OccProphet由四個關鍵組件組成:觀察器(Observer)、預報器(Forecaster)、細化器(Refiner)和預測器(Predictor)。觀察器模塊負責聚合時空信息。預報器模塊有條件地生成未來場景的初步表示。這些初步表示通過細化器模塊進行細化。最后,預測器模塊產生對未來占用或占用流的最終預測。
- 觀察器(Observer)模塊:高效且有效地聚合多幀觀測(即多幀3D體素特征)中的時空信息。
- 預報器(Forecaster)模塊:在 Observer 的輸出基礎上,自適應地預測未來狀態,從而確保在各種交通狀況下的靈活性。
- 細化器(Refiner)模塊:通過促進幀間交互,進一步提升這些預測的質量。
- 預測器(Predictor):將經過優化的未來狀態解碼為占用或占用流。
OccProphet 在創新性方面主要做出了以下貢獻:
- 一種新穎的僅基于攝像頭的占用預測框架,在訓練和推理過程中都兼具高效性和有效性,適用于車載部署。
- 一個輕量級的觀察器-預報器-細化器框架。觀察器(Observer)模塊從歷史觀測中提取時空特征;預報器(Forecaster)模塊有條件地預測粗略的未來狀態;細化器(Refiner)模塊則進一步提升預測準確性。
- 實驗結果表明,OccProphet在預測準確性上更勝一籌,同時其計算成本不到Cam4DOcc的一半。這些優勢在nuScenes、Lyft-Level5以及nuScenes-Occupancy數據集上均得到了驗證。
關鍵組件
觀察器(Observer)
Efficient 4D Aggregation(高效4D聚合)
圖3:高效4D聚合模塊
Tripling-Attention Fusion(三元組注意力融合)
圖4:三元組注意力融合(左)和三元組分解操作(右)
三元組注意力融合模塊(TAF)專為促進多個三維特征間的時空交互而設計,通過提出的三三元組分解操作進一步降低計算成本。該操作旨在從三個互補且緊湊的角度理解三維空間,從而以較低的計算成本保留三維場景信息。具體而言,三元組分解操作將三維特征分解為場景、高度和BEV三個分支,分別壓縮三維特征至一維或二維特征,減少后續計算開銷。場景分支提取全局上下文,提供對場景的整體理解;高度分支保留垂直細節,作為2D BEV分支的補充線索,增強三維幾何信息的表現能力。
預報器 (Forecaster)
圖5:預報器的結構
細化器(Refiner)
實驗
網絡的訓練使用4塊(至少1塊)RTX4090 GPU,測試使用1塊RTX4090 GPU(24G顯存)。
實驗結果表明,OccProphet在預測準確性和效率上均表現出色,在三個數據集上相對于最先進的Cam4DOcc模型,其占用預測準確性分別提升了4%~18%,同時運行速度提高了約1.6倍,計算成本降低了58%~78%。
定性實驗
圖6:Cam4DOcc與OccProphet的定性實驗
Cam4DOcc和OccProphet在未來2秒內的占用預測可視化。紅色虛線矩形表明OccProphet的結果相比Cam4DOcc的結果與真實標注更加一致。第一行結果表明OccProphet在低光照條件下具有較強的適應性。
定量實驗
圖7:不同表征形式之間的比較
采用E4A表征在性能上優于BEV和TPV表征,且參數更少,計算成本僅略有增加。
圖8:在細粒度的一般運動物體和一般靜態物體上的4D占用預測性能
OccProphet在細粒度的4D占用預測上具有明顯優勢。
圖9:模型復雜度的比較
與Cam4DOcc相比,OccProphet的參數量、內存占用和FLOPs均降低了58%-78%,同時OccProphet在未來幀的平均IoU上實現了相對4%的提升,并且其FPS達到了Cam4DOcc的2.6倍。
更多定性和定量實驗及分析見論文。OccProphet將激勵在高效占用預測及其車載部署等領域的更多研究。
結論
本文提出了OccProphet,這是一種用于占用預測的全新純視覺框架。該框架采用了一個Observer Forecaster Refiner管道,專門用于高效和有效的培訓和推理。這種效率和有效性是通過4D聚合和對低分辨率特征進行三重注意力融合來實現的。實驗結果證明了OccProphet在預測準確性和效率方面的優越性。在三個數據集上,它在占用率預測方面比最先進的Cam4DOcc高出4%至18%,同時運行速度提高了2.6倍,計算成本降低了58%-78%。我們希望OccProphet能夠推動未來在高效占用率預測及其在車載部署中的應用方面的研究。