FlashOcc:占用預測新思路,精度、效率和內存占用新SOTA!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
原標題:FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
論文鏈接:https://arxiv.org/pdf/2311.12058.pdf
作者單位:大連理工大學 Houmo AI 阿德萊德大學
論文思路:
鑒于能夠緩解 3D 目標檢測中普遍存在的長尾缺陷和復雜形狀缺失的能力,占用預測已成為自動駕駛系統的關鍵組成部分。然而,三維體素級表示的處理不可避免地會在內存和計算方面引入大量開銷,阻礙了迄今為止的占用預測方法的部署。與使模型變得更大、更復雜的趨勢相反,本文認為理想的框架應該對不同的芯片進行部署友好,同時保持高精度。為此,本文提出了一種即插即用范例,即 FlashOCC,以鞏固快速且節省內存的占用預測,同時保持高精度。特別是,本文的 FlashOCC 基于當代體素級占用預測方法做出了兩項改進。首先,特征保留在 BEV 中,從而能夠使用高效的 2D 卷積層進行特征提取。其次,引入通道到高度變換(channel-to-height transformation) ,將 BEV 的輸出 logits 提升到 3D 空間。本文將 FlashOCC 應用于具有挑戰性的 Occ3D-nuScenes 基準的各種占用預測基線,并進行廣泛的實驗來驗證其有效性。結果證實了本文的即插即用范例在精度、運行時效率和內存成本方面優于以前最先進的方法,展示了其部署潛力。該代碼將可供使用。
網絡設計:
受 sub-pixel convolution 技術[26]的啟發,其中圖像上采樣被通道重新排列所取代,從而實現了通道到空間的特征轉換。相應地,在本文的工作中,本文的目標是有效地實現通道到高度的特征轉換。鑒于 BEV 感知任務的進步,其中 BEV 表示中的每個像素都包含有關相應 pillar 中沿高度維度的所有對象的信息,本文直觀地利用通道到高度變換(channel-to-height transformation) 將扁平化的 BEV 特征重塑為三維體素級別占用 logits。因此,本文專注于以通用和即插即用的方式增強現有模型,而不是開發新穎的模型架構,如圖1 (a)所示。具體來說,本文直接用 2D 卷積替換當代方法中的 3D 卷積,并用通過 2D 卷積獲得的 BEV 級特征的通道到高度變換(channel-to-height transformation) 替換從 3D 卷積輸出導出的占用 logits。這些模型不僅實現了準確性和時間消耗之間的最佳權衡,而且還表現出了出色的部署兼容性。
FlashOcc 成功地以極高的精度成功完成了實時環視 3D 占用預測,代表了該領域的開創性貢獻。此外,它還展現了跨不同車載平臺部署的增強的多功能性,因為它不需要昂貴的體素級特征處理,其中避免了 view transformer 或 3D(可變形)卷積算子。如圖2所示,FlashOcc的輸入數據由環視圖像組成,而輸出是密集的占用預測結果。盡管本文的FlashOcc專注于以通用和即插即用的方式增強現有模型,但它仍然可以分為五個基本模塊:(1)2D圖像編碼器,負責從多相機圖像中提取圖像特征。(2) 視圖轉換模塊,有助于將 2D 感知視圖圖像特征映射到 3D BEV 表示。(3) BEV 編碼器,負責處理 BEV 特征信息。(4) 占用預測模塊,預測每個體素的分割標簽。(5) 一個可選的時間融合模塊,旨在集成歷史信息以提高性能。
圖 1.(a) 說明了如何以即插即用的方式實現所提出的 FlashOcc。現代方法使用 3D-Conv 處理的體素級 3D 特征來預測占用率。相比之下,本文的插件替代模型通過 (1) 用 2D-Conv 替換 3D-Conv 以及 (2) 用通道到高度變換(channel-to-height transformation) 替換從 3D-Conv 導出的占用 logits,實現快速且節省內存的占用預測通過 2D-Conv 獲取的 BEV 級特征。縮寫“Conv”代表卷積。(b) 舉例說明了準確性與速度、推理內存消耗和訓練持續時間等因素之間的權衡。
圖 2. 該圖說明了 FlashOcc 的總體架構,最好以彩色方式查看并具有縮放功能。虛線框指定的區域表示存在可更換模塊。每個可更換模塊的特征形狀分別由代表 2D 圖像、BEV 級和體素級特征的圖標表示。淺藍色區域對應于可選的時間融合模塊,其使用取決于紅色開關的激活。
圖 4. 3D 體素級表示處理和本文的插件替換之間的架構比較。
實驗結果:
總結:
本文介紹了一種稱為 FlashOCC 的即插即用方法,旨在實現快速且內存高效的占用預測。它直接用 2D 卷積替換基于體素的占用方法中的 3D 卷積,并結合通道到高度變換(channel-to-height transformation) 將扁平化的 BEV 特征重塑為占用 logits。FlashOCC 的有效性和通用性已在多種體素級占用預測方法中得到證明。大量的實驗證明了這種方法在精度、時間消耗、內存效率和部署友好性方面優于以前最先進的方法。據本文所知,本文是第一個將 sub-pixel 范式(Channel-to-Height)應用于占用任務的,專門利用 BEV 級特征,完全避免使用計算 3D(可變形)卷積或 transformer 模塊。可視化結果令人信服地證明 FlashOcc 成功保留了高度信息。在未來的工作中,本文將探索將本文的FlashOcc集成到自動駕駛的感知管道中,旨在實現高效的 on-chip 部署。
引用:
Yu, Z., Shu, C., Deng, J., Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023). FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin. ArXiv. /abs/2311.12058
原文鏈接:https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ