性能又高,耗時還小!為什么不試試最新3D占用網絡SGN呢?已開源
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
在這個信息化的時代,無人駕駛汽車和智能機器人正成為現實生活中的重要角色。為了讓這些機器更好地理解和導航我們的世界,它們需要能夠看到并理解它們周圍的環境。這就像是教機器“閱讀”現實世界的三維空間故事。今天汽車人為大家介紹了一個名為Sparse Guidance Network(SGN)的智能系統,它使用一種特殊的方式來提升機器的這種“閱讀”能力。SGN通過某種方式讓機器更快地學習和辨認周圍的物體,就像在拼圖游戲中找到正確的拼圖塊一樣。研究人員通過大量的測試,證明了SGN能夠在這個復雜的三維拼圖游戲中勝出,尤其是在一個叫做SemanticKITTI的挑戰中,這是一個檢驗機器“視力”的考驗。雖然SGN在幫助機器“看”得更清楚方面做得很好,但研究人員仍在尋找方法,使它變得更小、更快、更聰明,這樣未來無人駕駛汽車和智能機器人就可以更安全、更有效地幫助我們。
文章的主要思路
SGN探討了3D語義場景補全(SSC)的問題,這是一個在戶外駕駛場景中特別重要的研究領域。傳統上,這個問題主要依賴于昂貴的激光雷達(LiDAR)技術來捕獲周圍環境的三維信息。然而,近年來,研究開始轉向更經濟的基于純視覺的SSC解決方案。先前的工作,如MonoScene、OccDepth、SurroundOcc和OccFormer等,大多采用了將二維圖像轉換為三維體積,再通過復雜的3D模型處理的方法。雖然這些方法在技術上有所創新,但它們通常依賴于重型的3D模型來處理提升的三維特征,這使得它們在清晰的分割邊界方面表現不足。
為了改進這一點,VoxFormer等方法提出了使用可見區域來完成不可見結構的方法。這種方法采用兩階段框架:第一階段用于查詢proposal,第二階段用于密集化和分割。這種稀疏到密集的方法在效率和可擴展性上優于之前的密集處理方法,但它在查詢的類內特征分離、查詢信息的準確性以及全局信息考慮等方面仍存在限制。
針對這些限制,論文提出了一種新型的端到端基于純視覺的SSC框架,稱為Sparse Guidance Network(SGN)。SGN的核心思想是利用幾何先驗和占用信息,從具有語義和占用意識的種子體素向整個場景擴散語義。與傳統方法不同,SGN采用了一種密集-稀疏-密集的設計,并引入了混合引導和有效的體素聚合來加強類內特征的分離和加速語義擴散的收斂。此外,SGN還利用了各向異性卷積來實現靈活的接收場,同時減少計算資源的需求。
這一創新方法在SemanticKITTI數據集上進行了廣泛的實驗,結果顯示SGN在性能上優于現有的最先進方法。即使是SGN的輕量級版本SGN-L,也在內存和參數量方面更為節省,同時在mIoU和IoU兩個重要指標上取得了顯著的提升。這樣的效果得益于SGN在設計上的高效性和新穎性,特別是在處理稀疏數據和加速語義擴散方面的創新,這使得SGN能夠在保持輕量級的同時,提供強大的場景理解能力。
SGN方法詳解
概述
Sparse Guidance Network(SGN)的總體框架展現了一種密集-稀疏-密集的設計,旨在通過幾何先驗和占用信息,從具有語義和占用意識的種子體素將語義擴散到整個場景中。具體步驟如下:SGN以RGB圖像為輸入,使用ResNet-50結合FPN來構建圖像編碼器,以從RGB圖像中提取二維特征。這些提取的特征 為后續體素特征的形成提供了堅實的基礎,其中 是時間輸入的圖像數量, 是特征通道數, 表示圖像分辨率。SGN通過3D-2D投影映射(使用純視覺參數)對二維特征進行采樣,構建三維特征。這種簡單的投影映射操作為后續的上下文建模提供了粗糙的體積場景表示。該映射過程比可學習的LSS和交叉注意力機制更簡便和明確。數學上,三維特征 是從二維特征 采樣得到的。SGN基于深度預測生成稀疏體素提案,用于動態索引種子體素。根據體素提案和三維特征,SGN設計了混合引導以注入語義和幾何線索,促進特征學習。SGN開發了體素聚合層,形成信息豐富的體素特征,這些特征進一步通過多尺度語義擴散模塊進行處理,以進行最終的語義占用預測。
總的來說,SGN通過其創新的設計和流程,能夠有效地處理和解釋三維場景,提供準確的語義場景補全。
Feature Learning with Hybrid Guidance
在"Feature Learning with Hybrid Guidance"這一部分中,SGN通過結合幾何引導和稀疏語義引導,來增強信息豐富的體素特征。這種方法旨在解決直接處理視圖變換模塊產生的3D特征 的重型模型在獲取清晰分割邊界方面不夠鑒別力的問題。
- Geometry Guidance:首先,在視圖變換模塊后接一個輔助的3D占用頭作為幾何引導,以提供粗略的幾何意識。具體來說,利用各向異性卷積層和線性層構建3D占用頭。這種各向異性卷積將3D卷積操作分解為三個連續的不同方向的1D卷積,并且每個1D卷積都配備了不同核大小的混合器,從而增強了模型從輸入數據中學習和提取有意義特征的能力。通過輔助頭對提升的3D特征 進行3D占用 的預測,對粗略場景表示應用引導,并為后續種子特征的語義預測和擴散提供幾何先驗。
- Sparse Semantic Guidance:為了更有效和高效地從具有粗糙體積信息的3D特征中學習所有體素的語義,提出了從種子體素向整個場景傳播語義的方法。具體來說,生成稀疏體素提案來選擇種子體素,并鼓勵種子特征之間的類間可分性。
- Sparse Voxel Proposal:設計了一個稀疏體素提案網絡(SVPN),以動態選擇種子體素,從而進行后續的語義上下文學習。SVPN包括深度估計和從粗到細的占用預測。
- Semantic Guidance:在獲得占用預測 和場景體素坐標 后,首先選擇初始種子體素特征 和種子坐標 ,然后將這些種子體素特征和相應的體素索引輸入語義引導模塊進行相互作用。該模塊具有兩個稀疏編碼器塊(SEB),一個融合層和一個輔助語義頭,每個編碼器塊包括一個稀疏特征編碼器和一個稀疏幾何特征編碼器,輸出具有多尺度上下文信息的特征。
- Voxel Aggregation:如圖所示,進一步將具有語義意識的種子特征 和具有占用意識的特征 與表示粗略幾何的3D特征 聚合,以構建最終的鑒別性體素特征 。特別地,利用非種子體素的坐標索引特征 從 中,然后將非
Multi-Scale Semantic Diffusion
在"Multi-Scale Semantic Diffusion"(多尺度語義擴散)這一部分中,SGN通過結合幾何引導和稀疏語義引導學習特征,從而獲得具有豐富語義上下文和空間幾何線索的鑒別性體素特征。接著,設計了多尺度語義擴散(MSSD)模塊,以基于幾何和空間占用線索,將語義信息從種子特征擴散到整個場景。
MSSD模塊包含三個各向異性卷積層和ASPP模塊,這些構成部分既輕量級又能有效捕獲不同大小實例的多尺度特征。之后,使用由線性層和softmax層組成的頭部來從擴散的體素特征中預測最終的語義場景預測 。
沿用MonoScene的做法,SGN在 的語義和幾何結果上采用Scene-Class Affinity Loss,以同時優化類別精度、召回率和特異性度量。最終預測的整體損失函數表達為:
其中, 和 分別代表語義和幾何結果的Scene-Class Affinity Loss, 代表交叉熵損失。
通過這種設計,MSSD模塊能夠有效地將語義信息從精選的種子體素擴散到整個場景,從而在保持模型輕量的同時,實現對復雜三維環境的深入理解和準確的語義場景補全。
實驗結果
在SemanticKITTI隱藏測試集上,針對語義場景補全的性能比較中,SGN(Sparse Guidance Network)展示了卓越的實驗表現。SGN的三個變體——SGN-S、SGN-L和SGN-T——均超越了先前方法的性能。特別地,SGN-T版本在多項個別類別上以及(mIoU)上都取得了最佳成績。
SGN-T在'road'(道路)類別上實現了最高的IoU,為60.40%,同時在較困難識別的類別,如'truck'(卡車)、'motorcyclist'(摩托車手)和'traffic sign'(交通標志)上,也展現了出色的識別能力,分別達到了28.40%、4.50%和8.30%的IoU。這些成績不僅在單個類別上表現出色,而且在整體性能上,SGN-T以15.76%的mIoU率先于所有列出的方法,這反映了其在各個類別上的綜合性能強度。
SGN-L和SGN-S也表現出了不俗的性能,與SGN-T相比,它們在某些類別上略有不足,但在'car'(汽車)、'bicyclist'(騎自行車的人)和'pole'(桿子)等類別上取得了傲視群雄的結果。這表明SGN框架在不同尺寸和參數設置下仍然能夠保持其語義理解的能力。
整體而言,SGN方法的優異表現證明了其對于SemanticKITTI數據集上的3D語義場景補全任務的有效性,特別是在處理復雜場景和細粒度類別的識別上。SGN的成功歸因于其獨特的體素特征聚合和多尺度語義擴散能力,這使得它能夠在3D空間中更加準確地推斷和標記各種類別。
關于SGN討論
在SGN中,提出的Sparse Guidance Network (SGN) 方法為三維語義場景補全問題提供了一種創新的解決方案。SGN的主要優點在于其使用了一種高效的密集-稀疏-密集設計,這種設計不僅優化了計算資源的使用,還通過有效的語義和幾何引導提高了模型對于場景中物體邊界的鑒別能力。此外,SGN通過多尺度語義擴散模塊有效地處理了不同尺寸的實例,進一步提高了其在多個類別上的識別性能,尤其是在具有挑戰性的SemanticKITTI數據集上。
盡管SGN在多項指標上表現出色,但也存在一些潛在的限制。首先,雖然SGN通過稀疏體素提案網絡動態選擇種子體素,但這個過程可能會錯過一些重要的特征,尤其是在場景中較為稀疏或難以區分的區域。其次,SGN在推斷過程中放棄了輔助3D頭,這可能會限制模型在捕捉復雜幾何形狀時的能力。此外,盡管SGN在效率和性能上取得了平衡,但如何進一步減少模型的參數數量和內存占用,以適應資源受限的應用場景,仍然是一個值得探討的問題。
未來,SGN的研究可以在以下幾個方面進一步發展。首先,可以探索如何改進稀疏體素提案網絡,以更準確地捕捉和利用場景中的重要特征。其次,可以研究新的網絡架構或訓練策略,以更好地利用在推斷過程中丟棄的輔助3D頭中的信息。此外,對于模型的輕量化和優化也有很大的發展空間,例如,通過網絡剪枝或知識蒸餾來減小模型大小,提高在邊緣設備上的部署效率。最后,模型泛化能力的提升也是未來研究的一個重要方向,如何使模型能夠適應不同的環境和條件,包括不同光照、天氣以及傳感器配置,將是推動該領域進一步發展的關鍵。通過解決這些問題,SGN及其未來的變體有望在三維語義理解和場景重建領域取得更廣泛的應用。
結論
總結來說,作者提出了Sparse Guidance Network(SGN),這是一種新穎的端到端框架,用于基于純視覺的三維語義場景補全。SGN利用其密集-稀疏-密集的設計,有效地結合了幾何和語義引導,從而提高了語義分割的準確性。通過在SemanticKITTI數據集上進行廣泛的實驗,SGN證明了其在多個類別上的優越性能,尤其是在mIoU指標上,展示了其對于各種尺寸物體的鑒別能力。雖然SGN存在一些局限性,比如在處理稀疏區域時可能會錯過一些特征,但它的整體表現表明了一個強大的框架,為未來三維語義場景補全的研究提供了新的方向。未來工作可以集中在進一步優化模型結構、提高泛化能力和效率上,以實現更廣泛的應用。
原文鏈接:https://mp.weixin.qq.com/s/JrxSaaeKJ656741vwBr5xA