挖掘BEV潛力的邊界!DA-BEV:無監督BEV SOTA新方案!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
今天和大家探討3D視覺感知領域中的一個特定問題:針對純視覺的鳥瞰圖(BEV)的無監督領Domain Adaptation(Unsupervised Domain Adaptation, UDA)。3D視覺感知在移動機器人、自動駕駛、虛擬現實等領域起著重要的作用,而近年來,純視覺的BEV模型由于其在全面的3D理解、豐富的語義信息、高計算效率和低部署成本方面的優勢而受到越來越多的關注。
研究背景上,盡管單目和基于激光雷達的3D感知取得了顯著的進步,但當在源域(例如,訓練數據的環境)訓練的純視覺BEV模型應用到目標域(例如,不同于訓練數據的新環境)時,通常會出現明顯的性能下降。這種性能降低主要是由于源域和目標域之間的顯著差異所導致。
論文提出的問題是,盡管對于2D計算機視覺任務來說,無監督領Domain Adaptation已經被廣泛探索,但對于純視覺BEV感知來說,如何減少源域和目標域之間的差異仍然是一個極具挑戰性且相對欠缺研究的問題。
為了解決這個問題,論文提出了一種名為DA-BEV的新框架,這是第一個針對純視覺BEV感知的領域自適應框架。DA-BEV通過利用圖像視圖特征和BEV特征之間的互補性來解決BEV領Domain Adaptation的挑戰。具體來說,這個框架通過引入可學習的查詢來促進圖像視圖特征和BEV特征之間的相互作用,同時跨領Domain Adaptation它們。在這一過程中,BEV特征中的全局3D信息有助于適應圖像視圖特征,而圖像視圖特征中較少變化的2D信息則有助于適應BEV特征。
DA-BEV的設計包括兩種基于查詢的領Domain Adaptation技術:基于查詢的對抗學習(QAL)和基于查詢的自訓練(QST)。這兩種設計相輔相成,共同實現了有效的無監督BEV感知適應。
論文的主要貢獻在于三個方面。首先,它提出了一種基于查詢的領Domain Adaptation策略,這種策略利用了圖像視圖特征和BEV特征的互補性,適用于無監督的BEV感知適應。其次,它設計了DA-BEV,這是一種引入基于查詢的對抗學習和基于查詢的自訓練的框架,有效地聯合解決了領域自適應BEV感知的問題。最后,通過廣泛的實驗,DA-BEV在不同數據集和任務(如3D物體檢測和3D場景分割)上展示了其在BEV感知適應方面的優越性能。
詳解DA-BEV
DA-BEV整體框架
DA-BEV框架利用圖像視圖特征和BEV特征之間的互補性來解決BEV領Domain Adaptation的挑戰。它設計了一種基于查詢的領Domain Adaptation方法,通過引入可學習的查詢,實現圖像視圖特征和BEV特征之間的交互以及它們的協同適應。直觀地說,BEV特征中的全局3D信息有助于適應圖像視圖特征,而圖像視圖特征中的局部2D信息,由于領域變化較小,有助于適應BEV特征。基于這一理念,論文設計了兩種基于查詢的領Domain Adaptation技術:基于查詢的對抗學習(QAL)和基于查詢的自訓練(QST)。
在DA-BEV框架中,為了捕獲圖像視圖特征中較少的領域差異,引入了一個圖像視圖特征解碼器 ,以及一組可學習的圖像視圖查詢 。圖像視圖查詢 和圖像視圖特征 之間的交互產生了圖像視圖查詢特征 ,可以用下式表示:
然后,將查詢特征 輸入到多標簽分類頭中,以預測每個對象類別的概率。其中通過多標簽分類損失函數進行訓練,如下所示:
其中, 表示圖像視圖多標簽分類注釋。
為了捕獲BEV特征中的全局3D信息,直接使用現成的BEV查詢 ,這些查詢與BEV特征交互,生成解碼的BEV查詢特征 。由于BEV特征編碼了相機配置,而 是用3D物體注釋訓練的,所以解碼的BEV查詢特征 包含了豐富的全局3D信息,包括物體在3D BEV空間中的位置。這有助于適應那些在BEV空間中幾乎不捕獲全局3D信息的圖像視圖特征。
Query-based Adversarial Learning (QAL)
在Query-based Adversarial Learning (QAL)中,提出的方法利用從圖像視圖特征或BEV特征中查詢得到的有用信息來規范化對方的對抗學習。具體來說,QAL使用兩個域分類器來分別測量圖像視圖查詢特征和BEV查詢特征的域間距離,并利用測量得到的域間距離進行相互規范化。
QAL的關鍵在于同時減輕圖像視圖特征中的局部2D信息和BEV特征中的全局3D信息的域間差異,這兩者對于在3D空間中定位和識別物體和背景都至關重要。此外,2D圖像視圖查詢特征的對抗學習涉及較少的3D信息,其中BEV查詢特征可以通過提供豐富的全局3D信息來有效地規范化它。
具體來說,域分類器 和 被用來測量2D圖像視圖和3D BEV特征的域間距離。QAL的相互規范化可以表述為以下損失函數:
其中 是用于跨域對齊的廣泛采用的對抗學習損失函數。
Query-based Self-training (QST)
在Query-based Self-training (QST)中,提出的方法利用從圖像視圖特征和BEV特征中查詢得到的有用信息來規范化它們的自訓練。直觀地說,解碼的圖像視圖查詢特征捕獲了豐富的2D語義和位置信息,這些信息在域間具有較少的差異,而解碼的BEV查詢特征則捕獲了BEV空間中的豐富全局3D信息。因此,這兩種特征互補,共同有效地規范化自訓練。
QST首先利用來自圖像視圖或BEV特征的預測來去噪另一方的預測。然后,QST通過積累去噪后的預測,獲取全局類別分布,并進一步利用它來促進偽標簽的生成。生成的偽標簽方法具有三個特點:1)閾值是根據圖像視圖和BEV特征捕獲的2D和3D信息動態確定的;2)通過為每個類別選擇相同百分比的偽標簽來緩解類別不平衡問題;3)它是在線的,不需要額外的推理輪次。
QST的訓練損失可以表述為:
總體目標
綜上所述,提出的DA-BEV的整體訓練目標可以表述為以下公式:
其中
這一目標結合了圖像視圖特征和BEV特征的對抗學習和自訓練,以實現跨Domain Adaptation。
相關實驗
這個實驗表格展示了在不同照明條件下,針對純視覺BEV感知的無監督領Domain Adaptation的結果。具體來說,實驗關注的是從白天到夜晚的場景轉換。評估指標包括了不同類別的平均精度(Average Precision, AP)以及整體的平均精度(mAP)和標準化檢測分數(Normalized Detection Score, NDS)。實驗比較了四種方法:Source Only、SFA、MTTrans、STM3D和本文提出的DA-BEV。
- 類別細分的AP:表格中展示了對于不同類別(如汽車、卡車、建筑車輛、公共汽車等)的檢測精度。這些細分的AP指標重要的是,它們揭示了模型在識別不同類型的物體上的性能,這在實際應用中是非常關鍵的,因為不同類型的物體對于感知系統的響應可能會有很大不同。
- 整體的mAP和NDS:整體的mAP是所有類別AP的平均值,提供了一個整體的性能指標。NDS是一種綜合評估,不僅考慮了檢測精度,還可能考慮了其他因素如位置準確度、大小估計等。這兩個指標給出了一個更全面的性能評估。
- 方法比較:
- Source Only 是基線方法,沒有進行領Domain Adaptation。
- SFA、MTTrans、STM3D 是其他領Domain Adaptation方法。
- DA-BEV (Ours) 是本文提出的方法。
- 分析:
在大多數類別上,DA-BEV的表現優于其他方法,特別是在“汽車”、“卡車”和“公共汽車”等類別上,這表明DA-BEV在進行領Domain Adaptation時能更好地維持或提高對這些類別的識別能力。
對于“拖車”和“建筑車輛”等類別的檢測依然是一個挑戰,因為這些類別的AP值普遍較低。
在整體mAP和NDS上,DA-BEV也顯著優于其他方法,表明其在不同照明條件下的領Domain Adaptation性能整體更佳。
這個實驗結果表明DA-BEV在進行無監督領Domain Adaptation,特別是在照明條件變化較大的情況下,能夠有效提高3D物體檢測的性能。
上圖展示了DA-BEV框架在跨天氣條件下(即晴天到雨天)進行3D物體檢測的定性結果。左邊的六個小圖呈現了多相機視角下的3D預測結果,每個視角的圖像中都有黃色的3D邊界框標注著檢測到的車輛。右邊是鳥瞰圖(BEV)視角的預測結果,其中橙色框表示預測位置,藍色框代表實際的地面真相(Ground Truth)。在BEV圖中,我們可以看到預測框和真實框的對比,能夠直觀地評估模型預測的準確性。例如,圖中的一個交叉標記(X)指出了一個錯誤預測的位置,這種可視化有助于理解模型在不同環境條件下的表現和適應性。
這張表格進行了對白天到夜間適應中的參數分析。表格列出了不同的閾值參數()和指數移動平均參數()對模型平均精度(mAP)的影響。從左邊的表格可以看出,當閾值參數 從10%增加到20%時,mAP從18.24增加到20.27,然后在25%時有所下降到19.57,這可能表明在一定范圍內提高閾值可以改進性能,但超過某個點后性能會下降。右邊的表格顯示,隨著 參數的增加,mAP先是增加然后又略微下降,這表明了模型對于參數選擇的敏感性,以及在訓練過程中保持參數的平衡是提高性能的關鍵。
另一張表格測試了DA-BEV方法在不同網絡骨架上的泛化能力。實驗考慮了三種不同的骨架:R50-C5、R50-P4和VoV-P4。在沒有Domain Adaptation(Source Only)的情況下,這三種骨架的mAP分別是10.63、11.61和15.93。使用DA-BEV方法后,所有骨架的性能都有所提高,分別達到了13.03、14.22和20.27。這表明DA-BEV能夠在不同的網絡架構上提供一致的性能增益,從而驗證了其泛化能力。
總體來看,這些信息表明DA-BEV是一個有效的框架,能夠在不同的天氣和光照條件下實現跨Domain Adaptation,并且具有良好的泛化能力。定性結果展示了模型在復雜環境中的實際應用性能,而定量結果則提供了參數選擇和模型設計對性能影響的深入分析。
討論
這篇論文提出的DA-BEV方法在跨域3D物體檢測任務中展現了顯著的優勢,尤其是在處理不同光照和天氣條件下的場景適應問題上。通過引入基于查詢的自訓練和對抗學習,DA-BEV能夠有效地利用圖像視圖和BEV特征之間的互補性,從而改善了模型在目標域上的性能。這在跨天氣條件,如從白天到夜間的適應任務中,尤為重要,因為光照變化對感知系統的影響很大。
定性分析表明,DA-BEV可以在多個相機視角中精確地識別和定位物體,并且在鳥瞰圖中準確地重建3D場景。這一能力對于實際應用如自動駕駛和機器人導航是非常關鍵的,因為它們需要在各種環境條件下都能準確地感知周圍的環境。此外,該方法在不同的網絡骨架上都表現出良好的泛化能力,這意味著它可以與不同的網絡架構集成,提高現有系統的適應性。
然而,DA-BEV方法也有其局限性。例如,它在某些特定類別,如拖車和建筑車輛的檢測上,性能仍然有限,這可能是因為這些類別在數據集中的表示較少或者它們在不同光照條件下的外觀變化更加顯著。此外,雖然定性結果令人印象深刻,但在鳥瞰圖中仍有少數誤差,這表明模型在理解復雜場景方面仍有改進空間。
結論
在本文中,我們提出了DA-BEV,這是首個領域自適應的純視覺BEV框架,它通過利用圖像視圖特征和BEV特征的互補性來解決領域自適應BEV的挑戰。DA-BEV引入了基于查詢的對抗學習(QAL)和基于查詢的自我訓練(QST),其中QAL/QST利用從圖像視圖特征或BEV特征中查詢得到的有用信息來規范化另一個的對抗學習。廣泛的實驗展示了DA-BEV在各種數據集和任務上的卓越領域自適應BEV感知性能。展望未來,我們將通過引入它們的時間信息來進一步探索圖像視圖和BEV特征的互補性。、
原文鏈接:https://mp.weixin.qq.com/s/GSB8DX2VX6ROh6c-juRgMA