在線高精地圖如何重塑自動駕駛行業?清華團隊的深度思考~
寫在前面&筆者的理解:
現在各大廠商都在布局輕地圖(輕高精地圖)或無圖(無高精地圖)方案,而其中之一就是local map(局部地圖),并且輔助以SD地圖(標準地圖),所以對這個領域的整體把握非常具有實際意義。局部地圖不僅提供了復雜的道路網絡細節,還作為車輛定位、導航和決策等關鍵任務的基礎輸入。由于標準定義地圖(SD Map)具有低成本、易獲取和高通用性的特點,結合SD地圖作為先驗信息的感知方法在局部地圖感知領域展現出顯著潛力。
今天自動駕駛之心和大家分享的是對SD地圖作為先驗信息整合到局部地圖感知方法中的最新進展的全面概述和總結。首先介紹了將SD地圖作為先驗信息融入局部地圖感知方法的任務定義和總體流程,以及相關的公共數據集。隨后,重點討論了多源信息的表示與編碼方法,以及多源信息融合的方法。為應對這一快速發展的趨勢,本文對該領域的多樣化研究工作進行了全面而細致的綜述。最后,文章探討了相關問題和未來挑戰,以期幫助研究人員理解該領域當前的趨勢和方法。
介紹
局部地圖感知是智能駕駛領域中的一項關鍵且具有挑戰性的任務。它涉及對車輛周圍環境的詳細理解和實時建模,作為自動駕駛系統中決策和導航的基礎。局部地圖不僅提供關于道路和車道的信息,還涵蓋對障礙物、交通標志、行人及其他動態或靜態物體的檢測與識別。這些信息對于確保車輛安全運行和高效路徑規劃至關重要。沒有精確的局部地圖感知,自動駕駛車輛可能偏離路線、引發交通事故,甚至威脅乘客安全。因此,局部地圖感知在自動駕駛生態系統中扮演著不可或缺的角色。
與典型的目標檢測不同,局部地圖感知需要在處理復雜和動態環境信息的同時,在各種光照條件和天氣情況下保持高精度。例如,路上的陰影、光線反射、動態障礙物以及交通標志的遮擋都會干擾局部地圖感知。此外,傳感器噪聲和數據延遲進一步加劇了感知任務的復雜性。因此,開發魯棒的局部地圖感知技術對于實現安全可靠的自動駕駛至關重要。
為了應對這些問題,許多研究人員提出了各種方法。Chen 和 Lei提出了一種利用地面紋理進行視覺定位和地圖構建的方法,通過全局和局部優化提高了定位精度和地圖更新的精確度。還有研究人員[2]通過利用SD地圖并通過Transformer編碼器集成SD地圖信息,增強了在線地圖預測和車道拓撲理解,從而緩解了車道線遮擋或能見度差的問題,顯著提升了車道檢測和拓撲預測的性能。研究人員[3]提出了一種創新的視頻車道檢測算法,該算法通過使用遮擋感知的基于記憶的細化(OMR)模塊,利用障礙物掩碼和記憶信息來提高遮擋下的檢測精度和魯棒性。RVLD通過遞歸傳播當前幀的狀態到下一幀,利用前幾幀的信息提高了車道檢測的可靠性。此外,還有 Laneaf、LaneATT、Streammapnet等方法來緩解這些問題。
在先前的自動駕駛研究中,高精地圖(HDMap)一直是至關重要的。HDMap 具有絕對和相對精度在1米以內的特點,提供了高精度、新鮮度和豐富的電子地圖信息,包括廣泛的道路和環境信息。這些地圖為安全高效的自動駕駛提供了精確的導航和定位服務。然而,HDMap 面臨著重大挑戰,主要是在實時更新和成本控制方面。城市道路環境經常變化,任何微小的改變都可能影響自動駕駛車輛的行駛安全。傳統的 HDMap 制作方法需要大量的時間和資源,難以實現實時更新,研究[8] 和 [9] 都指出了類似的問題。此外,HDMap 的制作和維護成本極高,使用傳統方法的成本可達每公里數千美元。
在這種背景下,“重感知,輕地圖”這種方法在業內獲得了廣泛認可。這種方法強調使用車載傳感器進行自動駕駛感知任務,并輔以輕量級地圖信息。這種策略減少了對實時地圖更新的依賴,降低了維護成本,同時輕量級地圖信息可以有效彌補車載傳感器的某些局限性,增強模型的魯棒性。作為交通導航和地理信息服務中廣泛使用的電子地圖,標準定義地圖(SD Map)具有低制作和維護成本、易于獲取和數據量小的特點,適合作為輕量級地圖來輔助車載傳感器構建自動駕駛的局部地圖。
盡管基于 SD Map 構建局部地圖的前景廣闊,但面臨著諸多挑戰,且在這一領域缺乏全面的研究綜述。為了解決這一空白,本綜述旨在提供利用 SD Map 的局部地圖構建方法的最新進展的全面概述。具體而言,重點是 SD Map 信息表示方法和多模態數據融合技術在局部地圖感知任務中的應用。本研究深入探討了該領域的主要發展、挑戰和研究方向。對現有基于 SD Map 作為先驗信息的局部地圖構建文獻進行了回顧。分析了這些方法的優缺點,為其在實時自動駕駛應用中的有效性和適用性提供了見解。重點介紹了各種傳感器信息的表示和編碼方法,以及多源傳感器數據的融合技術,這對于實時局部地圖生成至關重要。討論了這些方法的基本原理、架構和性能,揭示了它們在該領域的可行性和實用性。此外,本文還識別了使用 SD Map 作為先驗信息進行局部地圖構建的關鍵挑戰和開放研究問題。
背景知識
此節將明確基于SD地圖的局部地圖構建的定義,并總結此類任務的一般流程。介紹SD地圖的組成和應用場景。最后,列舉在局部地圖感知任務中常用的公共數據集和評估指標。
基于SD地圖的局部地圖構建任務定義
局部地圖感知任務涉及創建一個準確的地圖,表示車輛周圍的環境,以支持自動駕駛的決策和規劃。這一任務通常依賴于來自各種傳感器的數據,包括相機、激光雷達、雷達和GPS。此外,結合SD地圖中的先驗信息可以增強模型的魯棒性,減少車載傳感器的不確定性對模型的影響,從而提高整體模型性能。局部地圖感知任務的核心在于實時感知和理解車輛周圍的環境。
用于局部地圖構建的神經網絡的一般過程可以總結為幾個關鍵組件,如圖1所示。在輸入環視圖像和激光雷達點云后,局部地圖構建網絡的整體架構可以分為不同部分:用于圖像特征提取的骨干網絡(backbone)、用于視角轉換的PV2BEV(透視視角到鳥瞰視角)模塊、用于多模態特征融合的模塊,以及用于車道檢測的特定任務頭(task-specific heads)。這些組件構成了局部地圖感知網絡的基本框架。環視相機和激光雷達捕獲的圖像和點云數據首先通過骨干網絡處理,以獲得(多尺度的)圖像特征。這些特征隨后通過PV2BEV模塊轉換為鳥瞰視角,并通過模態融合模塊與SD地圖數據融合,最終通過不同的特定任務頭輸出。
標準定義地圖
SD地圖(Standard Definition Map的縮寫)是一種提供基本地理信息和道路網絡結構的數字地圖技術。它廣泛應用于日常導航和地理信息服務,為用戶提供便利。SD地圖主要提供道路的中心線骨架,但不包含詳細的車道信息、道路標志或其他高精度環境特征。
對于局部地圖構建任務,SD地圖提供了三大主要優勢。首先,SD地圖數據易于獲取。通常可以從開放的地理數據源(如OpenStreetMap)免費獲得,適用于大規模應用。其次,與HD地圖相比,SD地圖的生產和維護成本顯著降低。最后,SD地圖具有高度的通用性,覆蓋了大多數類型的道路,可以為局部地圖構建任務提供相關的道路信息。OSM和百度地圖等平臺可以作為SD地圖的數據來源。例如,OpenStreetMap(OSM)是一個由全球志愿者創建和維護的協作項目,提供免費的、可編輯的、開放內容的地圖。OSM數據包括廣泛的地理信息,如道路、建筑、公園和河流,用戶可以自由訪問、編輯和使用。
數據集
在鳥瞰視角(BEV)局部地圖構建領域,常用的數據集包括KITTI、nuScenes、ApolloScape、Argoverse、Openlane和Waymo開放數據集。
由卡爾斯魯厄理工學院和豐田創建的KITTI數據集提供了雙目相機、激光雷達和GPS/IMU數據,涵蓋了城市、農村和高速公路場景,適用于目標檢測、跟蹤和道路檢測等任務。Motional發布的nuScenes 數據集包括來自六個相機、五個Radar、一個激光雷達、IMU和GPS的數據,適用于各種天氣和光照條件下的城市交通場景。由百度發布的ApolloScape 數據集提供了覆蓋各種城市道路場景的高精度3D標注數據,適用于車道檢測和語義分割等任務。
由Argo AI發布的Argoverse 數據集包括雙目相機、激光雷達、GPS和IMU數據,提供詳細的3D標注和車道標記,主要用于3D目標檢測和車道檢測。Waymo發布的Waymo 開放數據集涵蓋了多種天氣和交通條件,提供了來自激光雷達和相機的高質量數據,適用于3D目標檢測、跟蹤和車道檢測等任務。
OpenLane-V2(又名OpenLane-Huawei或Road Genome)是一個由上海人工智能實驗室和華為諾亞方舟實驗室聯合開源的面向下一代自動駕駛場景道路結構感知的基準數據集。它是首個包含交通場景中道路結構拓撲關系的數據集。
ONCE-3DLanes 數據集是一個具有3D空間車道布局標注的真實世界自動駕駛數據集,是為了促進單目3D車道檢測方法的發展而構建的新的基準數據集。該數據集在中國的多個地理位置收集,包括高速公路、橋梁、隧道、郊區和市區,涵蓋不同的天氣條件(晴天/雨天)和光照條件(白天/夜間)。整個數據集包含211K張圖像及其對應的相機坐標系下的3D車道標注。
CurveLanes是一個新的基準車道檢測數據集,包含15萬張用于交通車道檢測中曲線和多車道等困難場景的車道圖像。該數據集在中國多個城市的真實城市和高速公路場景中收集。所有圖像都經過精心挑選,其中大多數圖像至少包含一條曲線車道。該數據集中還可以找到更具挑戰性的場景,如S形曲線、Y形車道、夜間和多車道等。
常用評估指標
車道提取的評估指標
mAP是評估目標檢測模型性能的常用指標。mAP通過匹配預測的邊界框與真實框來計算正檢(TP)、誤檢(FP)和漏檢(FN),以測量模型在不同閾值水平下的精度。首先,根據指定的交并比(IoU,Intersection over Union)閾值,將預測框與真實框進行匹配。然后,計算每個類別的精度(TP / (TP + FP))和召回率(TP / (TP + FN)),并繪制精度-召回曲線。通過插值方法計算曲線下的面積,得到單個類別的平均精度(AP)。最后,所有類別的AP值的均值即為mAP,反映了模型的整體檢測性能,值越高表示性能越好。
平均交并比(mIoU)是評估語義分割模型性能的常用指標。mIoU衡量模型對各種對象的像素級分類準確性。計算過程涉及幾個步驟。對于每個類別,通過將預測區域與真實區域之間的相交像素數(Intersection)除以這些區域的并集像素數(Union)來計算IoU。這一計算對每個類別進行,然后所有類別的IoU均值即為mIoU,提供了模型分割準確性的平均性能評估,值越高表示分割性能越好。
傳統的目標檢測指標,如mAP,可能無法全面捕捉檢測任務中的所有重要方面,例如目標速度和屬性的估計,以及位置、大小和方向的準確性。因此,提出了nuScenes 檢測評分(NDS),以綜合考慮這些因素。NDS集成了多個關鍵指標,克服了現有指標的局限性,提供了更全面的性能評估。
NDS的計算公式如下:
在該公式中,mAP代表平均精度(mean Average Precision),用于衡量檢測精度。TP集合包含五個真正例指標的平均值:ATE(平均平移誤差)、ASE(平均尺度誤差)、AOE(平均方向誤差)、AVE(平均速度誤差)和AAE(平均屬性誤差)。
拓撲推理的評估指標
OpenLane-V2 將任務分為三個子任務:3D車道檢測、交通元素識別和拓撲推理。整體任務性能通過OpenLane-V2評分(OLS)來描述,該評分是每個子任務指標的平均值。3D車道檢測的指標,DETl,可以表示為不同閾值的平均AP [公式],其中AP使用Fréchet距離計算。交通元素檢測與目標檢測類似,使用AP進行評估,IoU閾值設為0.75。交通元素具有多種屬性,如交通燈的顏色,這些屬性與車道的通行性密切相關,因此也必須考慮屬性。假設A是所有屬性的集合,評估包括屬性分類準確率。
OpenLane-V2使用TOP評分來評估拓撲推理的質量,類似于mAP指標,但經過調整以適應圖的結構。基本上,這是將拓撲預測問題轉化為鏈接預測問題,并通過計算所有頂點的平均AP來評估算法性能。第一步是確定一種匹配方法,以配對真實的和預測的頂點(即中心線和交通元素)。對于中心線,使用Fréchet距離;對于交通元素,使用IoU。當兩個頂點之間的邊的置信度超過0.5時,認為它們是連接的。通過對頂點的所有預測邊進行排序并計算累積精度的平均值,獲得頂點AP。
多模態表示
圖像數據
在鳥瞰圖(BEV)的感知任務中,全景相機的圖像信息是最重要的輸入數據,全景圖像的常見特征提取方法遵循自動駕駛感知任務BEVformer 或LSS 的范式。神經網絡的骨干模塊通過ResNet-50 或101,Mobilenets,EfficientNet,V2-99 等經典且輕量的卷積網絡,從各種相機角度提取2D圖像特征。其中,ResNet系列因其在訓練過程中通過引入殘差塊解決了深度神經網絡中的梯度消失問題而被廣泛使用。ResNet等變體通過增加網絡的深度和寬度來增強特征提取能力。由于在圖像識別和特征提取方面的出色表現,這些網絡被廣泛應用于BEV局部地圖感知任務中。通常,骨干模塊后會附加一個特征金字塔網絡(FPN)模塊。FPN集成了不同尺度的特征圖,生成更強大的多尺度特征表示。這似乎是默認的基本配置,融合層的數量可以根據網絡類型選擇。這種多尺度特征融合有助于提高對不同大小物體的檢測和識別,從而增強整體性能。
除了這些輕量級且簡單的骨干網絡外,未來更大規模的骨干網絡將成為主流趨勢。隨著Transformer在計算機視覺領域的成功,基于Transformer的特征提取方法也被應用于BEV局部地圖感知任務,如Swin。參考Nuscece排行榜上的方法,最先進的方法都使用預訓練的VIT-L作為骨干網絡,或者它的變體EVA-02。盡管大型模型的參數數量多且計算復雜度高,可能嚴重影響推理速度,但這些大型預訓練骨干網絡是提高模型性能的關鍵。盡管如此,其性能直接推動了檢測精度的提升。這些大模型的訓練需要海量數據支持,但數據標注成本高且有限,自監督訓練方法將成為主流。隨著BERT 預訓練模型在自然語言處理中的各種自監督任務中廣泛應用,并展示了強大的語言表示學習能力,在計算機視覺任務中的自監督學習中,MAE 隨機遮蓋圖像上的補丁并實現了遮蓋圖像的自監督學習。基于MIM 的預訓練算法的成就正在計算機視覺領域蓬勃發展。此類自監督預訓練模型不僅可以解決高成本標簽的問題,還可以更好地學習圖像的表示關系。
無論是基于CNN還是Transformer方法,其最終目標都是獲得高質量的全景圖像特征表示。對于BEV局部地圖感知任務,特征表示至關重要,因為它直接影響感知系統的準確性和魯棒性。FPN模塊或Transformer的全局特征提取機制可以顯著提高網絡的整體性能,使其在復雜駕駛環境中的感知和決策更加有效。
激光雷達點云數據
在BEV的局部地圖感知任務中,除了使用純視覺環繞相機作為單一數據輸入外,多模態方法還融合了激光雷達點云和相機數據等多模態信息以執行深度感知的BEV變換。與單一視覺方法和多模態(RGB+LiDAR)方法相比,盡管增加了額外的計算復雜度,多模態融合方法在準確性方面表現優異。激光雷達點云數據的處理是多模態感知任務中的關鍵步驟。P-mapnet中的激光雷達點云數據特征提取首先需要將點云體素化,然后使用多層感知器(MLP)提取每個點的局部特征。最大池化選擇多個局部特征中的最大特征值來形成全局特征表示,增強模型對點云數據的全局感知能力。
給定激光雷達點云P和全景圖像I,公式如下:
其中,代表特征提取器,提取多模態輸入以獲取BEV特征,代表解碼器,輸出檢測結果。
MapLite 2.0方法進一步將激光雷達點云數據與其他傳感器數據集成,并與從SD地圖(如OpenStreetMap)獲得的粗略道路地圖集成,使用SD地圖中的粗略路線信息來優化道路的幾何形狀和拓撲結構。這不僅提高了地圖的準確性,還增強了對復雜道路環境的理解。它還用于通過鳥瞰圖投影激光雷達強度數據在線生成高清地圖。通過集成多模態數據,不僅提供了詳細的空間信息,還實現了駕駛環境的精確語義分割。
SD地圖數據
在增強局部地圖感知任務的背景下,整合SD地圖信息作為先驗知識可以顯著提高視覺和激光雷達傳感器的性能,特別是在遠距離和遮擋場景中。為了有效地將SD地圖整合到網絡結構中,同時保留其獨特的道路信息,已經探索了各種表示形式。SD地圖通常可以分為兩種形式:柵格和矢量。
圖2展示了一個SD地圖的示例,說明了如何利用不同形式的SD地圖表示來補充局部地圖構建過程,從而增強感知系統的整體性能。
特征提取器可以包含多種模態數據。這里S是以道路中心線骨架形式的SD地圖先驗知識。其中,表示特征提取器,提取多模態輸入以獲得BEV特征,表示解碼器,輸出檢測結果。
柵格表示
MapLite2.0首次將SD地圖引入局部地圖感知任務。PriorLane將地圖建模為二值圖像,其中1代表可駕駛區域,0代表不可駕駛區域。同樣,MapVision也采用了one-hot編碼方法,然后將位置編碼信息串聯并通過編碼器提取SD地圖特征。SD地圖通過文章中提出的KEA模塊與自車數據對齊,然后與傳感器數據融合以獲得混合表達。P-MapNet和MapLite2.0都使用柵格化表示SD地圖,但區別在于P-MapNet在柵格化SD地圖后,使用CNN網絡從中提取信息,作為BEV特征優化的額外信息源(即key和val);MapLite2.0將SD地圖作為高清地圖的初始估計,將其轉換為BEV視角,并與傳感器輸入的圖像結合。通過卷積神經網絡進行訓練,預測其語義標簽。最后,這些語義分割結果被轉化為特定標簽的距離變換,并使用結構化估計器來維持局部地圖估計并整合SD地圖先驗知識。
矢量表示
SMERF首次提出了一種基于Transformer的編碼器模型,用于推斷道路拓撲。MapEX和SMERF對地圖元素有相似的表示,引入了多段線序列表示和Transformer編碼器,以獲取場景的最終地圖表示。具體而言,SD地圖中的道路首先以多段線的形式抽象表示。對于多段線數據,通過均勻采樣獲得N個數據點。然后,在經過正弦余弦編碼后,得到N維的線條描述。考慮一條曲率較小的垂直線,它的所有點的x或y軸值都非常相似。直接將這些點的坐標輸入模型可能導致對曲率的區分不足。
因此,使用正弦嵌入會使這種差異更加明顯,從而提高模型對這些特征的解釋能力。在實際操作中,每條線的坐標將相對于BEV范圍歸一化到(0,2π)的范圍內,然后對每條線的坐標進行嵌入。這些編碼數據將經過幾層Transformer網絡,以獲得地圖特征表示。
其他信息的編碼
SMERF:除了對SD地圖的多段線坐標進行編碼外,SMERF還使用獨熱編碼將道路類型編碼為維度為K(道路類型的數量)的向量。對于感知范圍內的地面元素,將獲得M * (N * d + K)編碼數據,這些數據將經過幾層轉換以獲得地圖特征表示。消融實驗表明,增加更多的道路類型信息可以提高車道檢測和道路拓撲推斷的有效性。
多模態融合方法
在以圖像作為輸入的方法中,例如基于編碼器-解碼器架構的MapTR,建立了局部地圖構建的經典范式,為后續方法鋪平了道路。Streammapnet通過整合全面的時間信息,進一步增強了在遮擋區域的表現。3D LaneNet采用了端到端的學習框架,將圖像編碼、視圖間的空間轉換和3D曲線提取等任務整合到一個網絡中。Gen LaneNet提出了一個兩階段框架,解耦了圖像分割子網絡和幾何編碼子網絡的學習。此外,一些單目3D車道檢測方法僅關注視覺圖像作為輸入。許多模型也僅依賴于視覺圖像。另一方面,HDMapNet作為代表性多模態方法,通過對激光雷達點云進行編碼并預測鳥瞰視角下的矢量化地圖元素,實現了多傳感器數據的有效融合。此外,其他模型也將激光雷達點云數據作為額外的輸入。圖3展示了近年來局部地圖構建的發展趨勢。考慮到構建高精地圖的成本,Maplite 2.0率先將SD地圖引入局部地圖感知任務。MapEX通過將現有地圖元素轉換為不可學習的查詢并與可學習的查詢結合進行訓練和預測,解決了現有地圖信息不完整或不準確的情況。SMERF和P-MapNet結合了SD地圖的特征表示與相機輸入特征,使用多頭交叉注意力機制,使車道拓撲推斷更加有效。
為了實現視覺BEV特征與SD地圖語義信息的有效融合,BLOS-BEV探索了各種特征融合方法。此外,諸如PriorLane、FlexMap、Bayesian、TopoLogic、LGMap、MapVision、RoadPainter和EORN等方法將SD地圖先驗整合到局部地圖構建中,這一趨勢正在逐漸獲得關注。在融合之前,需要進行視角轉換。本節的重點是將從2D相機傳感器圖像(通常稱為透視視圖(PV))中提取的特征信息轉換為BEV特征。局部地圖感知任務通常將地面視為一個平面,在鳥瞰視角中建立地圖,因為一方面,BEV有助于多傳感器信息的融合,而現有的先進BEV目標檢測工作可以提供良好的基礎。從PV到BEV的轉換方法包括基于幾何的方法和基于網絡的方法。基于幾何的方法可以分為同構變換和深度估計兩種類型。基于網絡的方法可以分為基于MLP的方法和基于Transformer的方法。基于Transformer的PV到BEV轉換通常可以直接通過BEV感知模型實現。圖4中的MapTR提出了一個基于BEVFormer中的View Transformer模塊的優化GTK模塊。
對齊
由于GPS信號的固有誤差和車輛運動的影響,矢量化和柵格化的SD地圖先驗與當前的BEV空間不可避免地存在空間錯位,難以完全對齊。因此,在融合之前,有必要將SD地圖先驗與當前的BEV操作空間進行空間對齊。FlexMap使用SLAM軌跡和修正后的RTK軌跡來計算偏移量并實現空間對齊。為了解決這個問題,PriorMap設置了一個KEA(知識嵌入對齊)模塊,將SD地圖先驗知識嵌入并與圖像特征在空間上對齊。具體來說,首先使用特征提取網絡從圖像中提取特征點,并從SD地圖先驗知識中提取特征點。
隨后,使用基于注意力機制的對齊算法對這些特征點進行空間匹配。最后,通過融合Transformer網絡進一步處理對齊的特征點,增強了局部地圖感知算法的準確性和魯棒性。類似地,P-MapNet首先對柵格化的SD地圖先驗進行下采樣,然后引入多頭交叉注意力模塊,使網絡能夠使用交叉注意力來確定最合適的對齊位置,從而使用SD地圖先驗有效增強BEV特征。如圖5所示,P-MapNet的消融實驗表明,即使在與BEV空間對齊較弱的情況下,直接連接SD地圖先驗信息仍能提高模型性能。在此基礎上,增加CNN模塊和多頭交叉注意力模塊可以進一步提高模型性能。這證明了SD地圖先驗信息在局部地圖感知任務中的重要作用,即使沒有嚴格對齊,簡單地增加柵格化的SD地圖先驗也可以提高模型性能。
融合
在獲得多傳感器數據特征表示之后,需要進行融合處理,以獲得更強的特征表示。
為了對齊不同傳感器的特征,有必要在BEV級別的特征上實現融合。圖像BEV特征通過視角轉換模塊從周圍圖像中獲得。在SMERF中,SD地圖特征通過交叉注意力機制與BEV特征進行交互。首先,BEV特征被編碼為查詢向量,并通過自注意力機制進行初始化。給定場景的SD地圖,LGMap如圖6所示沿著每條多段線均勻采樣固定數量的點。在正弦嵌入的情況下,BEVFormer在每個編碼器層上將SD地圖特征表示與來自視覺輸入的特征應用交叉注意力。SD地圖特征被編碼為key和value向量,然后通過交叉注意力計算,獲得最終融合的相機和SD地圖的BEV特征。
除了常見的注意力機制融合方法外,BLOS-BEV如圖7所示,探索了不同的融合方案,將視覺BEV特征與SD地圖語義結合,以實現最佳表示和性能,探索了三種SD地圖融合技術:加法、串聯和交叉注意力。盡管所有融合方法的性能都優于不使用SD地圖的方法,但在nuScenes和Argorse數據集上,SD地圖的交叉注意力融合表現最佳,表現出出色的泛化性能和在長距離(150-200米)上的出色表現。
在P-mapnet中,已添加點云信息,并對激光雷達點云進行了體素化和MLP處理,以獲得每個點的特征表示,從而得到Lidar BEV。圖像BEV與Lidar BEV的融合用于獲得進一步融合的BEV特征。對融合后的BEV特征進一步卷積下采樣可以緩解圖像BEV特征與LiDAR BEV特征之間的對齊問題。
通過交叉注意力機制,SD地圖的良好特征與融合后的BEV特征進行交互,最終融合了相機和激光雷達點云的BEV特征。類似地,MapVision和MapEX如圖8和圖9所示,將SD地圖特征用作鍵和值,而從多視角圖像形成的特征圖則用作查詢,以執行交叉注意力。
為了解決遮擋和有限感知范圍等問題可能導致的不準確性,RoadPainter提出了一種新穎的SD地圖交互模塊,圖10顯示了該模塊通過結合視覺范圍之外的信息有效增強BEV特征。EORN如圖11所示,將SD地圖柵格化并生成BEV中的SD地圖。基于ResNet-18的SD編碼器提取SD地圖特征。然后,將SD地圖特征插值并與來自圖像BEV的BEV特征沿通道維度連接。融合方法使用了一個簡單的兩層卷積神經網絡ConvFuser,它融合了連接的特征并輸出融合后的BEV特征。另一種方法涉及圖形編碼器,將SD地圖圖形與BEV特征融合,并結合使用多頭注意力機制的中心線可變形解碼器的輸出。隨后的解碼器可以通過從包含豐富信息的BEV特征中查詢,計算并輸出不同任務的相應結果。
結論與討論
挑戰與未來展望
- SD地圖編碼和處理方法的改進適當的編碼和處理方法對于在局部地圖感知任務中利用SD地圖先驗信息至關重要。目前的研究采用了相對簡單的編碼和處理方法,無論是使用柵格還是矢量表示。未來的研究可以探索更高效的編碼和特征提取方法。
- SD地圖先驗信息與BEV空間對齊的改進由于GPS傳感器的精度限制,將SD地圖先驗信息與當前BEV操作空間完美對齊具有挑戰性。這種空間錯位可能會在一定程度上影響模型的檢測精度。改進空間對齊方法可以進一步提高模型性能。未來的研究可以考慮整合時間信息,以提高SD地圖先驗信息與BEV空間之間的對齊精度。
- 道路拓撲關系的推斷局部地圖中的拓撲關系可以分為兩個分支:道路之間的拓撲關系(主要表示道路連通性)和道路與交通標志之間的拓撲關系(包括交通控制信號和其他方向標志)。增強對道路環境的場景理解對于高級自動駕駛任務至關重要。OpenLane-v2數據集是首個提供道路之間以及道路與交通標志之間拓撲關系的公共數據集。目前在這一領域的研究仍然有限。未來的工作可以使用圖神經網絡模型對道路網絡的拓撲結構和交通標志的場景理解任務進行建模。
- 整合更多SD地圖先驗信息現有研究已證明,整合更多的道路類型信息可以增強模型性能。然而,除了基本的道路網絡位置和道路類型,SD地圖還可以提供更豐富的先驗信息。例如,OpenStreetMap提供了諸如車道數量、車道方向和道路拓撲關系等額外信息。未來的研究可以嘗試將這些多樣的信息整合為SD地圖先驗,以進一步增強局部地圖感知模型的魯棒性和準確性。
結論
本文回顧了使用SD地圖進行局部地圖構建的文獻,突出顯示了SD地圖在這一任務中的關鍵作用。介紹了使用SD地圖進行局部地圖構建的定義和核心方面,展示了其在開發準確和可靠地圖中的重要性。列舉了常用的公共數據集及其相應的評估指標。
總結了領先技術方法的主要流程,重點關注了來自不同傳感器(如激光雷達、相機和雷達)數據的表示和編碼方法。探索了多源傳感器數據集成的先進融合技術及其各自的優缺點。
討論了局部地圖構建模型的評估前景和設計趨勢,包括解決新興挑戰,例如改進SD地圖與BEV視角的對齊和增強編碼及處理方法。考慮了整合詳細SD地圖先驗信息以建模道路拓撲關系的潛力,旨在提高場景理解能力并支持高級自動駕駛任務。