成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無圖最強Trick | MapDistill:速度精度雙起飛,讓End2End更絲滑 !

人工智能 智能汽車
今天為大家分享三星&北航&中科院&悉尼大學團隊ECCV2024最新的在線高精地圖工作—MapDistill!通過相機-激光雷達融合模型蒸餾提高視覺高精地圖構建!

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&個人理解

在線高精(HD)地圖構建是自動駕駛領域的一項重要且具有挑戰性的任務。最近,人們對不依賴于激光雷達等其他傳感器的基于環視相機的低成本方法越來越感興趣。然而只使用視覺傳感器的方法缺乏明確的深度信息,需要更大的主干網絡來實現令人滿意的性能。為了解決這個問題,我們首次采用知識蒸餾(Knowledge Distillation, KD)思想進行高效的高精地圖構建,引入了一種新的基于KD的在線矢量高精地圖構建方法MapDistill。MapDistill將知識從高準確性的Camera-LiDAR融合模型轉移到輕量級的僅依賴相機的模型。具體而言,我們采用師生架構,即Camera-LiDAR融合模型作為教師,輕量的只基于相機的模型作為學生,并設計了雙BEV轉換模塊,以促進跨模態知識對齊。此外,我們還提出了一個適用于在線高精地圖構建任務的全面蒸餾方案,包括跨模態關系蒸餾、雙層特征蒸餾和地圖任務頭蒸餾。這種方法一定程度上解決了模態間知識轉移的困難,使學生模型能夠學習更好的用于高精地圖構建的特征表示。我們在目前最具有挑戰性的nuScenes數據集上的實驗結果證明了MapDistill的有效性,超越了基線方法7.7 mAP或實現4.5倍的加速。

項目鏈接:https://github.com/Ricky-Developer/MapDistill

領域背景介紹

在線高精地圖提供了豐富、精確的駕駛場景靜態環境信息,是自動駕駛系統規劃與導航模塊的基礎。最近,基于多視角相機的在線高精地圖構建由于BEV感知技術的重大進展而受到越來越多的關注。相較于只基于激光雷達的方法和基于激光雷達與相機融合的方法,只基于多視角相機的方法具有更低的部署成本。但由于缺乏深度信息,目前的基于純視覺的方案常常采用參數更多的骨干網絡進行有效的特征提取以取得較好的性能。因此,在實際部署中權衡基于攝像機的模型的性能和效率是至關重要的。

知識蒸餾(Knowledge Distillation, KD)作為訓練高效而準確的模型最實用的技術之一,在相關領域受到了極大的關注。基于知識蒸餾的方法通常將知識從訓練有素的大模型(教師)轉移到小模型(學生)。這類方法在圖像分類、二維目標檢測、語義分割和三維目標檢測等許多領域取得了顯著進展。以前的方法大多遵循需學生網絡邏輯與教師網絡邏輯相匹配的teacher-student范式。最近,基于BEV的知識蒸餾方法推動了3D目標檢測任務的發展。這類方法統一了BEV空間中的圖像和點云特征,并在師生范式中自適應地跨非同質表示傳遞知識。此前的工作使用強激光雷達教師模型幫助相機學生模型進行訓練,如BEVDistill、UVTR、BEVLGKD、TiG-BEV和DistillBEV。最近,UniDistill提出了一種用于3D目標檢測的通用跨模態知識蒸餾框架。

與這些方法相比,基于BEV的在線高精地圖構建知識蒸餾方法在兩個關鍵方面有所不同:首先,檢測頭(DetHead)對目標進行分類和定位輸出,而在在線矢量高精地圖構建模型(如MapTR)中地圖頭(MapHead)往往輸出的是分類和點回歸結果。其次,現有的基于BEV的3D目標檢測知識蒸餾方法通常側重于對準前景目標的特征,以減輕背景環境的不利影響,這顯然不適合高精地圖的構建。因此,將基于BEV的3D目標檢測知識蒸餾方法直接應用于的高精地圖構建中,由于兩者任務的內在差異性,無法獲得滿意的結果(實驗結果見表1)。據我們所知,基于BEV的用于在線高精地圖構建的知識蒸餾方法仍處于探索階段。

為了填補這一空白,我們提出了一種新的基于知識蒸餾的方法MapDistill,將知識從高性能的教師模型轉移到高效的學生模型。首先,我們采用師生架構,即相機-激光雷達融合模型作為教師,輕量化的只基于相機傳感器的模型作為學生,并設計了雙BEV轉換模塊,以促進跨模態知識升華,同時保持成本效益的只基于相機傳感器的建圖方案部署。在此基礎上,我們提出了一種包含跨模態關系蒸餾、雙層特征蒸餾和地圖頭部蒸餾的綜合蒸餾方案,以減輕模態之間的知識轉移挑戰,并幫助學生模型學習改進的高精地圖構建特征表示。具體來說,我們首先為學生模型引入了跨模態關系蒸餾損失,以便從融合教師模型中更好地學習跨模態表示。其次,為了更好地實現語義知識轉移,我們在統一的BEV空間中對低級和高級特征表示都采用了兩級特征蒸餾損失。最后,我們特別引入了為高精地圖構建任務量身定制的地圖頭蒸餾損失,包括分類損失和點對點損失,它可以使學生的最終預測與教師的預測非常相似。在具有挑戰性的nuScenes數據集上的大量實驗證明了MapDistill的有效性,超越了現有競爭對手超過7.7 mAP或4.5倍的加速,如圖1所示。

圖片

圖1:nuScenes數據集上不同方法的比較。我們在單個NVIDIA RTX 3090 GPU上對推理速度進行基準測試。MapDistill可以在速度(FPS)和精度(mAP)之間實現更好的平衡。

本文的貢獻主要體現在三個方面:

  1. 我們提出了一種用于在線高精地圖構建任務的有效知識蒸餾模型架構,包括相機-激光雷達融合教師模型,帶有雙BEV轉換模塊的輕量級相機學生模型,該模塊促進了不同模式內部、之間的知識轉移,同時具備低成本、易部署的特征。
  2. 我們提出了一種同時支持跨模態關系蒸餾、兩級特征蒸餾和地圖頭蒸餾的綜合蒸餾方案。通過減輕模態之間的知識轉移挑戰,該方法可以幫助學生模型更好地學習高精地圖構建的特征表示。
  3. MapDistill的性能優于最先進的(SOTA)方法,可以作為基于知識蒸餾的高精地圖構建研究的強大基線。

MapDistill

在本節中,我們將詳細描述我們提出的MapDistill。我們首先在圖2中給出了整個框架的概述圖示,并在2.1節中闡明了教師模型和學生模型的模型設計。然后,我們在第2.2節詳細闡述MapDistill的細節,如跨模態關系蒸餾、兩級特征蒸餾和地圖頭蒸餾。

圖片

圖2:MapDistill由一個基于多模態融合的教師模型(上)和一個基于輕量級相機傳感器的學生模型(下)組成。此外,為了使教師模型能夠將知識傳遞給學生,我們采用了三種蒸餾損失以指導學生模型產生相似的特征和預測,即跨模態關系蒸餾、兩級特征蒸餾和地圖頭蒸餾。特別說明,推理只使用學生模型進行。

2.1 模型整體架構

融合模型(教師):為了將Camera-LiDAR融合教師模型的知識轉移到學生模型,我們首先基于最先進的MapTR模型建立了基于融合的高精地圖構建基線。如圖二上半部分所示,融合的MapTR模型有兩個分支。對于相機分支,首先使用Resnet50提取多視圖圖像特征。接下來,使用GKT作為2D-to-BEV轉換模塊,將多視圖特征轉換為BEV空間。生成的攝像機BEV特征可表示,其中H、W、C分別表示BEV特征的高度、寬度和通道數,上標T為“teacher”的縮寫。激光雷達分支采用SECOND進行點云體素化和特征編碼,采用Bevfusion中的展平操作將點云特征投影到BEV空間,表示為。此后,MapTR將和聚合,并使用全卷積網絡進行處理,獲取融合鳥瞰特征。此后,MapTR使用以融合BEV特征作為輸入的地圖編碼器產生高維BEV特征。

圖片

然后,教師地圖頭(MapHead)使用分類和點分支來生成地圖元素類別和點位置的最終預測:

圖片

基于相機傳感器的模型(學生):為了提升實際部署的實時推理速度,我們采用MapTR的相機分支作為學生模型的基礎。特別的,我們使用Resnet18作為主干來提取多視圖特征,這可以使網絡輕量級且易于部署。在MapTR的基礎上,為了模擬教師模型的多模態融合管道,我們提出了一個雙流 BEV轉換模塊,將多視圖特征轉換成兩個不同的BEV子空間。具體的來說,我們首先使用GKT生成第一個子空間特征,其中上標S表示“student”的縮寫。然后我們使用LSS生成另一個子空間的鳥瞰特征。此后,我們使用全卷積網絡融合上述兩個子空間鳥瞰特征,獲得融合BEV特征。

2.2 MapDistill的細節

跨模態關系蒸餾:跨模態關系蒸餾的核心思想是讓學生模型在訓練過程中模仿教師模型的跨模態注意力。更具體地說,對于教師模型,我們調整相機BEV特征和激光雷達BEV特征轉換為2D patches序列,表示為。之后,我們計算來自教師分支的跨模態注意力,包含C2L注意和L2C注意力,如下所示:

圖片

對于學生分支,我們使用相同的策略:

圖片

此后,我們提出了跨模態關系蒸餾,采用KL散度損失幫助對齊學生分支與教師分支的跨模態注意力。

圖片

兩級特征蒸餾:為了方便學生模型從教師模型中吸收豐富的語義/幾何知識,我們利用融合的BEV特征進行特征級蒸餾。具體來說,我們通過MSE損失,讓老師分支的low-level融合BEV特征監督學生分支對應的low-level BEV特征:

圖片

相似地,我們使用MSE損失幫助對齊由地圖編碼器生成的和:

圖片

我們使用兩級特征蒸餾進行統一表示:

圖片

地圖任務頭蒸餾:為了使學生的最終預測接近老師的預測,我們進一步提出了地圖任務頭蒸餾。具體來說,我們使用教師模型生成的預測作為偽標簽,通過地圖任務頭損失來監督學生模型。地圖任務頭損失由兩部分表示,其中分類損失函數用于地圖元素分類,基于曼哈頓距離的點對點損失用于點位置的回歸:

圖片

實驗

與SOTA方法的比較

我們在nuScenes數據集進行了大量實驗。我們將我們的方法與兩類最先進的基線進行了比較,即基于攝像機的高精地圖構建方法,以及最初被設計用于實現基于BEV的3D目標檢測的知識蒸餾方法。對于基于知識蒸餾的方法,我們實現了三種基于bev的三維目標檢測方法,并針對高精地圖構建任務進行了修改,分別是BEV-LGKD、BEVDistill和UnDistill。為了公平起見,我們使用與我們的方法相同的教師和學生模型。實驗結果如表1所示。

圖片

消融實驗:

三項知識蒸餾損失函數的影響:如表2所示,在模型變量(a)、(b)、(c)中,我們單獨使用不同的蒸餾損失對學生分支進行訓練。實驗結果表明,與基線方法相比,三項損失函數均對模型表現出提升。此外,模型變量(d)、(e)、(f)證明了不同蒸餾損失項的結果是相互補充的。最終,將所有的蒸餾損失融合在一起,我們得到了完整的MapDistill結果,實現了53.6mAP的先進性能。

圖片

不同高精地圖構建方法的消融研究:如表5(a)所示,為了探究MapDistill與不同高精地圖構建方法的兼容性,我們綜合對比了兩種流行的方法,結果如表5a所示。其中,Teacher model-1和Teacher model-2分別是使用SwinTransformer-T的MapTR變體模型和最先進的MapTRv2模型。注意,兩個學生模型都使用Resnet 18作為主干來提取多視圖特征。實驗結果表明,效果更好的教師模型將教出更好的學生模型。由于已完成預訓練的教師模型已經獲得了構建高精地圖的寶貴知識,學生模型可以通過知識蒸餾技術(例如所提出的MapDistill)有效地利用這些知識,從而增強其執行相同任務的能力。此外,結果表明我們的方法對不同的教師模型都是有效的。

各種學生模型的消融研究:如表5(b)所示,為了探究MapDistill在不同學生模型下的泛化能力,我們綜合考察了兩種流行的骨干網絡作為學生模型的骨干。其中Student model- i和Student model- ii是指學生模型分別采用Resnet50和SwinTransformer-T作為主干提取多視圖特征。這里我們使用MapTR作為Teacher,即表1中的R50&Sec融合模型作為教師模型。實驗結果表明,我們的方法始終能取得較好的結果,證明了方法的有效性和泛化能力。

圖片

可視化結果

如圖4所示,我們比較了來自不同模型的預測,即基于相機-激光雷達的教師模型,沒有MapDistill的基于攝像機的學生模型(基線方法),以及帶有MapDistill的基于攝像機的學生模型。各模型的mAP值分別為62.5、45.9、53.6,如表1所示。我們觀察到基線模型的預測有很大的不準確性。然而,采用MapDistill方法部分糾正了這些錯誤,提高了預測精度。

圖片

圖4:nuScenes val 數據集的可視化結果。(a) 輸入的6個視角圖像。(b)GT (c)基于攝像頭-激光雷達的教師模型的結果。(d)沒有MapDistill的基于相機的學生模型的結果(基線)。(e)使用MapDistill的基于相機的學生模型的結果。

結論

在本文中,我們提出了一種名為MapDistill的新方法,通過相機-激光雷達融合模型蒸餾來提高只基于相機的在線高精地圖構建效率,產生一種經濟高效且準確的解決方案。MapDistill是建立在一個相機-激光雷達融合的教師模型,一個輕量級的只依賴于相機的學生模型,和一個專門設計的雙流BEV轉換模塊。此外,我們還提出了一種包含跨模態關系蒸餾、兩級特征蒸餾和地圖任務頭蒸餾的綜合蒸餾方案,促進了不同模態內部和不同模態之間的知識轉移,幫助學生模型獲得更好的性能。大量的實驗和分析驗證了我們的MapDistill的設計選擇和有效性。

局限性與社會影響:使用知識蒸餾策略,學生模式可以繼承教師模式的弱點。更具體地說,如果教師模型是有偏見的,或者對不利的天氣條件和/或長尾情景沒有魯棒性,那么學生模型可能表現得類似。MapDistill具有成本效益,在自動駕駛等實際應用中顯示出巨大的潛力。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-03-03 12:00:00

JavaScriptfor 循環語言

2020-07-22 15:15:28

Vue前端代碼

2025-03-10 08:44:17

2025-06-04 08:35:00

立即執行函數IIFEJavaScript

2023-09-27 07:49:23

2023-03-15 15:54:36

Java代碼

2022-08-28 10:08:53

前端代碼前端

2022-03-18 13:59:46

緩存RedisCaffeine

2011-08-24 15:05:34

end中文man

2023-09-13 16:34:47

Java工具開發

2021-07-14 13:46:28

KubeVela阿里云容器

2021-11-17 08:16:03

內存控制Go

2024-05-30 11:44:37

2015-07-01 15:32:39

前端前后端分離

2025-04-18 08:24:22

2024-02-23 09:46:34

2021-01-18 18:42:33

工具調優開發

2023-11-10 08:18:27

JavaGraalVM

2023-06-26 08:01:42

debugger技巧代碼
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品视频免费观看 | 拍真实国产伦偷精品 | 狠狠干2020 | 久久久国产精品 | 国产日韩欧美一区 | 操久久| 91成人午夜性a一级毛片 | 国产精品av久久久久久毛片 | 夜夜操天天操 | 日本污视频 | 在线视频a | 日本午夜视频 | 精品成人一区二区 | 久久久久国产精品午夜一区 | 九九热精品视频在线观看 | 97精品国产一区二区三区 | 国产精品一区久久久久 | 天天草视频 | 国产精品精品久久久久久 | 免费h在线 | 日韩欧美不卡 | 一区精品在线观看 | 日韩高清成人 | 成人天堂 | 欧美视频在线观看 | 日韩一区二区三区在线视频 | 天天曰天天干 | 综合久久网 | 久久国内精品 | 亚洲一区二区av | 华人黄网站大全 | 国产在线观看一区二区 | 亚洲风情在线观看 | 亚洲精品久久久久久下一站 | av在线一区二区三区 | 久久久国产一区二区三区 | 毛片一区二区三区 | 在线激情视频 | 亚洲精品亚洲人成人网 | 国产特级毛片aaaaaa喷潮 | 精品亚洲永久免费精品 |