成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

自動駕駛感知、預測及規劃技術解析

人工智能 新聞
在本文中,作者將2個小節視為獨立的章節,每個小節都包括任務定義、功能劃分、創新,以及對AD和IVs里程碑的詳細介紹。

人們對自動駕駛(AD)和智能車輛(IV)的興趣日益增長,是因為它們承諾提高安全性、效率和經濟效益。雖然以前的調研已經反映了這一領域的進展,但是需要一個全面和前瞻性的總結。作者的工作通過三篇不同的文章填補了這一空白。

第一部分,一個“綜述的綜述”(SoS) ,概述了歷史,綜述,道德,以及 AD 和 IV 技術的未來發展方向。

第二部分,“自動駕駛和智能車輛的里程碑第一部分: 控制,計算系統設計,通信,高精地圖,測試和人類行為”深入研究了在 IV中的控制,計算系統,通信,高精地圖,測試和人類行為的發展。

第三部分回顧了智能汽車的感知和規劃。提供一個自動駕駛和智能汽車的最新進展的全面概述,這項工作迎合新人和經驗豐富的研究人員。通過整合 SOS 和第一部分,提供了獨特的見解,并努力在這個充滿活力的領域中作為過去成就和未來可能性之間的橋梁。

1 簡介

自動駕駛(AD)和智能汽車(IV)最近引起了學術界和工業界的重視,因為它們具有一系列潛在的好處。AD調研和IVs調研在收集研究成果、概括整個技術發展、預測未來趨勢方面占有重要地位,系統總結和未來的研究方向。

根據AD中的不同任務,作者將其分為8個子部分,感知、規劃、控制、系統設計、通信、高精地圖、測試和IVs中的人類行為,如下圖1所示。

在第一部分中,作者簡要介紹了每個任務的功能和AD的智能級別。在這里,作者描述了不同AD場景中的經典應用,包括城市道路、公園物流、倉庫、港口、智能礦山、農業、野生動物救援和隧道搜索。市民在私家車、AD出租車和公交車等城市道路上實現AD更為常見。部分場景及港口中的IV要求控制器遵循特定規則并實現高效率。倉庫和礦井是室內外環境中的經典封閉場景。改良的IVs或所謂的專業智能機器人可以在野外使用,以取代農業作業、野生動物救援、隧道搜索等中的人類港口。事實上,AD和IVs可以在不同的場景中執行多項任務,并在日常生活中發揮關鍵作用。

在本文中,作者將2個小節視為獨立的章節,每個小節都包括任務定義、功能劃分、創新,以及對AD和IVs里程碑的詳細介紹,感知、規劃和控制的關系如下圖2所示。

最重要的是,對它們的研究已經快速發展了十年,現在已經進入了瓶頸期。希望這篇文章能被認為是對初學者的全面總結,并為研究人員帶來新穎多樣的見解以取得突破。

本文的三個貢獻:

  1. 提供了一個更系統、全面和新穎的調研,以了解AD和IVs的關鍵技術發展。
  2. 在每個技術部分介紹了許多部署細節、測試方法和獨特見解。
  3. 對AD和IVs進行了系統的研究,試圖成為連接過去和未來的橋梁。

2 感知

感知是AD的一個基本模塊。該模塊為自車提供周圍的環境信息。如下圖3所示,感知分為定位、目標檢測、場景理解、目標預測和跟蹤。

定位

定位是駕駛平臺獲得自己的位置和姿態的技術。這是規劃和控制的重要前提[3]。目前,定位策略分為四類:全局導航系統(GNSS)和慣性測量單元(IMU)、視覺實時定位與建圖(SLAM)、激光雷達SLAM和基于融合的SLAM。

1)GNSS和IMU 

GNSS是一種天基無線電導航和定位系統,可以為用戶提供地球表面的3D坐標、速度和時間信息。IMU通常由三軸加速度計和陀螺儀組成(9自由度的傳統三軸磁力計)。通過用來自IMU的動態狀態更新來自GNSS的低頻定位信息,平臺可以獲得高更新頻率的定位信息。盡管GNSS和IMU方法的融合是全天候的,但信號會受到城市建筑的干擾。

2)視覺SLAM

視覺SLAM采用相機幀的變化來估計自車的運動,這類算法按傳感器分為三類:單目、多視圖和深度。具體而言,視覺SLAM算法只需要圖像作為輸入,這意味著定位系統的成本相對較低。然而,它們依賴于豐富的特征和輕微的照明變化。此外,優化是視覺定位系統的一個關鍵模塊,它在考慮全局信息后更新每個幀的估計,優化方法包括基于濾波器和基于圖。

從特征提取的角度來看,視覺SLAM有兩個典型的類別,即關鍵點和光流方法。關鍵點方法利用SIFT、SURF、ORB和描述符等點提取方法來檢測不同圖像上的相同特征,然后計算幀之間的相對運動。由于點提取方法可以穩定準確地提取關鍵點,因此關鍵點視覺SLAM系統可以在結構化道路和城市區域中提供顯著的優勢。然而,當在非結構化道路上操作或面對平坦的白墻時,該系統可能會遇到困難。

此外,早期的算法不能實時運行,并且忽略了圖像中的大部分像素信息。光流方法假設光度在幀之間是不變的,并試圖通過最小化圖像上的光度誤差來估計相機運動。這種方法具有以下優點:

  • 計算開銷小,實時性高;
  • 對關鍵點依賴性弱;
  • 考慮幀中的整個像素。

然而,由于光度假設,光流方法對兩幅圖像之間的光度變化很敏感。從優化的角度來看,視覺SLAM系統也可以分為基于濾波器和基于優化的策略,然而,基于圖的優化方法在準確性和效率方面取得了一些突破。因此,研究人員將在未來繼續關注后一點。

3)激光雷達SLAM

與視覺SLAM方法相比,由于激光雷達的特性,激光雷達SLAM系統能夠以準確的3D信息主動檢測周圍環境。與視覺系統類似,激光雷達SLAM也可以通過傳感器或基于濾波器的方法(如基于Gmapping和優化過程的優化)分類為2D方法,如Gmapping、制圖、Karto和3D。Gmapping采用粒子濾波方法,并將定位和映射過程分離。

在優化過程中,每個粒子都負責維護貼圖。LOAM操作兩種并行算法,一種是通過點云匹配方法計算低頻下幀之間的運動變換,另一種是嘗試構建地圖并校正高頻下的里程計。Segmap利用深度神經網絡提取語義特征信息,可以減少計算資源消耗,并實時解決室內智能機器人和IVs的數據壓縮問題。SUMA將點云轉移到2D空間中,并采用擴展的RGB-D SLAM結構來生成局部地圖。

此外,通過點云的迭代最近點匹配方法對surfel地圖進行維護和更新。激光雷達SLAM系統具有精度高、地圖密集、對亮度依賴性弱的優點。然而,沒有語義信息和環境干擾是激光雷達SLAM系統面臨的兩個主要挑戰。此外,研究人員必須花費大量時間和精力來維護和修復安裝在IVs上的激光雷達。

4)基于融合的SLAM

為了避免單傳感器故障或魯棒性低的問題,研究人員引入了融合多種模態數據的方法,包括視覺慣性、激光雷達慣性、視覺激光雷達慣性和其他融合,如添加聲納或雷達,SLAM方法。作者發現,融合方法通常會將更新頻率更高的IMU數據引入SLAM系統。松散融合方法將來自相機或激光雷達的外部觀測數據和來自IMU的內部運動數據視為兩個獨立的模塊,而緊密融合有些方法設計了一個單元優化模塊來解決和融合多種模態數據。

以前的方法可以被視為擴展的視覺或激光雷達SLAM系統,對研究人員部署在測試平臺和IVs上是友好的。然而,為了提高魯棒性和適應性,緊密融合策略提供了適當的解決方案,包括在視覺里程計系統中引入束調整和采用關聯優化。總之,基于融合的SLAM方法解決了單個傳感器的幾個困難,但仍給連接系統帶來了一些挑戰,如校準、同步和復雜處理。不同定位方法的優缺點如下表I所示。

目標檢測

目標檢測的目的是檢測傳感器視場中的靜態和動態目標。一些檢測任務的結果如下圖4所示。

車道線檢測

車道檢測是在傳感器的視野中識別車道,以輔助駕駛。對于通用過程,它包括三個部分,包括圖像預處理、車道檢測和跟蹤。圖像預處理的目的,如感興趣區域(RoI)提取、逆透視映射和分割,是為了降低計算成本和消除噪聲。車道檢測和跟蹤的方法可分為基于計算機視覺(CV)的方法和基于學習的方法[34]。基于CV的車道檢測方法目前得到了廣泛的應用,主要是因為它們的計算成本低且易于復制。形態頂帽變換用于消除場中不相關的目標。然后,應用霍夫變換提取圖像的邊緣像素并構造直線。

然而,缺點是很難檢測曲線,因此許多研究人員已經介紹了一些關于霍夫變換的有效方法。其他一些線路估計方法涉及復雜場景中的高斯混合模型(GMM)、隨機樣本一致性(RANSAC)、卡爾曼濾波器。基于學習的方法可以部署在豐富的場景中,但它們需要大量的數據來訓練具有大量參數的網絡。試圖設計新穎的多個子報頭結構來提高車道檢測性能。據作者所知,車道檢測被集成到ADAS中,以保持車道或跟隨前一輛車,研究人員更關注3D車道[40]、封閉區域的車道和非結構化道路。

駕駛區域檢測

與車道檢測相比,駕駛區域檢測增加了障礙物信息,為避障功能和路徑規劃任務提供了基礎信息。作者還將這項任務分為基于簡歷的方法和基于學習的方法。當道路表面沒有被障礙物遮擋時,可以將駕駛區域檢測轉換為車道檢測。否則,它可以被視為車道檢測和2D目標檢測的組合。當將駕駛區域檢測視為一項獨立任務時,需要將道路像素與目標和非駕駛區域區分開來。顏色直方圖可以滿足要求,一些研究人員開發了關于顏色[41]和效率[42]的方法來解決性能差的問題區域增長方法[43]比顏色直方圖方法更穩健。

基于學習的駕駛區域檢測方法類似于圖像分割。對于機器學習算法,可以通過特征提取器和分類頭(如支持向量機(SVM)、條件隨機場(CRF))提取諸如RGB顏色、Walsh-Hadamard、定向梯度直方圖(HOG)、局部二進制模式(LBP)、Haar和LUV通道的特征,以獲得最終結果。深度神經網絡可以取代特征提取器和一些改進,例如使用大視覺區域卷積核[44]、多層連接[45],以實現有競爭力的性能。作者發現,基于學習的駕駛區域檢測結果通常是場景理解任務的一個分支,研究人員試圖解決一些挑戰,包括2D-3D轉換、復雜的駕駛區域等。

交通標志檢測

交通標志包含大量關鍵的交通信息,如道路狀況、限速、,駕駛行為限制和其他信息。作者還將其分為基于簡歷的方法和基于學習的方法。對于基于CV的檢測方法,特定地區(特定國家或城市)交通標志的近似顏色組成條件相似。在相對簡單的原始圖像中,通過采用顏色空間分布、分割頭和SVM分類器,對特定顏色進行閾值分離可以獲得更好的結果。一些研究通過引入額外的顏色通道來開發方法,如正常RGB模型、動態顏色閾值、概率模型和邊緣信息。

然而,這些方法很難解決由光照、衰落、遮擋和惡劣天氣引起的問題。一些研究人員試圖利用三角形、圓形交通標志或編碼梯度檢測方法上的通變換來處理遮擋和連接。基于形狀的檢測方法可以解決由顏色變化引起的結果不穩定的問題,但它幾乎不能克服由遮擋和變形引起的問題。基于機器學習的交通標志識別算法通常使用滑動窗口方法遍歷給定的交通標志圖像。提出了梯度方向的變異直方圖特征,并通過極限學習機訓練單個分類器來檢測交通標志。

隨著深度學習算法的不斷研究,越來越多的學者使用深度學習算法來檢測交通標志。讀者可以將這種分類方法視為處理特征提取,包括預處理和分類。為了提取更深層次的信息,引入了更深層次的編碼器、集成的空間金字塔池(SPP)層、級聯的RCNN網絡、深度可分離卷積和剪輯策略,以實現檢測精度和高推理速度。深度學習方法對標志的顏色和形狀的變化具有令人滿意的容忍度,然而,這種類型的方法需要大量的數據和手動注釋。此外,檢測網絡應該具有識別具有缺乏自信跡象的不同區域和長距離檢測跡象的能力。

基于視覺的3D目標檢測

基于視覺的3D目標檢測是指從圖像中獲取場中所有目標的3D信息(位置、尺寸和旋轉)的過程。作者將其分為基于單目和基于雙目的檢測。

單目3D目標檢測:近年來,單目3D目標檢測得到了廣泛的發展,其準確性也在不斷提高。繼承自[53]等2D目標檢測網絡的直接關聯分類和回歸方法具有簡單的結構,但由于從單個圖像中恢復3D屬性的不適定問題,其性能不令人滿意。解決這一缺點的策略主要有兩種。

(1)介紹了3D和投影2D候選者之間的幾何連接。例如,GS3D[56]將目標解耦為多個部分,以分析曲面屬性和實例關系。Monopair和Monet3D考慮了目標與其兩個最近鄰居之間的關系。

(2)除了回歸3D邊界候選者,網絡還在訓練階段考慮來自雙目視覺或激光雷達數據的局部或全深度圖。CaDDN[57]為結合深度估計和目標檢測任務提供了一種完全可微的端到端方法。DDMP3D利用上下文和深度估計頭的特征表示來實現有競爭力的性能。此外,引入了連續幀作為輸入,試圖通過關聯檢測和跟蹤來更新3D結果。盡管這些方法在準確性上沒有明顯的優勢,但廣泛的學術研究和低成本使其具有吸引力。

雙目3D目標檢測:雙目3D目標檢測方法的靈感來自雙目視覺的視差分析。精確的深度值可以通過雙目中心和相關像素對之間的距離來計算。Disp-RCNN、OC Stereo添加分割模塊,對來自雙目相機的圖像進行配對,以誘導精確的關聯。YOLOSTREO3D提供了一個輕量級的模型,優于大量基于復雜視差卷積運算的雙目方法,并顯著縮短了訓練和測試時間。總之,基于雙目的方法可以避免單目圖像的不適定問題,并且便于制造商在IVs中部署和維護,但基線上的精確測量、雙目匹配的時間成本以及圖像預處理的要求給研究人員帶來了挑戰。

基于激光雷達的3D目標檢測

基于激光雷達3D目標檢測方法從激光雷達捕獲的點云數據中識別目標的3D特性。作者將其分為體素檢測和點檢測。

逐體素目標檢測:逐體素的目標檢測方法表示鳥瞰圖(BEV)中的點云特征,并且BEV圖被手動劃分為獨雙目素的s系列。這種類型的檢測網絡的結構設計源于點云分割框架,如PointNet和PointNet++,它們適合輸入或輸出端的檢測任務,其整體架構需要平衡性能和效率。以經典的VoxelNet和PointPillar為例,VoxelNet在映射點云后對體素進行歸一化,然后使用多個體素特征編碼(VFE)層對每個非空體素應用局部特征提取。通過3D卷積中間層(增加感受野并學習幾何空間表示)進一步提取體素特征,最后,使用具有位置回歸的區域建議網絡(RPN)對目標進行檢測和分類。

點式目標檢測:[68,69]等點式目標檢測受到PointNet的啟發,PointNet是一種使用點云進行室內6D姿態估計的經典網絡。點-RCNN[68]是一個兩階段的點云檢測框架,包括第一階段的語義分割分析和第二階段的位置修正。VoteNet[70]將2D檢測結構擴展到3D框架,以建立點云的通用檢測框架。它基本上遵循PointNet++來減少點云轉換中的信息損失。VoteNet還引入了一種受霍夫變換啟發的新穎投票機制,與其他3D網絡相比,該機制可以定位目標的中心,而不是表面上的點。值得注意的是,在點云檢測中,應充分考慮丟棄點的數量和由于距離而產生的模態差異。

基于融合的3D目標檢測

激光雷達、雷達和相機被廣泛部署在用于感知任務的IVs中,這些類型的傳感器的組合可以使車輛變得堅固,并能夠全時檢測目標。然而,這并不意味著基于融合的方法將優于使用單個傳感器的方法。基于融合的方法的缺點主要有兩個原因。

(1)網絡填補各種傳感器的模態缺口是一項挑戰;

(2)系統誤差和測量誤差(如校準和同步)很難消除,它們會在網絡中傳播和放大。

大多數研究人員提出了解決這些困難的方案,并取得了一些有競爭力的結果。在本節中,作者根據傳感器的類型對基于融合的目標檢測任務進行分類。

相機和激光雷達:相機和激光DAR是AD的兩個關鍵傳感器,研究人員首先關注融合并行方法,該方法同時提取點云和圖像信息。MV3D[77]和AVOD[76]利用點云上的共享3D anchor和相應的圖像。ContFuse[80]和MMF[81]采用具有連續融合層的緊密耦合融合方法。3D-CVF引入了一種跨視圖空間特征融合方法來融合圖像和點云。此外,EPNet[83]專注于點云系統,并在幾何空間上采用基于點的策略將圖像投影到點云系統上。與并行方法相比,順序方法是可讀的和可部署的,因為不需要引入關聯結構來減少差距。F-PointNet[75]和F-ConvNet[74]試圖通過在2D候選者內生成3D邊界框來減少搜索區域。PointPainting[84]輸出語義信息,并將每個點投影到相應的點上,以提高3D目標檢測精度。CLOCs[73]融合獨立提取器之后的數據,并在KITTI上實現競爭結果。DVF[72]采用2D真相作為指導,然后通過點云提取3D屬性。

相機和雷達:將雷達的圖像和數據結合起來,可以有效地降低成本并保持準確性。[86]將雷達檢測結果投影到圖像空間,并利用它們來提高對遠處目標的目標檢測精度。CRF Net[87]開發了一種垂直展示的方法。

激光雷達和雷達:這種類型的融合側重于極端惡劣的天氣條件和明顯的目標。雷達網[88]通過一種新穎的早期融合方法融合雷達和激光雷達數據。它通過基于注意力的融合利用了雷達的遙感范圍。MVDNet[89]從兩個傳感器生成建議,然后融合多模態傳感器流之間的區域特征,以改進最終檢測結果。ST MVDNet[90]通過強制輸出來開發結構教師網絡和學生網絡之間的一致性,以及在一種類型的數據丟失時引入丟失的模式來解決退化問題。

相機、激光雷達和雷達:在這種融合類型中,研究人員試圖在不同的天氣條件下設計一個強大的感知系統。[91]通過將圖像直接投影到點云上來獲得具有PointNet[64]架構的目標檢測輸出。與前一幀平行,對來自雷達的點云進行處理以預測速度,然后將速度與最終檢測輸出相關聯。RVF-Net[92]融合了輸入過程中的所有數據,并在nuScenes[93]數據集上獲得了令人滿意的結果。

其他:超聲波雷達通過聲音在空中傳播的時間來判斷障礙物的距離,其精度可以達到5米以內的厘米級。該傳感器主要用于自動停車場景。一種帶有紅外燈的紅外相機可以捕捉紅外光譜特性,達到夜視成像的效果。此外,對事件攝像機的研究也是當前的熱點之一。事件攝影機基于管道時間戳處理數據,而不是處理幀平面中的單個像素。由于數據具有時序性質,傳統的網絡結構無法處理數據,因此如何與其他傳感器融合將是未來的研究重點之一。KITTI[85]中不同傳感器類型的各種組合的3D目標檢測方法的性能如下表II所示。這里,KITTI通過幀的復雜性將整個數據劃分為三個評估場景(簡單、中等和硬),并計算3D-AP,這是2D-AP[94]對這三個場景的擴展方法。

作者總結道:

1)采用融合策略可以在3D目標檢測任務中獲得競爭的結果,主要是因為引入了更多的初始信息。但這種方法需要研究人員消除或減少模態差異。

2) 由于傳感器的特性、相機的分辨率有限以及KITTI中參考系統的定義,基于視覺的方法的性能弱于基于激光雷達的方法。然而,基于可視化的方法由于其可維護性、經濟性和易于部署而吸引了許多研究者。

3) 自注意機制(Transformer結構)和BEV方法[71,78,79]可以提高跨模態融合、特征提取等的準確性。此外,為了解決數據饑餓和模型魯棒性問題,目前的研究在unScenes[93]、Waymo[95]等附加數據上訓練和測試模型。

場景理解

作者在論文中將場景理解定義為每個像素或點的多個輸出,而不是每個目標。在本節中,作者將其分為三個子部分,分割、深度和流量估計。作者只專注于AD領域的學術研究和應用。

自動駕駛中的分割

語義分割的目標是將場景劃分為幾個有意義的部分,通常通過用語義標記圖像中的每個像素(語義分割),通過同時檢測目標并將每個像素與每個目標區分開來(實例分割),或者通過結合語義和實例分割(全景分割)[96]。分割是計算機視覺中的關鍵任務之一,研究人員在ADE20K[97]、Pascal-VOC[94]、CityScape[98]等平臺上評估了他們的模型。然而,在AD場景中,經典的3D CV區域,很難獨立完成感知任務。它通常涉及車道檢測、駕駛區域檢測、視覺界面模塊,或與點云結合提供語義信息。作者將簡要介紹基于分割的一般背景,然后重點介紹AD的分割研究。

語義分割

全卷積網絡(FCN)[99]是一種流行的語義分割結構,它采用卷積層來恢復輸出圖的大小。一些工作通過引入改進的編碼器-解碼器[100]、擴展卷積[101]、CRFs[102]、收縮空間金字塔池(ASPP)[103]來擴展FCN。此外,由于池化和膨脹卷積運算,上述方法涉及固定的正方形上下文區域。關系上下文方法[104]提取像素之間的關系。[105]通過信道級聯和跳過連接來追求高分辨率,尤其是在醫療領域。在AD領域,語義分割網絡可能熟悉常見的結構,研究人員應該更多地關注特殊類別和遮擋,并在道路場景的數據集上評估他們的模型[98]。為了在數據集上實現SOTA結果,研究人員引入了多尺度注意力機制[106],邊界感知分割模塊[107]。此外,由于缺乏AD場景的標記數據,一些研究側重于道路上目標的屬性,如考慮跨類目標之間的內在相關性[108]或半監督分割機制。

實例分割

實例分割是為每個目標實例預測一個掩碼及其對應的類別。早期的方法[115]設計了一種架構來真實化目標檢測和分割任務。掩碼-RCNN[115]擴展了更快的RCNN,以通過二進制分割識別每個像素的類別,并根據區域建議網絡(RPN)匯集感興趣區域(RoI)的圖像特征。一些研究人員通過引入系數網絡[116]、每個掩碼的IoU分數和形狀先驗來改進預測,從而開發了基本結構。與2D目標檢測方法類似,[117]取代了檢測器采用單級結構。[118]試圖避免檢測的影響并實現顯著的性能。

為了在AD數據集上獲得有競爭力的分割結果,研究人員專注于3D空間上的幾何信息[119]、邊界識別[120]、結合語義分割(全景分割)[121]或入侵多幀(視頻庫)[122]。1.3)泛光學分割:泛光學分割是為了統一像素級和實例級的語義分割[123],[124]設計了一個不同的分支來回歸語義和實例分割結果。泛光學FCN[125]旨在在統一的全卷積流水線中表示和預測前景事物和背景事物。

Panoptic SegFormer[126]介紹了一種使用變換器進行全景分割的簡潔有效的框架。對于AD場景,TASC[110]提出了一種新的可微分方法,以減少訓練過程中兩個子任務之間的差距。Axial DeepLab[109]構建了一個具有全局感受野和位置敏感注意力層的獨立注意力模型,以低計算成本捕獲位置信息。此外,研究人員通過引入一種新的作物感知邊界盒回歸損失和樣本方法[127]來解決道路上的多尺度問題,并通過組合優化策略捕獲目標的邊界。這些方法在CityScape[98]或Mapillary Vistas[128]的任務中取得了有競爭力的結果。

自動駕駛中的深度估計

這類任務是在相機平面上呈現深度信息,這是增強基于視覺的3D目標檢測的有效方法,也是連接激光雷達和相機的潛在橋梁。深度完成任務是深度估計的一個子問題[129]。在稀疏到密集深度完成問題中,研究人員通過計算方法或來自傳感器的多個數據從稀疏深度圖推斷3D場景的密集深度圖。

主要困難包括:

  • 稀疏深度中的不規則間隔模式,
  • 多傳感器模態的融合方法(可選)
  • 一些數據和現實世界缺乏密集的像素級真值(可選)。

深度估計是測量每個像素相對于相機的距離的任務。深度值是通過有監督(通過深度完成獲得的密集圖)[130]、無監督[131]、激光雷達制導[132]或雙目計算[133]從單目或雙目圖像中提取的。一些方法[134135]引入了CRF模塊、多任務結構、全局提取器和分段平面性優先級,以在流行的基準測試(如KITTI[85]和NYUv2[136])中實現有競爭力的性能。模型通常根據RMS度量進行評估[85]。對于室外單目深度估計,DORN[137]采用多尺度網絡結構來捕獲上下文信息。MultiDepth[114]利用深度區間分類作為輔助任務。HGR[138]提出了一種層次指導和正則化學習框架來估計深度。SDNet[113]通過利用涉及深度和語義的雙重獨立估計頭來改進結果。VNL[112]設計了一種新穎的結構,該結構包括多個階段的局部平面引導層。[139]使用由隨機采樣的三個點確定的法線方向的幾何約束來提高深度預測精度。BANet[111]引入了雙向注意力模塊,該模塊采用前饋特征圖并結合全局信息來消除歧義。無監督方法[140]吸引了大量研究人員,因為它可以減少對標記數據的要求,并消除過度擬合問題。此外,由于存在不適定問題,純單目深度估計只能獲得相對深度值,而雙目制導方法可以獲得絕對深度值。[141]介紹了變壓器結構,以獲得有競爭力的結果。雙目深度估計方法可以在雙目視差估計任務中找到。

自動駕駛中的流量估計

與分割和深度估計任務類似,流量估計側重于圖像平面,它呈現數據幀期間的像素移動。它現在引起了人們的興趣,其研究可以用于事件相機方法。

光流估計

光流是指像素在成像系統中的移動,包括水平和垂直兩個方向。與基于無監督視頻的深度估計類似,可以通過最小化目標圖像和源圖像之間的差異來推斷像素運動[142]。SPyNet[143]提出了一種輕量級框架,該框架采用經典的空間金字塔公式進行光流估計。此外,它還試圖估計大位移運動和精確的亞像素流。PWC Net[144]包括三個子網,即特征金字塔提取器、翹曲層和成本體積層,以提高光流的質量。

場景流估計

場景流估計表示一個3D運動場,可以視為光流的擴展。因此,它是3D場景中光流和深度估計的結合。在場景流的整體訓練步驟中,很少使用單目圖像,該結構以雙目視頻為輸入來回歸視差以恢復尺度。DRISF[145]將高斯牛頓(GN)的推理步驟視為遞歸神經網絡(RNN),這意味著它可以用端到端的方法進行訓練。FD-Net[146]進一步擴展了無監督深度估計,并將全流分解為目標流(目標像素)和剛性流(背景像素),以分別評估特征,從而能夠避免由于遮擋和截斷而導致的扭曲模糊。競爭協作(CC)[147]將場景流量估計設置為具有三個玩家的游戲。其中兩人爭奪資源,最后一人擔任主持人。GeoNet[148]由兩個模塊組成,一個是具有6 DoF自我運動估計的單目深度,另一個是用于學習目標光流的殘差網絡。

CityScape和KITTI的全景分割和深度估計性能如下表III所示。PQ、SQ、RQ分別指[123]中的全景分割、分割質量和識別質量,對于深度估計,SILog(比例不變對數誤差)、sqErrorRel(相對平方誤差)和iRMSE(均方根逆深度的平方誤差)是KITTI中的經典度量。與檢測類似,研究人員引入了自注意機制、額外的訓練數據和新的網絡單元,以提高場景理解任務的準確性。作者提到,上述任務并沒有直接向AD中的規劃和控制等下游任務提供輸出。在實際任務中,語義分割、深度估計和光流估計將相互結合,以提供更豐富的像素語義信息,從而提高跨模態數據融合的準確性,運動目標的空間檢測和跟蹤。

3 預測

為了在復雜的交通場景中安全高效地導航,AD框架應該能夠預測其他交通代理(如車輛和行人)在不久的將來的行為方式。預測可以定義為根據過去的感知可能產生的結果。設Xit是在觀測時間t具有代理i的空間坐標的向量,其中...

基于模型的方法

這些方法預測智能體的行為,如變道、左轉等。預測車輛行為概率分布的最簡單方法之一是自主多模型(AMM)算法。該算法計算每個代理的最大概率軌跡。2) 數據驅動方法:這些方法主要由神經網絡組成。在感知數據集上訓練后,模型對下一個行為進行預測。DESIRE提出了一種編碼器-解碼器框架,該框架創新地結合了場景上下文和流量代理之間的交互。SIMP離散輸出空間,計算車輛目的地的分布,并預測估計的到達時間和空間偏移。FaF開創了基于激光雷達點云的檢測和短期運動預測的統一。預測模塊有時與感知分離,主要是因為下游規劃模塊接收感知和預測結果。未來對預測的研究將側重于廣義規則的制定、場景的普遍性和模塊的簡單性。E.跟蹤跟蹤問題從一系列車載傳感器數據開始。根據神經網絡是否嵌入跟蹤框架,作者將其分為傳統方法和神經網絡方法。1) 傳統方法:卡爾曼濾波器是一種著名的算法,尤其是在跟蹤代理方面。由于計算成本低,即使在簡單場景中的低規格硬件上,基于卡爾曼的方法也具有快速響應時間。跟蹤問題也可以顯示為圖搜索問題。與基于卡爾曼的方法相比,基于圖的方法最重要的優點是它更適合于多跟蹤問題。[155]利用基于圖的方法,使用最小成本方法來解決跟蹤問題。

神經網絡方法

在給定相關且數量充足的訓練數據的情況下,神經網絡具有能夠學習重要且穩健的特征的優勢。CNN被廣泛用于特工追蹤。[156]使用來自卷積層的值的組合來處理多代理跟蹤。為從淺卷積層提取的信息提出了適當的濾波器,與更深的層或多層的組合相比,實現了相同水平的魯棒性。RNN還為解決跟蹤任務中的時間相干問題提供了一種智能的方法。[158]使用基于LSTM的分類器在多個時間幀上跟蹤代理。與CNN方法相比,基于LSTM的方法更適合于去除和重新插入候選觀測值,尤其是當目標離開或重新進入場景的可見區域時。在這兩項任務中,聯合感知和跟蹤可以實現SOTA結果。在現實中,穩定的跟蹤可以降低系統對實時檢測的要求,也可以校正檢測結果。目前,聯合任務學習策略受到越來越多研究者的青睞。

4 規劃

規劃模塊負責為ego車輛的低級別控制器找到要跟蹤的局部軌跡。規劃模塊負責為ego車輛的低級控制器找到要跟蹤的局部軌跡。這里,“局部”是指所得軌跡在其空間或時間范圍內較短;否則ego車輛不能對超出傳感器范圍的風險做出反應。規劃模塊通常包含三個功能,即全局路線規劃、局部行為規劃和局部軌跡規劃。全局路線規劃在全局地圖上提供從起點到目的地的道路級路徑;局部行為規劃決定接下來幾秒鐘的駕駛行為類型(例如,跟車、輕推、側傳、讓行和超車),而局部軌跡規劃基于所決定的行為類型生成短期軌跡。本節回顧了與規劃模塊中的三個功能相關的技術,如下圖5所示。

全局路線規劃

全局路線規劃負責在道路網絡中找到最佳道路級路徑,該路徑以包含數百萬條邊和節點的有向圖的形式呈現。路線規劃器在有向圖中搜索,以找到連接起點和終點節點的最小成本序列。這里,成本是基于查詢時間、預處理來定義的考慮了復雜性、內存占用率和/或解決方案穩健性。全局路線規劃技術的發展歷史比自動駕駛汽車技術要長得多,因為全局路線規劃也為手動駕駛汽車服務。如所示,現有的全局路由規劃方法分為目標導向方法、基于分離器的方法、層次方法、有界跳方法及其組合。

局部行為/軌跡規劃

局部行為規劃和局部軌跡規劃功能協同工作,沿著識別的全局路線輸出局部軌跡,如下圖6所示。

圖片圖片

由于產生的軌跡是局部的,除非全局目的地不遠,否則這兩個功能必須以后退的方式實現。值得強調的是,這兩個功能的輸出應該是軌跡而不是路徑,否則自車需要額外的努力來躲避環境中的移動障礙。從廣義上講,這兩項職能將以兩種不同的方式發揮作用。一種是端到端的方式,即開發一個集成系統,從機載傳感器接收原始數據并直接輸出本地軌跡。另一種方法是依次實現局部行為規劃和局部軌跡規劃功能。

1)端到端方法

與下一小節中回顧的順序規劃解決方案相比,端到端解決方案名義上更有效地處理車輛環境交互,因為感知和規劃模塊之間沒有外部間隙。端到端系統的輸入是機載傳感器獲得的大量原始數據,而輸出是局部軌跡。由于輸入和輸出之間的關系過于復雜,無法概括為完整的規則,因此通常使用機器學習方法,其中大多數方法分為基于模仿學習和基于強化學習的方法。一種基于模仿學習的方法基于訓練樣本構建神經網絡。挑戰在于如何收集一致的大量訓練樣本,以及如何保證學習效率(例如,不存在過度擬合)。基于強化學習的方法通過試錯操作獲得知識,因此它們較少依賴外部訓練樣本的質量和數量。端到端方法仍然不成熟,因此大多數方法都是在模擬中訓練/測試的,而不是在現實世界中。最近的研究工作集中在如何提高學習的可解釋性、安全性和效率上。

2)基于順序規劃的方法

與上述端到端解決方案相反,在過去十年中,順序應用局部行為規劃和軌跡規劃函數是一種常見的傳統選擇。然而,局部行為規劃和軌跡規劃之間的界限相當模糊,例如,一些行為規劃人員所做的不僅僅是識別行為類型。為了便于理解,本文沒有嚴格區分這兩種函數,將相關方法簡單地視為軌跡規劃方法。名義上,軌跡規劃是通過解決最優控制問題(OCP)來完成的,該問題在滿足多種類型的硬約束的情況下最小化預定義的成本函數。OCP的解決方案表示為時間連續控制和狀態分布,其中所需軌跡由狀態分布(的一部分)反映。由于這種OCP的分析解決方案通常不可用,因此需要兩種類型的操作來構建軌跡。具體地,第一種類型的操作是識別狀態網格序列,而第二種類型是在相鄰的狀態網格之間生成基元。

4.1 狀態網格識別

狀態網格識別可以通過搜索、選擇、優化或潛在的小型化來完成。基于搜索的方法將與上述OCP相關的連續狀態空間抽象成圖,并在那里找到狀態的鏈接。流行的基于搜索的方法包括A*搜索和動態編程(DP)。基于選擇的方法通過尋找具有最優成本/回報函數值的候選者來決定下一步或幾個步驟中的狀態網格。貪婪選擇和馬爾可夫決策過程(MDP)系列方法通常屬于這一類。一種基于優化的方法將原始OCP離散化為數學程序(MP),其解為高分辨率狀態網格。MP解算器進一步分為基于梯度的解算器和非基于梯度的求解器;基于梯度的求解器通常求解非線性規劃、二次規劃、二階約束二次規劃或混合整數規劃;基于非梯度的解算器通常由元啟發式方法表示。基于勢最小化的方法通過模擬它們被力或啟發式勢場排斥或吸引的過程來調整狀態網格的位置。這一類別中流行的方法包括彈性帶(EB)系列、人工勢場方法和力平衡模型。

每種狀態網格識別方法的能力不同。例如,基于梯度優化和基于潛在最小化的方法通常比典型的基于搜索/選擇的方法更靈活和穩定,但基于搜索/選取的方法更有效地全局探索整個狀態空間。不同的方法可以聯合起來作為一種從粗到細的策略,正如許多研究所實施的那樣。

4.2 原始生成

原始生成通常通過閉式規則、模擬、插值和運算來完成。閉式規則是指通過具有閉式解決方案的分析方法生成基元的方法。典型的方法包括Dubins/Reed-Shepp曲線、多項式和理論最優控制方法。基于仿真的方法通過前向仿真生成軌跡/路徑基元,由于沒有自由度,因此運行速度快。基于插值的方法由樣條曲線或參數化多項式表示。基于優化的方法在數值上解決了連接兩個狀態網格的小規模OCP。

狀態網格識別和基元生成是構造軌跡的兩個必要操作。這兩種操作可以以各種方式組織。例如,在迭代循環中集成兩個運算;在在線狀態網格識別之前離線構建基元的圖;在生成連接基元之前識別狀態網格。

如果規劃者只找到了一條路徑而不是一條軌跡,那么作為后處理步驟,應該在規劃的路徑上附加一個時間進程。這種策略被稱為路徑速度分解(PVD),之所以被廣泛使用,是因為它將一個3D問題轉換為兩個二維問題,這在很大程度上促進了求解過程。相反,非PVD方法直接規劃軌跡,這具有提高解決方案最優性的潛在優點。

該研究領域的最新研究包括如何開發特別適合特定場景/任務的特定規劃者,以及如何在上游/下游模塊不完善的情況下規劃安全軌跡。

5 結論

在本文中,作者對AD和IVs中的感知和規劃里程碑的研究發展進行了廣泛的介紹。此外,還為這兩項任務提供了一些實驗結果和獨特的見解。結合其他兩個部分,希望整個工作將為研究人員和初學者帶來新穎而多樣的見解,并成為連接過去和未來的橋梁。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2022-01-26 10:31:25

自動駕駛軟件架構

2023-03-14 09:40:33

自動駕駛

2023-05-06 10:02:37

深度學習算法

2023-03-30 09:57:04

2022-12-09 10:04:20

自動駕駛技術

2021-12-16 10:45:22

自動駕駛數據人工智能

2023-03-09 10:06:47

自動駕駛

2021-12-01 10:21:27

自動駕駛技術人工智能

2022-02-17 10:22:17

汽車智能自動駕駛

2023-03-15 11:54:32

無人駕駛系統

2023-04-11 09:57:26

自動駕駛騎車

2023-08-08 12:12:07

自動駕駛預測

2024-08-16 09:53:47

2022-01-04 12:11:42

自動駕駛數據人工智能

2023-12-04 09:33:00

自動駕駛視覺

2023-07-07 10:37:43

自動駕駛技術

2023-06-27 12:50:06

自動駕駛技術

2023-11-20 09:53:13

自動駕駛系統

2020-01-09 08:42:23

自動駕駛AI人工智能

2024-01-05 08:30:26

自動駕駛算法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人毛片在线观看 | 日韩精品a在线观看图片 | 亚洲成人免费观看 | 国产成人综合在线 | av中文字幕在线播放 | 欧美视频一区二区三区 | 日韩av免费在线观看 | 免费一区二区 | 国产一区二区三区在线 | 久久99精品久久久久久青青日本 | 亚洲精选久久 | 精品视频国产 | 成人欧美一区二区三区1314 | 国产精品a久久久久 | 日韩成人在线免费视频 | 色播久久久 | 久久久网| 日韩成人精品一区 | 日本高清在线一区 | h片在线观看网站 | 精品一级毛片 | 国产成人一区二区三区精 | 国产精品久久久久久久久久免费看 | 精品一二区 | 成人免费av | 亚州无限乱码 | 伦理午夜电影免费观看 | 国产一区精品 | 自拍偷拍中文字幕 | 91精品国产一区二区三区 | 久久精品免费 | 国产成人精品免高潮在线观看 | 久久精品97 | 亚洲成人日韩 | 午夜在线视频 | av在线播放不卡 | 国产福利免费视频 | 亚洲成人999 | 亚洲精品www久久久久久广东 | 91精品国产综合久久福利软件 | 成人1区2区 |