成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

近200+自動(dòng)駕駛數(shù)據(jù)集全面調(diào)研!一覽如何數(shù)據(jù)閉環(huán)全流程

人工智能 智能汽車
本文對(duì)200多個(gè)現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集進(jìn)行了詳盡而系統(tǒng)的回顧和分析。

寫在前面&個(gè)人理解

自動(dòng)駕駛技術(shù)在硬件和深度學(xué)習(xí)方法的最新進(jìn)展中迅速發(fā)展,并展現(xiàn)出令人期待的性能。高質(zhì)量的數(shù)據(jù)集對(duì)于開發(fā)可靠的自動(dòng)駕駛算法至關(guān)重要。先前的數(shù)據(jù)集調(diào)研試圖回顧這些數(shù)據(jù)集,但要么集中在有限數(shù)量的數(shù)據(jù)集上,要么缺乏對(duì)數(shù)據(jù)集特征的詳細(xì)調(diào)查。為此,這里從多個(gè)角度對(duì)超過200個(gè)自動(dòng)駕駛數(shù)據(jù)集進(jìn)行了詳盡的研究,包括傳感器模態(tài)、數(shù)據(jù)大小、任務(wù)和上下文條件。引入了一種新的評(píng)估每個(gè)數(shù)據(jù)集影響的度量標(biāo)準(zhǔn),該標(biāo)準(zhǔn)還可以成為建立新數(shù)據(jù)集的指南。進(jìn)一步分析了數(shù)據(jù)集的標(biāo)注過程和質(zhì)量。此外,對(duì)幾個(gè)重要數(shù)據(jù)集的數(shù)據(jù)分布進(jìn)行了深入分析。最后,討論未來自動(dòng)駕駛數(shù)據(jù)集的發(fā)展趨勢(shì)。

當(dāng)前行業(yè)的概述

自動(dòng)駕駛(AD)旨在通過創(chuàng)建能夠準(zhǔn)確感知環(huán)境、做出智能決策并在沒有人類干預(yù)的情況下安全行駛的車輛,徹底改變交通系統(tǒng)。由于令人激動(dòng)的技術(shù)發(fā)展,各種自動(dòng)駕駛產(chǎn)品已在多個(gè)領(lǐng)域?qū)嵤鐭o人出租車。這些對(duì)自動(dòng)駕駛的快速進(jìn)展在很大程度上依賴于大量的數(shù)據(jù)集,這些數(shù)據(jù)集幫助自動(dòng)駕駛系統(tǒng)在復(fù)雜的駕駛環(huán)境中變得穩(wěn)健可靠。

近年來,自動(dòng)駕駛數(shù)據(jù)集的質(zhì)量和種類顯著增加。數(shù)據(jù)集開發(fā)的第一個(gè)顯著現(xiàn)象是各種不同的數(shù)據(jù)收集策略,包括通過仿真器生成的合成數(shù)據(jù)集和從真實(shí)世界記錄的數(shù)據(jù)集等。其次,數(shù)據(jù)集在組成方面也各種各樣,包括但不限于多種感知數(shù)據(jù)(如相機(jī)圖像和LiDAR點(diǎn)云)以及用于自動(dòng)駕駛各個(gè)任務(wù)的不同標(biāo)注類型。下圖1以俯視圖的方式顯示了六個(gè)真實(shí)世界數(shù)據(jù)集(Argoverse 2 、KITTI 、nuScenes 、ONCE 、Waymo 和ZOD )的3D目標(biāo)邊界框分布的統(tǒng)計(jì)數(shù)據(jù),展示了每個(gè)數(shù)據(jù)集的獨(dú)特標(biāo)注特性。

根據(jù)傳感器的設(shè)備位置,數(shù)據(jù)集的多樣性還體現(xiàn)在感知領(lǐng)域中,包括車載、V2X、無人機(jī)等。此外,幾何多樣性和天氣條件的改變提高了自動(dòng)駕駛數(shù)據(jù)集的泛化能力。

為什么研究?動(dòng)機(jī)是什么?

下圖2中展示了每年發(fā)布的感知數(shù)據(jù)集數(shù)量,以從一個(gè)角度反映自動(dòng)駕駛數(shù)據(jù)集的趨勢(shì)。由于存在大量且不斷增加的公開發(fā)布的數(shù)據(jù)集,對(duì)自動(dòng)駕駛數(shù)據(jù)集進(jìn)行全面調(diào)查對(duì)推動(dòng)學(xué)術(shù)和工業(yè)研究非常有價(jià)值。在先前的工作中,Yin等人總結(jié)了27個(gè)在公共道路上收集的數(shù)據(jù)的公開可用數(shù)據(jù)集。[35]除了描述現(xiàn)有數(shù)據(jù)集,討論了合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的域適應(yīng)以及自動(dòng)標(biāo)注方法。[36]總結(jié)了現(xiàn)有數(shù)據(jù)集,并對(duì)下一代數(shù)據(jù)集的特征進(jìn)行了詳盡的分析。然而,這些調(diào)查僅總結(jié)了少量數(shù)據(jù)集,導(dǎo)致范圍不夠廣泛。AD-Dataset 收集了大量數(shù)據(jù)集,但缺乏對(duì)這些數(shù)據(jù)集屬性的詳細(xì)分析。與對(duì)所有類型的數(shù)據(jù)集進(jìn)行研究相比,一些研究人員對(duì)特定類型的自動(dòng)駕駛數(shù)據(jù)集進(jìn)行了調(diào)查,例如異常檢測(cè)、合成數(shù)據(jù)集、3D語義分割和決策。

因此,本文的目標(biāo)是提出一項(xiàng)全面而系統(tǒng)的研究,涵蓋自動(dòng)駕駛中的大量數(shù)據(jù)集,從感知到控制的所有任務(wù),考慮真實(shí)世界和合成數(shù)據(jù),并深入了解若干關(guān)鍵數(shù)據(jù)集的數(shù)據(jù)模態(tài)和質(zhì)量。在下表I中對(duì)比了其他數(shù)據(jù)集調(diào)查和作者的調(diào)查。

圖片

主要貢獻(xiàn)

本文的主要貢獻(xiàn)可總結(jié)如下:

  • 對(duì)自動(dòng)駕駛數(shù)據(jù)集進(jìn)行了全面調(diào)查。盡可能全面地考慮公開可用數(shù)據(jù)集,記錄它們的基本特征,如發(fā)布年份、數(shù)據(jù)大小、傳感器模態(tài)、感知領(lǐng)域、幾何和環(huán)境條件以及支持任務(wù)。據(jù)我們所知,本工作提供了迄今為止記錄的最廣泛的自動(dòng)駕駛數(shù)據(jù)集概述。
  • 系統(tǒng)地說明了收集自動(dòng)駕駛數(shù)據(jù)的傳感器和感知領(lǐng)域。此外,描述了自動(dòng)駕駛的主要任務(wù),包括任務(wù)目標(biāo)、所需數(shù)據(jù)模態(tài)和評(píng)估指標(biāo)。
  • 根據(jù)感知領(lǐng)域和支持任務(wù)對(duì)數(shù)據(jù)集進(jìn)行了總結(jié)和劃分,以幫助研究人員高效選擇和收集目標(biāo)數(shù)據(jù)集的信息。從而促進(jìn)更有針對(duì)性和有效的研究和開發(fā)工作。
  • 此外,引入了一個(gè)影響分?jǐn)?shù)度量標(biāo)準(zhǔn),評(píng)估了在社區(qū)中發(fā)布的感知數(shù)據(jù)集的影響力。這個(gè)指標(biāo)也可以作為未來數(shù)據(jù)集開發(fā)的指導(dǎo)。深入分析了具有最高分?jǐn)?shù)的數(shù)據(jù)集,突出它們的優(yōu)勢(shì)和效用。
  • 調(diào)查了數(shù)據(jù)集的標(biāo)注質(zhì)量以及各種自動(dòng)駕駛?cè)蝿?wù)的現(xiàn)有標(biāo)注程序。
  • 進(jìn)行了詳細(xì)的數(shù)據(jù)統(tǒng)計(jì),展示了不同角度的各種數(shù)據(jù)集的數(shù)據(jù)分布,展示了它們固有的限制和適用情況。
  • 分析了最近的技術(shù)趨勢(shì),并展示了下一代數(shù)據(jù)集的發(fā)展方向。還展望了大語言模型進(jìn)一步推動(dòng)未來自動(dòng)駕駛的潛在影響。

范圍與局限性

本文的目標(biāo)是對(duì)現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集進(jìn)行詳盡調(diào)查,以提供對(duì)該領(lǐng)域未來算法和數(shù)據(jù)集的開發(fā)提供幫助和指導(dǎo)。收集了側(cè)重于四個(gè)基本自動(dòng)駕駛?cè)蝿?wù)的數(shù)據(jù)集:感知、預(yù)測(cè)、規(guī)劃和控制。由于有幾個(gè)多功能數(shù)據(jù)集支持多個(gè)任務(wù),作者只在它們主要支持的主要范圍中解釋它們,以避免重復(fù)介紹。此外,收集了大量數(shù)據(jù)集,并以它們的主要特征展示在表格中。然而,對(duì)所有收集到的數(shù)據(jù)集進(jìn)行詳細(xì)解釋可能無法突顯最受歡迎的數(shù)據(jù)集,可能會(huì)妨礙研究人員通過這項(xiàng)調(diào)查找到有價(jià)值的數(shù)據(jù)集。因此,只詳細(xì)描述了最有影響力的數(shù)據(jù)集。

文章結(jié)構(gòu)

本文的其余部分結(jié)構(gòu)如下:第二節(jié)介紹了用于獲取公共數(shù)據(jù)集以及數(shù)據(jù)集的評(píng)估指標(biāo)的方法。第三節(jié)展示了自動(dòng)駕駛中使用的主要傳感器及其模態(tài)。第四節(jié)討論了自動(dòng)駕駛?cè)蝿?wù)、相關(guān)挑戰(zhàn)和所需數(shù)據(jù)。在第五節(jié)進(jìn)一步討論了幾個(gè)重要的數(shù)據(jù)集。在第六節(jié)展示了標(biāo)注過程和影響標(biāo)注質(zhì)量的因素。此外,在第七節(jié)對(duì)幾個(gè)數(shù)據(jù)集的數(shù)據(jù)分布進(jìn)行了統(tǒng)計(jì)。在第八節(jié)中,調(diào)查了自動(dòng)駕駛數(shù)據(jù)集的發(fā)展趨勢(shì)和未來工作。最后,在第九節(jié)總結(jié)。此調(diào)查的分類結(jié)構(gòu)如下圖3所示。

方法論介紹

本節(jié)包括1) 如何收集和篩選數(shù)據(jù)集(II-A),以及2) 如何評(píng)估數(shù)據(jù)集對(duì)自動(dòng)駕駛領(lǐng)域的影響(II-B)。

數(shù)據(jù)集收集

作者遵循[42]的方法進(jìn)行系統(tǒng)性的回顧,以詳盡收集已發(fā)布的自動(dòng)駕駛數(shù)據(jù)集。為確保來源的多樣性,作者利用了知名的搜索引擎,如Google、Google Scholar和Baidu來搜索數(shù)據(jù)集。為了確保從各個(gè)國家和地區(qū)全面收集數(shù)據(jù)集,使用英語、中文和德語進(jìn)行搜索,使用關(guān)鍵詞如“autonomous driving datasets”、“intelligent vehicle datasets”以及與目標(biāo)檢測(cè)、分類、跟蹤、分割、預(yù)測(cè)、規(guī)劃和控制相關(guān)的術(shù)語。

此外,在IEEE Xplore和自動(dòng)駕駛及智能交通系統(tǒng)領(lǐng)域的相關(guān)會(huì)議中搜索,以收集來自期刊和會(huì)議論文集的數(shù)據(jù)集。通過關(guān)鍵詞搜索和手動(dòng)標(biāo)題審查驗(yàn)證了這些來源的數(shù)據(jù)集。

最后,為了確保包括專業(yè)或較少知名的數(shù)據(jù)集,作者通過Github倉庫和Paperwithcodes進(jìn)行了搜索。類似于數(shù)據(jù)庫,對(duì)數(shù)據(jù)集進(jìn)行了手動(dòng)和基于關(guān)鍵詞的搜索。

數(shù)據(jù)集評(píng)估指標(biāo)

作者引入了一個(gè)新的度量標(biāo)準(zhǔn),即影響分?jǐn)?shù)(impact score),用于評(píng)估已發(fā)布數(shù)據(jù)集的重要性,這也可以作為準(zhǔn)備新數(shù)據(jù)集的指南。在本節(jié)中,詳細(xì)解釋了計(jì)算自動(dòng)駕駛數(shù)據(jù)集影響分?jǐn)?shù)的方法。

為了進(jìn)行公平和可比較的比較,作者僅考慮與感知領(lǐng)域相關(guān)的數(shù)據(jù)集,因?yàn)楦兄I(lǐng)域占據(jù)了自動(dòng)駕駛數(shù)據(jù)集的很大一部分。此外,為了確保評(píng)分系統(tǒng)的客觀性和可理解性,考慮了各種因素,包括引用次數(shù)、數(shù)據(jù)維度和環(huán)境多樣性。所有的值都是從官方論文或開源數(shù)據(jù)集網(wǎng)站收集而來。

引用分?jǐn)?shù)。首先,作者從總引用次數(shù)和平均年引用次數(shù)計(jì)算引用分?jǐn)?shù)。為了獲得公平的引用計(jì)數(shù),選擇數(shù)據(jù)集的最早版本的時(shí)間作為其發(fā)布時(shí)間。此外,為了確保比較基于一致的時(shí)間框架,所有引用次數(shù)都是截至2023年9月20日收集的。總引用次數(shù) 反映了數(shù)據(jù)集的總體影響力。這個(gè)指標(biāo)的較高數(shù)值意味著數(shù)據(jù)集得到了廣泛的認(rèn)可和研究人員的使用。然而,較早發(fā)布的數(shù)據(jù)集可能積累更多的引用。為了解決這種不公平,作者利用平均年引用次數(shù),它描述了數(shù)據(jù)集的年引用增速。計(jì)算函數(shù)如下公式1所示。

其中 和 分別表示當(dāng)前年份和數(shù)據(jù)集發(fā)布年份。另一方面,引用次數(shù) distastes 的范圍很廣,從幾位數(shù)到幾萬位數(shù)不等。為了緩解極端的不平衡并突顯每個(gè)數(shù)據(jù)集之間的差異,作者對(duì)  和  都進(jìn)行了對(duì)數(shù)變換,然后進(jìn)行 Min-Max 歸一化,如公式2所示。

圖片

最終,引用分?jǐn)?shù) 是和的總和:

數(shù)據(jù)維度評(píng)分。 從四個(gè)角度測(cè)量數(shù)據(jù)維度:數(shù)據(jù)集大小、時(shí)間信息、任務(wù)數(shù)量和標(biāo)注類別。數(shù)據(jù)集大小 f 由數(shù)據(jù)集的幀數(shù)表示,反映了其容量和全面性。為了獲得數(shù)據(jù)集大小評(píng)分 ,采用與引用分?jǐn)?shù)相同的方法處理幀數(shù),以克服不同數(shù)據(jù)集之間的極端不平衡。

時(shí)間信息對(duì)于自動(dòng)駕駛至關(guān)重要,因?yàn)樗管囕v能夠了解周圍環(huán)境隨時(shí)間的變化。作者使用 t ∈{0, 1} 表示數(shù)據(jù)集是否包含時(shí)間信息。關(guān)于任務(wù)數(shù)量,作者只考慮與自動(dòng)駕駛感知領(lǐng)域中的六個(gè)基本任務(wù)相關(guān)的數(shù)據(jù)集,例如 2D 目標(biāo)檢測(cè)、3D 目標(biāo)檢測(cè)、2D 語義分割、3D 語義分割、跟蹤和車道線檢測(cè)。因此,任務(wù)數(shù)量評(píng)分被記錄為 。類別的數(shù)量對(duì)于數(shù)據(jù)集的穩(wěn)健性和多功能性至關(guān)重要。在統(tǒng)計(jì)過程中,如果一個(gè)數(shù)據(jù)集支持多個(gè)任務(wù)并包含各種類型的標(biāo)注,作者選擇類別數(shù)量最多的數(shù)據(jù)。然后,將這些類別分為五個(gè)級(jí)別,l = {1, 2, 3, 4, 5},基于五分位數(shù)。在后續(xù)過程之前,作者對(duì)  和 l 進(jìn)行了規(guī)范化,以簡(jiǎn)化計(jì)算。

為了盡可能客觀地反映數(shù)據(jù)維度評(píng)分 ,作者給四個(gè)組成部分分配了不同的權(quán)重,如下公式4所示。

環(huán)境多樣性評(píng)分。根據(jù)以下因素評(píng)估數(shù)據(jù)集的環(huán)境多樣性:

  1. 天氣條件,例如雨雪。
  2. 白天或黃昏等數(shù)據(jù)收集時(shí)間。
  3. 駕駛場(chǎng)景的類型,例如城市或鄉(xiāng)村。
  4. 幾何范圍指的是數(shù)據(jù)記錄的國家或城市數(shù)量。

值得注意的是,作者將合成數(shù)據(jù)集的幾何范圍視為缺失。按照論文對(duì)數(shù)據(jù)進(jìn)行分類的粒度來量化多樣性。此外,對(duì)于缺失值,如果數(shù)據(jù)集宣布數(shù)據(jù)是在多樣化條件下記錄的,作者使用中值作為缺失值。否則,將此屬性的缺失值設(shè)為1。作者將每個(gè)因素量化為五個(gè)不同級(jí)別,然后環(huán)境多樣性評(píng)分 是這四個(gè)因素的總和。

最后,利用公式5計(jì)算影響分?jǐn)?shù) 。

總影響分?jǐn)?shù)為100,其中60%屬于引用分?jǐn)?shù) ,數(shù)據(jù)維度分?jǐn)?shù)  和環(huán)境多樣性分?jǐn)?shù)  占40%。

數(shù)據(jù)源和自動(dòng)駕駛中的協(xié)同感知

本節(jié)介紹主要用于自動(dòng)駕駛的傳感器及其模態(tài)。此外,分析了數(shù)據(jù)采集和通信領(lǐng)域,如車載、無人機(jī)和V2X的協(xié)同感知。

數(shù)據(jù)的傳感器和模態(tài)

高效而準(zhǔn)確地從周圍環(huán)境中收集數(shù)據(jù)是自動(dòng)駕駛可靠感知系統(tǒng)的關(guān)鍵。為了實(shí)現(xiàn)這一目標(biāo),在自動(dòng)駕駛車輛和基礎(chǔ)設(shè)施上使用了各種類型的傳感器。傳感器的示例如下圖 4 所示。最常用的傳感器是相機(jī)、LiDAR 和Radar。事件型和熱成像相機(jī)也安裝在車輛或道路旁邊,以進(jìn)一步提高感知能力。

RGB 圖像。RGB 圖像通常由單目、雙目或魚眼相機(jī)記錄。單目相機(jī)提供不帶深度的 2D 視圖;雙目相機(jī)通過其雙鏡頭提供深度感知;魚眼相機(jī)使用廣角鏡頭捕捉廣闊的視野。所有這些相機(jī)通過透鏡將光傳導(dǎo)到圖像傳感器(例如 CMOS),將這些光轉(zhuǎn)換為表示圖像的電子信號(hào)。如下圖 5 (a) 所示,2D 圖像捕捉環(huán)境的顏色信息、豐富的紋理、模式和視覺細(xì)節(jié)。由于這些特性,RGB 圖像主要用于檢測(cè)車輛和行人,并識(shí)別道路標(biāo)志。然而,RGB 圖像容易受到低照明、雨、霧或耀斑等條件的影響 。

LiDAR 點(diǎn)云。LiDAR 使用激光束測(cè)量傳感器與目標(biāo)之間的距離,從而創(chuàng)建 3D 環(huán)境表示 。LiDAR 點(diǎn)云(如下圖 5 (b) 所示)提供高分辨率的精確空間信息,可以檢測(cè)長(zhǎng)距離內(nèi)的目標(biāo)。然而,這些點(diǎn)的密度會(huì)隨著距離的增加而減小,導(dǎo)致遠(yuǎn)處目標(biāo)的表示更為稀疏。天氣條件,如霧,也會(huì)限制 LiDAR 的性能。總體而言,LiDAR 適用于需要 3D 簡(jiǎn)要信息的情況。

Radar點(diǎn)云。Radar通過發(fā)射射頻波并分析其反射來檢測(cè)目標(biāo)、距離和相對(duì)速度。此外,Radar在各種天氣條件下都具有很強(qiáng)的魯棒性 。然而,Radar點(diǎn)云通常比 LiDAR 數(shù)據(jù)更粗糙,缺乏目標(biāo)的詳細(xì)形狀或紋理信息。因此,Radar通常用于輔助其他傳感器。下圖 5 (c) 展示了Radar點(diǎn)云。

事件相機(jī)。事件型相機(jī)異步捕捉數(shù)據(jù),僅在像素檢測(cè)到亮度變化時(shí)才激活。捕捉到的數(shù)據(jù)稱為事件(如圖 5 (d) 所示)。由于采用了特定的數(shù)據(jù)生成方法,記錄的數(shù)據(jù)具有極高的時(shí)間分辨率,并且可以捕捉快速運(yùn)動(dòng)而不模糊 。

熱成像相機(jī)的紅外圖像。熱成像相機(jī)(見下圖 5 (e))通過捕捉紅外輻射來檢測(cè)熱特征 。由于基于溫差生成圖像,熱成像相機(jī)可以在完全黑暗中工作,并且不受霧或煙影響。然而,熱成像相機(jī)無法分辨顏色或詳細(xì)的視覺圖案。此外,與光學(xué)相機(jī)相比,紅外圖像的分辨率較低。

慣性測(cè)量單元(IMU)。IMU 是一種電子設(shè)備,用于測(cè)量并報(bào)告目標(biāo)的特定力、角速度,有時(shí)還有目標(biāo)周圍的磁場(chǎng) 。在自動(dòng)駕駛中,它用于跟蹤車輛的運(yùn)動(dòng)和方向。雖然 IMU 不包含周圍環(huán)境的視覺信息,但通過將 IMU 的數(shù)據(jù)與其他傳感器的數(shù)據(jù)融合,感知系統(tǒng)可以更準(zhǔn)確、更魯棒地跟蹤車輛的運(yùn)動(dòng)和方向。

作者從收集的數(shù)據(jù)集中分析傳感器的分布,如下圖 6 所示。超過一半的傳感器是單目相機(jī)(53.85%),這是因?yàn)樗鼈儍r(jià)格低廉且性能可靠。此外,93 個(gè)數(shù)據(jù)集包含 LiDAR 數(shù)據(jù),由于其高分辨率和精確的空間信息而受到重視。然而,由于高昂的成本,限制了 LiDAR 的廣泛使用。除 LiDAR 點(diǎn)云外,29 個(gè)數(shù)據(jù)集利用雙目相機(jī)捕捉深度信息。此外,分別包含Radar、熱像相機(jī)和魚眼相機(jī)的數(shù)據(jù)集比例分別為5.41%、3.42%和1.71%。考慮到以事件為基礎(chǔ)的相機(jī)捕捉動(dòng)態(tài)場(chǎng)景的時(shí)間效率,有三個(gè)數(shù)據(jù)集生成基于事件的相機(jī)數(shù)據(jù)。

傳感域和協(xié)同感知系統(tǒng)

自動(dòng)駕駛系統(tǒng)中,自車與周圍環(huán)境中其他實(shí)體之間的感知數(shù)據(jù)和通信起著至關(guān)重要的作用,確保了自動(dòng)駕駛系統(tǒng)的安全性、效率性和整體功能性。因此,傳感器的位置決定了可以收集的數(shù)據(jù)的質(zhì)量、角度和范圍,因此非常關(guān)鍵。總體而言,在自動(dòng)駕駛環(huán)境中,傳感器可以分為以下幾個(gè)領(lǐng)域:自車、車聯(lián)網(wǎng)(V2X)、無人機(jī)和其他。

自車:自車傳感器直接安裝在自動(dòng)駕駛車輛上,通常包括相機(jī)、LiDAR、Radar和慣性測(cè)量單元(IMU)。這些傳感器提供了車輛視角的直接視圖,即時(shí)反饋車輛周圍的情況。然而,由于車輛檢測(cè)范圍的限制,自車傳感器可能在提供盲點(diǎn)內(nèi)障礙物的預(yù)警或檢測(cè)急彎附近的危險(xiǎn)方面存在局限性。

車聯(lián)網(wǎng)(V2X):車聯(lián)網(wǎng)包括車輛與交通系統(tǒng)中的任何其他組件之間的通信,包括車輛對(duì)車輛(V2V)、車輛對(duì)基礎(chǔ)設(shè)施(V2I)和車輛對(duì)網(wǎng)絡(luò)(V2N)(如下圖7所示)。除了直接的感知輸入外,協(xié)同系統(tǒng)確保多個(gè)實(shí)體協(xié)同工作。

  1. 車到車(V2V) V2V使附近的車輛能夠共享數(shù)據(jù),包括它們的位置、速度和傳感器數(shù)據(jù),如相機(jī)圖像或LiDAR掃描,有助于更全面地了解駕駛場(chǎng)景。
  2. 車到基礎(chǔ)設(shè)施(V2I) V2I促進(jìn)了自動(dòng)駕駛車輛與基礎(chǔ)設(shè)施組件之間的通信,例如交通燈、標(biāo)志或路邊傳感器。嵌入在道路基礎(chǔ)設(shè)施中的傳感器,包括相機(jī)、LiDAR、Radar或基于事件的相機(jī),協(xié)同工作以擴(kuò)展感知范圍并提高自動(dòng)駕駛車輛的情境感知。在這項(xiàng)調(diào)查中,作者將通過基礎(chǔ)設(shè)施或V2I進(jìn)行的感知都?xì)w類為V2I。
  3. 車到網(wǎng)絡(luò)(V2N) V2N指的是在車輛和更廣泛的網(wǎng)絡(luò)基礎(chǔ)設(shè)施之間交換信息,通常利用蜂窩網(wǎng)絡(luò)為車輛提供對(duì)云數(shù)據(jù)的訪問。V2N通過共享跨區(qū)域數(shù)據(jù)或提供有關(guān)交通擁堵或道路封閉的實(shí)時(shí)更新,幫助V2V和V2I的合作感知。

無人機(jī)(Drone):無人機(jī)提供了一種空中視角,提供了軌跡預(yù)測(cè)和路徑規(guī)劃所需的數(shù)據(jù)。例如,來自無人機(jī)的實(shí)時(shí)數(shù)據(jù)可以集成到交通管理系統(tǒng)中,以優(yōu)化交通流并提醒自動(dòng)駕駛車輛前方的事故。

其他  未由前三種類型收集的數(shù)據(jù)被定義為其他,例如安裝在非車輛目標(biāo)上或多個(gè)領(lǐng)域的其他設(shè)備。

自動(dòng)駕駛中的任務(wù)

這一部分深入介紹了自動(dòng)駕駛中的關(guān)鍵任務(wù),如感知和定位、預(yù)測(cè)以及規(guī)劃和控制。自動(dòng)駕駛流程的概覽如下圖8所示。詳細(xì)說明它們的目標(biāo)、它們所依賴的數(shù)據(jù)的性質(zhì)以及固有的挑戰(zhàn)。圖9展示了自動(dòng)駕駛中若干主要任務(wù)的示例。


感知和定位

感知側(cè)重于根據(jù)感知數(shù)據(jù)理解環(huán)境,而定位確定自動(dòng)駕駛車輛在該環(huán)境中的位置。

2D/3D 目標(biāo)檢測(cè)

2D或3D目標(biāo)檢測(cè)旨在識(shí)別和分類駕駛環(huán)境中的其他實(shí)體。而2D目標(biāo)檢測(cè)在圖像空間中識(shí)別目標(biāo),3D目標(biāo)檢測(cè)進(jìn)一步整合由LiDAR提供的精確深度信息。盡管檢測(cè)技術(shù)取得了顯著進(jìn)展,但仍存在一些挑戰(zhàn),如目標(biāo)遮擋、光照變化和多樣的目標(biāo)外觀。

通常情況下,使用AP度量來評(píng)估目標(biāo)檢測(cè)性能。根據(jù)[1],AP度量可表述為:

其中p(r)是精度-召回曲線。

2D/3D 語義分割

語義分割涉及將圖像的每個(gè)像素或點(diǎn)云的每個(gè)點(diǎn)分類到其語義類別。從數(shù)據(jù)集的角度來看,保持細(xì)粒度的目標(biāo)邊界并管理大量標(biāo)簽要求對(duì)這個(gè)任務(wù)來說是一個(gè)重要的挑戰(zhàn)。

正如中提到的,用于分割的主要度量標(biāo)準(zhǔn)包括平均像素準(zhǔn)確率(mPA):

圖片

還有mIoU:

圖片

其中k*∈N是類別數(shù),和和分別表示真正例、假正例和假反例。

目標(biāo)跟蹤

目標(biāo)跟蹤監(jiān)控單個(gè)或多個(gè)目標(biāo)隨時(shí)間的軌跡。這項(xiàng)任務(wù)需要時(shí)間序列的RGB數(shù)據(jù)、LiDAR或Radar序列。通常,目標(biāo)跟蹤包括單目標(biāo)跟蹤或多目標(biāo)跟蹤(MOT)。

多目標(biāo)跟蹤準(zhǔn)確度(MOTA)是用于多目標(biāo)跟蹤的廣泛使用的度量,它結(jié)合了假反例、假正例和不匹配率(參見方程9):

圖片

其中,、和分別是隨時(shí)間t的假正例、假反例和不匹配錯(cuò)誤的數(shù)量。是真值。

此外,與其考慮單一閾值不同,Average MOTA(AMOTA)是基于所有目標(biāo)置信閾值計(jì)算的。

高精度地圖

高精度地圖的目標(biāo)是構(gòu)建詳細(xì)、高度準(zhǔn)確的表示,其中包括有關(guān)道路結(jié)構(gòu)、交通標(biāo)志和地標(biāo)的信息。一個(gè)數(shù)據(jù)集應(yīng)該提供LiDAR數(shù)據(jù)以獲取精確的空間信息,以及相機(jī)數(shù)據(jù)以獲取視覺細(xì)節(jié),以確保建立的地圖準(zhǔn)確性。

根據(jù),高精度地圖自動(dòng)化和高精度地圖變更檢測(cè)越來越受到關(guān)注。通常,高精度地圖的質(zhì)量是通過準(zhǔn)確度度量來估算的。

SLAM

同時(shí)定位與建圖(SLAM)涉及構(gòu)建周圍環(huán)境的同時(shí)建圖,并在該地圖中定位車輛。因此,來自相機(jī)、用于位置跟蹤的IMUs以及實(shí)時(shí)LiDAR點(diǎn)云的數(shù)據(jù)是至關(guān)重要的。引入了兩個(gè)評(píng)估指標(biāo),相對(duì)位姿誤差(RPE)和絕對(duì)軌跡誤差(ATE),用于評(píng)估從輸入RGB-D圖像估計(jì)的軌跡的質(zhì)量。

預(yù)測(cè)

預(yù)測(cè)是指對(duì)周圍agents的未來狀態(tài)或行為進(jìn)行預(yù)測(cè)。這種能力確保在動(dòng)態(tài)環(huán)境中更安全地導(dǎo)航。預(yù)測(cè)使用了一些評(píng)估指標(biāo),例如均方根誤差(RMSE):

其中N是樣本的總數(shù),和分別表示預(yù)測(cè)軌跡和真值軌跡。

負(fù)對(duì)數(shù)似然(NLL)(見方程11)是另一個(gè)重點(diǎn)關(guān)注軌跡正確性的度量,可用于比較不同模型的不確定性。

其中C是總類數(shù),是預(yù)測(cè)的正確性的二進(jìn)制指示器,是相應(yīng)的預(yù)測(cè)概率。

軌跡預(yù)測(cè)

利用來自相機(jī)和LiDAR等傳感器的時(shí)間序列數(shù)據(jù),軌跡預(yù)測(cè)涉及預(yù)測(cè)其他實(shí)體(如行人、騎車人或其他車輛)未來的路徑或移動(dòng)模式。

行為預(yù)測(cè)

行為預(yù)測(cè)預(yù)測(cè)其他道路使用者的潛在動(dòng)作,例如車輛是否會(huì)變道。訓(xùn)練行為預(yù)測(cè)模型依賴于具有廣泛標(biāo)注的數(shù)據(jù),因?yàn)樵诓煌榫持袑?shí)體可能采取各種潛在動(dòng)作。

意圖預(yù)測(cè)

意圖預(yù)測(cè)側(cè)重于推斷目標(biāo)行為背后的意圖的高級(jí)目標(biāo),涉及對(duì)人類目標(biāo)的物理或心理活動(dòng)進(jìn)行更深層次的語義理解。由于任務(wù)的復(fù)雜性,它不僅需要來自感知相機(jī)等傳感器的數(shù)據(jù),還需要其他信息,如交通信號(hào)和手勢(shì),以推斷其他agents的意圖。

規(guī)劃與控制

  1. 規(guī)劃: 規(guī)劃代表對(duì)感知環(huán)境和預(yù)測(cè)做出反應(yīng)的決策過程。經(jīng)典的三級(jí)分層規(guī)劃框架包括路徑規(guī)劃、行為規(guī)劃和運(yùn)動(dòng)規(guī)劃。
  1. 路徑規(guī)劃: 路徑規(guī)劃,也稱為路線規(guī)劃,涉及設(shè)定長(zhǎng)期目標(biāo)。這是一個(gè)高層次的過程,確定到達(dá)目的地的最佳路徑。
  2. 行為規(guī)劃: 行為規(guī)劃位于框架的中層,與決策制定相關(guān),包括變道、超車、合并和十字路口穿越等。這個(gè)過程依賴于對(duì)其他agents行為的正確理解和交互。
  3. 運(yùn)動(dòng)規(guī)劃: 運(yùn)動(dòng)規(guī)劃處理車輛實(shí)時(shí)應(yīng)該遵循的實(shí)際軌跡,考慮到障礙物、道路狀況和其他道路agents的預(yù)測(cè)行為。與路徑規(guī)劃相反,運(yùn)動(dòng)規(guī)劃生成實(shí)現(xiàn)局部目標(biāo)的適當(dāng)路徑。
  1. 控制: 自動(dòng)駕駛中的控制機(jī)制管理自動(dòng)駕駛汽車如何執(zhí)行來自運(yùn)動(dòng)規(guī)劃系統(tǒng)的決定的路徑或行為,并糾正跟蹤誤差。它將高級(jí)命令轉(zhuǎn)換為可執(zhí)行的油門、剎車和轉(zhuǎn)向命令。

端到端自動(dòng)駕駛

端到端自動(dòng)駕駛是指單個(gè)深度學(xué)習(xí)模型處理從感知到控制的所有任務(wù),繞過傳統(tǒng)的模塊化流程。這樣的模型通常更具適應(yīng)性,因?yàn)樗鼈兺ㄟ^學(xué)習(xí)來調(diào)整整個(gè)模型。它們的固有優(yōu)勢(shì)在于簡(jiǎn)單性和效率,通過減少手工制作組件的需求。然而,實(shí)施端到端模型面臨著關(guān)鍵限制,如大量的訓(xùn)練數(shù)據(jù)需求、低解釋性和不靈活的模塊調(diào)整。

對(duì)端到端自動(dòng)駕駛進(jìn)行大規(guī)模基準(zhǔn)測(cè)試可以分為閉環(huán)和開環(huán)評(píng)估。閉環(huán)評(píng)估基于仿真環(huán)境,而開環(huán)評(píng)估涉及根據(jù)來自真實(shí)世界數(shù)據(jù)集的專業(yè)駕駛行為評(píng)估系統(tǒng)的性能。

高影響力數(shù)據(jù)集

本節(jié)描述了在感知、預(yù)測(cè)、規(guī)劃和控制領(lǐng)域中的具有里程碑意義的自動(dòng)駕駛數(shù)據(jù)集。還展示了端到端自動(dòng)駕駛的數(shù)據(jù)集。

感知數(shù)據(jù)集

感知數(shù)據(jù)集對(duì)于開發(fā)和優(yōu)化自動(dòng)駕駛系統(tǒng)至關(guān)重要。它們通過提供豐富的多模態(tài)感知數(shù)據(jù),確保對(duì)周圍環(huán)境進(jìn)行有效感知和理解,從而增強(qiáng)車輛的可靠性和穩(wěn)健性。

作者利用提出的數(shù)據(jù)集評(píng)估指標(biāo)計(jì)算收集的感知數(shù)據(jù)集的影響分?jǐn)?shù),隨后根據(jù)這些分?jǐn)?shù)選擇前50個(gè)數(shù)據(jù)集,以創(chuàng)建一個(gè)按時(shí)間順序排列的概述,如下圖10所示。同時(shí),如前章節(jié)中所述,將數(shù)據(jù)集分為車載、V2X、無人機(jī)和其他,從每個(gè)類別中選擇一個(gè)子集,編制一個(gè)包含50個(gè)數(shù)據(jù)集的綜合表格(下表II)。值得注意的是,表中的數(shù)據(jù)集是按照其各自類別內(nèi)的影響分?jǐn)?shù)進(jìn)行排序的,不代表總體的前50。在以下部分,作者選擇了每個(gè)感知來源中影響分?jǐn)?shù)最高的幾個(gè)數(shù)據(jù)集,并考慮它們的發(fā)布年份。

圖片圖片圖片

車載

  • KITTI: KITTI  自2012年發(fā)布以來,深刻影響了自動(dòng)駕駛領(lǐng)域。KITTI包含通過各種傳感器記錄的各種真實(shí)駕駛場(chǎng)景,包括相機(jī)、LiDAR和GPS/IMU。其豐富的標(biāo)注和高分辨率的傳感器數(shù)據(jù)促進(jìn)了在各種自動(dòng)駕駛?cè)蝿?wù)(如目標(biāo)檢測(cè)、跟蹤、光流、深度估計(jì)和視覺里程計(jì))方面的算法開發(fā)和基準(zhǔn)測(cè)試。
  • Cityscapes: Cityscapes  包括在復(fù)雜城市環(huán)境中明確捕獲的大量圖像。通過精心標(biāo)注,Cityscapes為30個(gè)不同的目標(biāo)類別提供像素級(jí)分割,其中包括各種車輛類型、行人、道路和交通標(biāo)志信息。由于其復(fù)雜性和豐富性,Cityscapes已成為諸如城市場(chǎng)景中語義分割等任務(wù)的標(biāo)準(zhǔn)基準(zhǔn)。
  • SYNTHIA: SYNTHIA  是自動(dòng)駕駛領(lǐng)域的合成數(shù)據(jù)集。該數(shù)據(jù)集包含13,400張圖像,具有語義分割的逐像素標(biāo)注。SYNTHIA的一個(gè)顯著特點(diǎn)是它能夠彌合現(xiàn)實(shí)世界和合成數(shù)據(jù)之間的差距,促進(jìn)了在不同領(lǐng)域之間開發(fā)穩(wěn)健且可轉(zhuǎn)移的方法。
  • Virtual KITTI: Virtual KITTI  通過虛擬環(huán)境密切模仿了原始KITTI數(shù)據(jù)集,通過提供包含各種交通情況和環(huán)境條件的高分辨率視頻序列而脫穎而出。類似于,Virtual KITTI支持關(guān)鍵的自動(dòng)駕駛?cè)蝿?wù),包括目標(biāo)檢測(cè)、語義分割和目標(biāo)跟蹤。
  • VIPER: VIPER  是從現(xiàn)實(shí)虛擬世界的駕駛、騎行和步行視角收集的合成數(shù)據(jù)集,解決了數(shù)據(jù)稀缺和標(biāo)注現(xiàn)實(shí)世界數(shù)據(jù)的高成本挑戰(zhàn)。VIPER包含超過25萬幀視頻,為低級(jí)和高級(jí)視覺任務(wù)提供了真值數(shù)據(jù),同時(shí)涵蓋各種天氣條件、光照?qǐng)鼍昂蛷?fù)雜的城市風(fēng)景。總體而言,VIPER為研究人員提供了一個(gè)寶貴且經(jīng)濟(jì)高效的工具,以加速可靠且安全的自動(dòng)駕駛的發(fā)展。
  • Apolloscapes:Apolloscapes 提供了超過140,000個(gè)高分辨率幀,具有準(zhǔn)確的邊界框和像素級(jí)語義標(biāo)簽,對(duì)于訓(xùn)練和驗(yàn)證自動(dòng)車輛的感知和導(dǎo)航系統(tǒng)至關(guān)重要。Apolloscapes支持圖像和點(diǎn)云的語義分割,2D/3D目標(biāo)檢測(cè),多目標(biāo)跟蹤和車道線分割,從而實(shí)現(xiàn)先進(jìn)且安全的自動(dòng)駕駛系統(tǒng)的創(chuàng)建和評(píng)估。
  • SemanticKITTI:SemanticKITTI 是KITTI家族的一個(gè)顯著擴(kuò)展,專注于自動(dòng)駕駛領(lǐng)域的語義分割。SemanticKITTI包含超過43,000個(gè)LiDAR點(diǎn)云幀,使其成為戶外環(huán)境中3D語義分割最大的數(shù)據(jù)集之一。SemanticKITTI為28個(gè)類別提供精確的標(biāo)簽,如汽車、道路、建筑等,為評(píng)估點(diǎn)云語義分割方法的性能提供了強(qiáng)有力的基準(zhǔn),支撐了相關(guān)領(lǐng)域的許多研究和創(chuàng)新。
  • nuScenes:nuScenes 是自動(dòng)駕駛領(lǐng)域的重要貢獻(xiàn),提供了一個(gè)豐富的數(shù)據(jù)庫,滿足感知系統(tǒng)的多樣化需求。nuScenes利用LiDAR、Radar和相機(jī)記錄來自波士頓和新加坡不同城市場(chǎng)景的數(shù)據(jù)。值得一提的是,其六個(gè)相機(jī)提供了對(duì)周圍環(huán)境的全面視角,在多視角目標(biāo)檢測(cè)任務(wù)中得到廣泛應(yīng)用。總體而言,nuScenes數(shù)據(jù)集是發(fā)展自動(dòng)駕駛技術(shù)的基石,支持多任務(wù)和應(yīng)用,并在該領(lǐng)域設(shè)立了新的基準(zhǔn)。
  • Waymo:Waymo Open Dataset ,于2019年推出,通過提供大量的多模態(tài)感知數(shù)據(jù)和高質(zhì)量標(biāo)注,顯著影響了自動(dòng)駕駛研究和進(jìn)展。Waymo數(shù)據(jù)集的關(guān)鍵貢獻(xiàn)包括其對(duì)駕駛條件和地理位置的全面覆蓋,這對(duì)于不同任務(wù)(如檢測(cè)、跟蹤和分割)的魯棒性和通用性至關(guān)重要。
  • BDD100K:BDD100K 數(shù)據(jù)集,由伯克利DeepDrive中心于2018年發(fā)布,是一個(gè)規(guī)模龐大且多樣化的駕駛數(shù)據(jù)集,以其規(guī)模和多樣性而聞名。它包括100,000個(gè)大約40秒的視頻。同時(shí),它為目標(biāo)檢測(cè)、跟蹤、語義分割和車道線檢測(cè)提供了各種標(biāo)注標(biāo)簽。這個(gè)龐大的數(shù)據(jù)集推動(dòng)了自動(dòng)駕駛社區(qū)的進(jìn)展,成為研究人員和工程師提出和改進(jìn)算法的具有挑戰(zhàn)性和多功能的平臺(tái)。
  • RADIATE:RADIATE 是第一個(gè)公開的Radar數(shù)據(jù)集,包含44,140幀在不同惡劣天氣條件下收集的帶標(biāo)注的圖像,如雨天、霧天、陰天和雪天。它還整合了LiDAR和相機(jī)數(shù)據(jù),使駕駛環(huán)境的全面感知和理解成為可能。
  • Argoverse 2:Argoverse 2 作為Argoverse 1 的續(xù)集,引入了更多樣化和復(fù)雜的駕駛場(chǎng)景,展示了迄今為止最大的自動(dòng)駕駛分類法。它捕捉了六個(gè)城市和不同條件下的各種實(shí)際駕駛場(chǎng)景。Argoverse 2支持多個(gè)重要任務(wù),包括但不限于3D目標(biāo)檢測(cè)、語義分割和跟蹤。總之,Argoverse 2數(shù)據(jù)集提供了大量真實(shí)駕駛場(chǎng)景的多模態(tài)數(shù)據(jù),促進(jìn)了算法的創(chuàng)新和進(jìn)步,并展示了其在自動(dòng)駕駛中作為重要資源的實(shí)質(zhì)潛力。

V2X

  • V2VNet:V2VNet 引入的數(shù)據(jù)集專注于利用V2V通信,允許自動(dòng)車輛從多個(gè)視點(diǎn)共享信息,這對(duì)于檢測(cè)被遮擋目標(biāo)和預(yù)測(cè)其他交通參與者的行為至關(guān)重要。該數(shù)據(jù)集使用名為L(zhǎng)idarsim 的高保真LiDAR仿真器創(chuàng)建,該仿真器利用真實(shí)世界數(shù)據(jù)生成各種交通場(chǎng)景的逼真LiDAR點(diǎn)云。總的來說,這項(xiàng)工作引起了對(duì)V2V作為提高自動(dòng)車輛能力的有前途的途徑的關(guān)注。
  • DAIR-V2X:DAIR-V2X 是在車輛基礎(chǔ)設(shè)施協(xié)同自動(dòng)駕駛領(lǐng)域的開創(chuàng)性資源,提供大規(guī)模、多模態(tài)、多視圖的真實(shí)世界數(shù)據(jù)。該數(shù)據(jù)集旨在解決車輛和基礎(chǔ)設(shè)施傳感器之間的時(shí)間不同步以及此類協(xié)作系統(tǒng)中涉及的數(shù)據(jù)傳輸成本等挑戰(zhàn)。DAIR-V2X數(shù)據(jù)集對(duì)自動(dòng)駕駛的影響很大,因?yàn)樗鼮檐囕v基礎(chǔ)設(shè)施合作的復(fù)雜性設(shè)立了一個(gè)基準(zhǔn),多虧了其來自真實(shí)世界的多種場(chǎng)景。
  • Rope3D:Rope3D 是感知系統(tǒng)的重要貢獻(xiàn),通過利用從路邊相機(jī)收集的數(shù)據(jù),填補(bǔ)了自動(dòng)駕駛中的關(guān)鍵差距。Rope3D包括50,000張圖像,處于不同的環(huán)境條件,包括不同的照明(白天、夜晚、黃昏)和天氣情況(雨天、晴天、多云)。總體而言,Rope3D數(shù)據(jù)集是推動(dòng)路邊感知在自動(dòng)駕駛中取得進(jìn)展的先導(dǎo)工作,同時(shí)也是研究人員和工程師開發(fā)更健壯、智能的自動(dòng)駕駛系統(tǒng)的重要工具。
  • V2V4Real:V2V4Real 是第一個(gè)大規(guī)模的真實(shí)世界數(shù)據(jù)集,用于處理V2V合作感知。該數(shù)據(jù)集從兩輛配備有多模態(tài)傳感器(如LiDAR和相機(jī))的車輛中收集。V2V4Real關(guān)注一系列感知任務(wù),如合作3D目標(biāo)檢測(cè)、合作3D目標(biāo)跟蹤和Sim2Real域適應(yīng)。這種多功能性使其成為開發(fā)和基準(zhǔn)測(cè)試自動(dòng)駕駛算法的寶貴資源。

無人機(jī)

  • UAVDT:UAVDT 數(shù)據(jù)集包含80,000個(gè)準(zhǔn)確標(biāo)注的幀,其中包括14種屬性,如天氣條件、飛行姿態(tài)、相機(jī)視圖、車輛類別和遮擋級(jí)別。該數(shù)據(jù)集專注于在城市環(huán)境中基于UAV的目標(biāo)檢測(cè)和跟蹤。此外,UAVDT基準(zhǔn)測(cè)試包括密集場(chǎng)景、小型目標(biāo)和顯著的相機(jī)運(yùn)動(dòng),這對(duì)于當(dāng)前最先進(jìn)的方法來說都是具有挑戰(zhàn)性的。
  • DroneVehicle:DroneVehicle 提出了一個(gè)大規(guī)模的基于無人機(jī)的數(shù)據(jù)集,提供28,439個(gè)RGB-紅外圖像對(duì),用于解決低照明條件下的目標(biāo)檢測(cè)問題。此外,它涵蓋了各種場(chǎng)景,如城市道路、住宅區(qū)和停車場(chǎng)。由于其在廣泛條件下的獨(dú)特?zé)o人機(jī)視角,這個(gè)數(shù)據(jù)集是發(fā)展自動(dòng)駕駛技術(shù)的重要一步。

其它

  • Pascal3D+:Pascal3D+ 是PASCAL VOC 2022 的擴(kuò)展,通過為圖像提供更豐富和多樣化的標(biāo)注來克服以前數(shù)據(jù)集的局限性。Pascal3D+通過為12個(gè)剛性目標(biāo)類別(如汽車、公共汽車、自行車)提供3D姿勢(shì)標(biāo)注,并從ImageNet 添加更多圖像,實(shí)現(xiàn)了高度的可變性。
  • TT 100K:清華大學(xué)-騰訊100K 解決了在現(xiàn)實(shí)駕駛條件下檢測(cè)和分類交通標(biāo)志的挑戰(zhàn)。它提供了100,000張圖像,包括30,000個(gè)交通標(biāo)志實(shí)例。除了大規(guī)模的數(shù)據(jù)大小外,高分辨率的圖像涵蓋了各種照明和天氣條件,使其對(duì)于交通標(biāo)志識(shí)別的訓(xùn)練和驗(yàn)證具有魯棒性。
  • Mapillary Vistas :由于2017年提出,主要旨在對(duì)街景進(jìn)行語義分割。該數(shù)據(jù)集包含25,000張圖像,標(biāo)有66個(gè)目標(biāo)類別,并包括37個(gè)類別的實(shí)例特定標(biāo)注。它包含來自不同天氣、時(shí)間和幾何位置的圖像,有助于減輕對(duì)特定區(qū)域或條件的偏見。

預(yù)測(cè)、規(guī)劃和控制數(shù)據(jù)集

預(yù)測(cè)、規(guī)劃和控制數(shù)據(jù)集是促進(jìn)訓(xùn)練和評(píng)估駕駛系統(tǒng)的基礎(chǔ),用于預(yù)測(cè)交通動(dòng)態(tài)、行人移動(dòng)和其他影響駕駛決策的重要因素。通過仿真各種駕駛場(chǎng)景,它們使自動(dòng)駕駛車輛能夠做出明智的決策,穿越復(fù)雜的環(huán)境,并在道路上保持安全和高效。因此,作者根據(jù)數(shù)據(jù)大小、模態(tài)和引用數(shù)量詳細(xì)展示與這些任務(wù)相關(guān)的幾個(gè)高影響力的數(shù)據(jù)集。將預(yù)測(cè)、規(guī)劃和控制數(shù)據(jù)集總結(jié)為任務(wù)特定和多任務(wù)兩組。

任務(wù)特定數(shù)據(jù)集:

  • highD。基于無人機(jī)的highD 數(shù)據(jù)集提供了德國高速公路上自然車輛軌跡的大規(guī)模收集,包含110,000輛汽車和卡車的后處理軌跡。該數(shù)據(jù)集旨在克服現(xiàn)有基于場(chǎng)景的安全驗(yàn)證測(cè)量方法的局限性,這些方法通常無法捕捉道路用戶的自然行為或包含具有足夠質(zhì)量的所有相關(guān)數(shù)據(jù)。
  • PIE。由提出的行人意圖估計(jì)(PIE)數(shù)據(jù)集在理解城市環(huán)境中的行人行為方面取得了重大進(jìn)展。它包含在多倫多市中心記錄的超過6小時(shí)的行車錄像,涵蓋了各種光照條件。PIE數(shù)據(jù)集提供了對(duì)感知和視覺推理的豐富標(biāo)注,包括帶有遮擋標(biāo)志的邊界框、過街意圖置信度以及行人行為的文本標(biāo)簽。長(zhǎng)時(shí)間的連續(xù)序列和標(biāo)注有助于多個(gè)任務(wù),如軌跡預(yù)測(cè)和行人意圖預(yù)測(cè)。
  • USyd。USyd 在沒有交通信號(hào)燈的城市交叉口背景下推動(dòng)了駕駛員意圖預(yù)測(cè)的進(jìn)展,這在城市設(shè)置中很常見,由于缺乏明確的道路規(guī)則和信號(hào),構(gòu)成了一項(xiàng)挑戰(zhàn)。該數(shù)據(jù)集包括超過23,000輛車穿越五個(gè)不同的交叉口的數(shù)據(jù),使用車載LiDAR跟蹤系統(tǒng)收集。數(shù)據(jù)模態(tài)包括詳盡無遺的提供了橫向和縱向坐標(biāo)、航向和速度的車輛軌跡。這些信息對(duì)于預(yù)測(cè)駕駛行為至關(guān)重要,考慮到人類駕駛模式中固有的不確定性。
  • Argoverse。Argoverse 是3D目標(biāo)跟蹤和運(yùn)動(dòng)預(yù)測(cè)中的一個(gè)關(guān)鍵數(shù)據(jù)集。Argoverse提供了來自7個(gè)相機(jī)、前視雙目圖像和LiDAR點(diǎn)云的360°圖像。記錄的數(shù)據(jù)涵蓋了來自290km映射車道線的300,000多條車輛軌跡。借助豐富的傳感器數(shù)據(jù)和語義地圖,Argoverse對(duì)于推動(dòng)預(yù)測(cè)系統(tǒng)的研究和開發(fā)至關(guān)重要。
  • inD。inD 的重要性在于它大規(guī)模、高質(zhì)量且多樣化的軌跡數(shù)據(jù),對(duì)于道路用戶預(yù)測(cè)模型和城市交叉口環(huán)境中自動(dòng)車輛的基于場(chǎng)景的安全驗(yàn)證至關(guān)重要。它涵蓋了大約11,500條不同的道路用戶軌跡,例如車輛、自行車和行人。這些軌跡的定位誤差小于0.1米,對(duì)于數(shù)據(jù)的可靠性至關(guān)重要。
  • PePscenes。PePscenes 解決了在動(dòng)態(tài)駕駛環(huán)境中理解和預(yù)測(cè)行人動(dòng)作的需求。該數(shù)據(jù)集通過添加每幀2D/3D邊界框和行為標(biāo)注,重點(diǎn)關(guān)注行人過馬路行為,增強(qiáng)了nuScenes 數(shù)據(jù)集。的一個(gè)關(guān)鍵屬性是結(jié)合各種數(shù)據(jù)類型,包括語義地圖、場(chǎng)景圖像、軌跡和自車狀態(tài),這對(duì)于創(chuàng)建能夠理解復(fù)雜交通場(chǎng)景的強(qiáng)大模型至關(guān)重要。
  • openDD。openDD 數(shù)據(jù)集專注于分析和預(yù)測(cè)環(huán)狀交叉口周圍的交通場(chǎng)景,這些場(chǎng)景復(fù)雜且不受交通信號(hào)燈約束。它是在使用高分辨率(4K)的無人機(jī)捕獲的圖像的基礎(chǔ)上創(chuàng)建的,跨足了來自501次單獨(dú)飛行的62小時(shí)軌跡數(shù)據(jù)。該數(shù)據(jù)集不僅包含軌跡,還包括描述道路拓?fù)浣Y(jié)構(gòu)的shapefiles和可擴(kuò)展標(biāo)注語言(XML)文件,以及每個(gè)底層交叉口的參考圖像。
  • nuPlan。nuPlan 是自動(dòng)駕駛中世界上第一個(gè)閉環(huán)機(jī)器學(xué)習(xí)規(guī)劃基準(zhǔn)。這個(gè)多模態(tài)數(shù)據(jù)集包括來自美國和亞洲四個(gè)城市的約1,500小時(shí)的人類駕駛數(shù)據(jù),展示了不同的交通模式,如合并、變道、與騎自行車和行人的互動(dòng)以及在施工區(qū)駕駛。nuPlan數(shù)據(jù)集的這些特征考慮了實(shí)際駕駛的動(dòng)態(tài)和互動(dòng)性質(zhì),使其更適合進(jìn)行更真實(shí)的評(píng)估。
  • exiD。 exiD 軌跡數(shù)據(jù)集是2022年提出的,對(duì)高度交互的高速公路場(chǎng)景具有重要意義。它利用無人機(jī)記錄交通情況,減少對(duì)交通的影響,并確保高數(shù)據(jù)質(zhì)量和效率。這個(gè)基于無人機(jī)的數(shù)據(jù)集在捕捉各種交互中的多樣性方面超過了先前的數(shù)據(jù)集,特別是涉及高速入口和出口的車道線變更。
  • MONA。Munich Motion Dataset of Natural Driving (MONA) 是一個(gè)龐大的數(shù)據(jù)集,包含來自130小時(shí)視頻的702,000條軌跡,覆蓋了具有多個(gè)車道線的城市道路、市區(qū)高速公路以及它們的過渡。這個(gè)數(shù)據(jù)集展示了0.51米的平均整體位置精度,展示了使用高度精確的定位和LiDAR傳感器收集數(shù)據(jù)的質(zhì)量。

多任務(wù)數(shù)據(jù)集:

  • INTERACTION。 INTERACTION 數(shù)據(jù)集涵蓋了多樣、復(fù)雜和關(guān)鍵的駕駛場(chǎng)景,結(jié)合了全面的語義地圖,使其成為一個(gè)多功能平臺(tái),可用于多種任務(wù),如運(yùn)動(dòng)預(yù)測(cè)、模仿學(xué)習(xí)以及決策和規(guī)劃的驗(yàn)證。它包括不同國家的數(shù)據(jù),進(jìn)一步提高了對(duì)不同文化駕駛行為進(jìn)行分析的魯棒性,這對(duì)全球自動(dòng)駕駛的發(fā)展至關(guān)重要。
  • BLVD。 BLVD 基準(zhǔn)有助于動(dòng)態(tài)4D(3D+時(shí)間)跟蹤、5D(4D+交互)交互事件識(shí)別和意圖預(yù)測(cè)等任務(wù),這些對(duì)于更深入理解交通場(chǎng)景至關(guān)重要。BLVD提供了來自不同交通場(chǎng)景的約120,000幀,包括目標(biāo)密度(低和高)和照明條件(白天和夜晚)。這些幀被完全標(biāo)注,包括大量的3D標(biāo)簽,涵蓋了車輛、行人和騎手。
  • rounD。由提出的rounD數(shù)據(jù)集對(duì)于場(chǎng)景分類、道路用戶行為預(yù)測(cè)和駕駛員建模至關(guān)重要,因?yàn)樗占嗽诃h(huán)狀交叉口的大量道路用戶軌跡。該數(shù)據(jù)集利用裝備有4K分辨率相機(jī)的無人機(jī)收集了超過六小時(shí)的視頻,記錄了超過13,000名道路用戶。廣泛記錄的交通情況和高質(zhì)量的錄像使rounD成為自動(dòng)駕駛中不可或缺的數(shù)據(jù)集,促進(jìn)了對(duì)公共交通中自然駕駛行為的研究。
  • Lyft Level 5。Lyft Level 5 是迄今為止最大規(guī)模的用于運(yùn)動(dòng)預(yù)測(cè)的自動(dòng)駕駛數(shù)據(jù)集之一,擁有超過1,000小時(shí)的數(shù)據(jù)。它包括17,000個(gè)25秒長(zhǎng)的場(chǎng)景,一個(gè)具有超過15,000個(gè)人工標(biāo)注的高清語義地圖,8,500個(gè)車道線段和該區(qū)域的高分辨率航拍圖像。它支持多個(gè)任務(wù),如運(yùn)動(dòng)預(yù)測(cè)、運(yùn)動(dòng)規(guī)劃和仿真。詳細(xì)標(biāo)注的眾多多模態(tài)數(shù)據(jù)使Lyft Level 5數(shù)據(jù)集成為預(yù)測(cè)和規(guī)劃的重要基準(zhǔn)。
  • LOKI。LOKI 代表著長(zhǎng)期和關(guān)鍵意圖(Long Term and Key Intentions),是多agents軌跡預(yù)測(cè)和意圖預(yù)測(cè)中的一個(gè)重要數(shù)據(jù)集。LOKI通過提供大規(guī)模、多樣化的數(shù)據(jù),包括行人和車輛在內(nèi),彌補(bǔ)了智能和安全關(guān)鍵系統(tǒng)的一個(gè)關(guān)鍵空白。該數(shù)據(jù)集通過利用帶有相應(yīng)LiDAR點(diǎn)云的相機(jī)圖像,提供了交通場(chǎng)景的多維視圖,使其成為社區(qū)中非常靈活的資源。
  • SceNDD。SceNDD 引入了真實(shí)駕駛場(chǎng)景,展示了多樣的軌跡和駕駛行為,可用于開發(fā)高效的運(yùn)動(dòng)規(guī)劃和路徑跟蹤算法。它還適用于自動(dòng)駕駛汽車不同配置,并包含可以分解為時(shí)間戳進(jìn)行詳細(xì)分析的預(yù)測(cè)時(shí)間視角。總的來說,SceNDD數(shù)據(jù)集是自動(dòng)駕駛預(yù)測(cè)和規(guī)劃研究的重要補(bǔ)充。
  • DeepAccident。 合成數(shù)據(jù)集DeepAccident 是第一個(gè)為自動(dòng)駕駛汽車提供直接且可解釋的安全評(píng)估指標(biāo)的工作。這個(gè)包含57,000個(gè)帶標(biāo)注幀和285,000個(gè)帶標(biāo)注樣本的大規(guī)模數(shù)據(jù)集支持端到端的運(yùn)動(dòng)和事故預(yù)測(cè),對(duì)于提高自動(dòng)駕駛系統(tǒng)在避免碰撞和確保安全方面的預(yù)測(cè)能力至關(guān)重要。此外,這個(gè)多模態(tài)數(shù)據(jù)集對(duì)于各種基于V2X的感知任務(wù),如3D目標(biāo)檢測(cè)、跟蹤和鳥瞰(BEV)語義分割,都是多才多藝的。
  • Talk2BEV。創(chuàng)新的數(shù)據(jù)集Talk2BEV 推動(dòng)了從傳統(tǒng)的自動(dòng)駕駛?cè)蝿?wù)轉(zhuǎn)向在自動(dòng)駕駛背景下將大型視覺語言模型與BEV地圖相結(jié)合的趨勢(shì)。Talk2BEV利用了視覺語言模型的最新進(jìn)展,允許對(duì)道路場(chǎng)景進(jìn)行更靈活、全面的理解。該數(shù)據(jù)集包含超過20,000個(gè)多樣的問題類別,全部由人工標(biāo)注,并源自。所提出的Talk2BEV-Bench基準(zhǔn)可用于多項(xiàng)任務(wù),包括決策制定、視覺和空間推理以及意圖預(yù)測(cè)。
  • V2X-Seq(預(yù)測(cè))。軌跡預(yù)測(cè)數(shù)據(jù)集是現(xiàn)實(shí)世界數(shù)據(jù)集V2X-Seq 的重要組成部分,包含約80,000個(gè)基礎(chǔ)設(shè)施視圖和80,000個(gè)車輛視圖場(chǎng)景,以及額外的50,000個(gè)協(xié)同視圖場(chǎng)景。這種感知領(lǐng)域的多樣性為研究和分析車輛基礎(chǔ)設(shè)施協(xié)同(VIC)軌跡預(yù)測(cè)提供了更全面的視角。

端到端數(shù)據(jù)集

端到端已經(jīng)成為自動(dòng)駕駛中的一個(gè)趨勢(shì),作為模塊化架構(gòu)的替代。一些多功能數(shù)據(jù)集(如nuScenes 和Waymo )或仿真器(如CARLA )提供了開發(fā)端到端自動(dòng)駕駛的機(jī)會(huì)。同時(shí),一些工作提出了專門用于端到端駕駛的數(shù)據(jù)集。

  • DDD17。 DDD17 數(shù)據(jù)集因其使用事件型相機(jī)而顯著,該相機(jī)提供標(biāo)準(zhǔn)主動(dòng)像素傳感器(APS)圖像和動(dòng)態(tài)視覺傳感器(DVS)時(shí)間對(duì)比事件的同時(shí)流,提供了視覺數(shù)據(jù)的獨(dú)特組合。此外,DDD17捕捉了包括高速公路和城市駕駛在內(nèi)的各種駕駛場(chǎng)景,以及不同的天氣條件,為訓(xùn)練和測(cè)試端到端自動(dòng)駕駛算法提供詳盡而現(xiàn)實(shí)的數(shù)據(jù)。

在本調(diào)查中總結(jié)的其他數(shù)據(jù)集顯示在表IV、表V、表VI中。

標(biāo)注過程

自動(dòng)駕駛算法的成功和可靠性不僅依賴于大量的數(shù)據(jù),還依賴于高質(zhì)量的標(biāo)注。本節(jié)首先解釋了標(biāo)注數(shù)據(jù)的方法。此外分析了確保標(biāo)注質(zhì)量的最重要方面。

標(biāo)注是如何創(chuàng)建的

不同的自動(dòng)駕駛?cè)蝿?wù)需要特定類型的標(biāo)注。例如,目標(biāo)檢測(cè)需要實(shí)例的邊界框標(biāo)簽,分割基于像素或點(diǎn)級(jí)別的標(biāo)注,對(duì)于軌跡預(yù)測(cè)來說,標(biāo)注連續(xù)的軌跡至關(guān)重要。另一方面,如下圖11所示,標(biāo)注流程可以分為三種類型:手動(dòng)標(biāo)注、半自動(dòng)標(biāo)注和全自動(dòng)標(biāo)注。在本節(jié)詳細(xì)說明了不同類型標(biāo)注的標(biāo)注方法。

標(biāo)注分割數(shù)據(jù)。標(biāo)注分割數(shù)據(jù)的目標(biāo)是為圖像中的每個(gè)像素或LiDAR幀中的每個(gè)點(diǎn)分配一個(gè)標(biāo)簽,以指示它屬于哪個(gè)目標(biāo)或區(qū)域。在標(biāo)注之后,屬于同一目標(biāo)的所有像素都用相同的類別進(jìn)行標(biāo)注。對(duì)于手動(dòng)標(biāo)注過程,標(biāo)注者首先在目標(biāo)周圍畫出邊界,然后填充區(qū)域或直接涂抹像素。然而,以這種方式生成像素/點(diǎn)級(jí)別標(biāo)注是昂貴且低效的。

許多研究提出了全自動(dòng)或半自動(dòng)的標(biāo)注方法以提高標(biāo)注效率。提出了一種基于弱監(jiān)督學(xué)習(xí)的完全自動(dòng)標(biāo)注方法,用于分割圖像中提出的可行駛路徑。[265]是一種半自動(dòng)標(biāo)注方法,利用目標(biāo)先驗(yàn)生成分割mask。之后,[266]提出了一種考慮20個(gè)類別的半自動(dòng)方法。Polygon-RNN++ 提出了一種交互式分割標(biāo)注工具,遵循[268]的思路。[269]不使用圖像信息生成像素級(jí)標(biāo)簽,而是將3D信息轉(zhuǎn)移到2D圖像領(lǐng)域生成語義分割標(biāo)注。對(duì)于標(biāo)注3D數(shù)據(jù),[270]提出了一個(gè)圖像輔助標(biāo)注流程。[271]利用主動(dòng)學(xué)習(xí)選擇少量點(diǎn)并形成最小訓(xùn)練集,以避免標(biāo)注整個(gè)點(diǎn)云場(chǎng)景。[272]引入了一種使用半/弱監(jiān)督學(xué)習(xí)進(jìn)行標(biāo)注的高效標(biāo)注框架,以標(biāo)注室外點(diǎn)云。

標(biāo)注2D/3D邊界框。邊界框標(biāo)注的質(zhì)量直接影響了自動(dòng)駕駛車輛感知系統(tǒng)(如目標(biāo)檢測(cè))在現(xiàn)實(shí)場(chǎng)景中的有效性和魯棒性。標(biāo)注過程通常涉及使用矩形框標(biāo)注圖像或使用長(zhǎng)方體標(biāo)注點(diǎn)云,以精確包圍感興趣的目標(biāo)。

Labelme 是一種專注于為目標(biāo)檢測(cè)標(biāo)注圖像的工具。然而,由專業(yè)標(biāo)注者生成邊界框面臨與手動(dòng)分割標(biāo)注相同的問題。Wang等人 提出了一種基于開源視頻標(biāo)注系統(tǒng)VATIC的半自動(dòng)視頻標(biāo)注工具。[275]是另一種用于自動(dòng)駕駛場(chǎng)景的視頻標(biāo)注工具。與白天標(biāo)注相比,處理夜間的邊界框標(biāo)注更具挑戰(zhàn)性。[276]介紹了一種利用軌跡的半自動(dòng)方法來解決這個(gè)問題。

與2D標(biāo)注相比,3D邊界框包含了更豐富的空間信息,如準(zhǔn)確的位置、目標(biāo)的寬度、長(zhǎng)度、高度以及空間中的方向。因此,標(biāo)注高質(zhì)量的3D標(biāo)注需要一個(gè)更復(fù)雜的框架。Meng等人 應(yīng)用了一個(gè)兩階段的弱監(jiān)督學(xué)習(xí)框架,使用人為循環(huán)來標(biāo)注LiDAR點(diǎn)云。ViT-WSS3D 通過對(duì)LiDAR點(diǎn)和相應(yīng)弱標(biāo)簽之間的全局交互建模來生成偽邊界框。Apolloscape 采用了類似于的標(biāo)注流程,包括3D標(biāo)注和2D標(biāo)注兩個(gè)分支,分別處理靜態(tài)背景/目標(biāo)和移動(dòng)目標(biāo)。3D BAT 開發(fā)了一個(gè)標(biāo)注工具箱,以輔助在半自動(dòng)標(biāo)注中獲取2D和3D標(biāo)簽。

標(biāo)注軌跡。軌跡本質(zhì)上是一系列點(diǎn),映射了目標(biāo)隨時(shí)間的路徑,反映了空間和時(shí)間信息。為自動(dòng)駕駛標(biāo)注軌跡數(shù)據(jù)的過程涉及對(duì)駕駛環(huán)境中各種實(shí)體的路徑或運(yùn)動(dòng)模式進(jìn)行標(biāo)注,如車輛、行人和騎車者。通常,標(biāo)注過程依賴于目標(biāo)檢測(cè)和跟蹤的結(jié)果。

在軌跡標(biāo)注的先前工作中,[280]在線生成了用于演習(xí)的動(dòng)作,并被標(biāo)注到軌跡中。[281]包括一個(gè)眾包步驟,后跟一個(gè)專家集成的精確過程。[282]開發(fā)了一個(gè)主動(dòng)學(xué)習(xí)框架來標(biāo)注駕駛軌跡。精確地預(yù)測(cè)行人的運(yùn)動(dòng)模式對(duì)于駕駛安全至關(guān)重要。Styles等人 引入了一種可擴(kuò)展的機(jī)器標(biāo)注方案,用于無需人工努力的行人軌跡標(biāo)注。

在合成數(shù)據(jù)上進(jìn)行標(biāo)注。由于在真實(shí)世界數(shù)據(jù)上進(jìn)行手動(dòng)標(biāo)注的費(fèi)時(shí)昂貴,通過計(jì)算機(jī)圖形和仿真器生成的合成數(shù)據(jù)提供了解決這個(gè)問題的替代方法。由于數(shù)據(jù)生成過程是可控的,場(chǎng)景中每個(gè)目標(biāo)的屬性(如位置、大小和運(yùn)動(dòng))都是已知的,因此可以自動(dòng)且準(zhǔn)確地標(biāo)注合成數(shù)據(jù)。

生成的合成場(chǎng)景被設(shè)計(jì)成模仿真實(shí)世界的條件,包括多個(gè)目標(biāo)、各種地貌、天氣條件和光照變化。為了實(shí)現(xiàn)這個(gè)目標(biāo),一些研究人員利用了《俠盜獵車手5》(GTA5)游戲引擎構(gòu)建了數(shù)據(jù)集 。[284]基于多個(gè)游戲構(gòu)建了一個(gè)實(shí)時(shí)系統(tǒng),用于生成各種自動(dòng)駕駛?cè)蝿?wù)的標(biāo)注。SHIFT 、CAOS 和V2XSet 是基于CARLA 仿真器創(chuàng)建的,而不是應(yīng)用游戲視頻。與[11]相比,V2X-Sim 研究了使用多個(gè)仿真器 ,為V2X感知任務(wù)生成數(shù)據(jù)集。CODD 進(jìn)一步利用生成用于合作駕駛的3D LiDAR點(diǎn)云。其他工作利用Unity開發(fā)平臺(tái) 生成合成數(shù)據(jù)集。

標(biāo)注的質(zhì)量

現(xiàn)有基于監(jiān)督學(xué)習(xí)的自動(dòng)駕駛算法依賴于大量的標(biāo)注數(shù)據(jù)。然而,在質(zhì)量低的標(biāo)注上進(jìn)行訓(xùn)練可能會(huì)對(duì)自動(dòng)駕駛車輛的安全性和可靠性產(chǎn)生負(fù)面影響。因此,確保標(biāo)注的質(zhì)量對(duì)于提高在復(fù)雜的現(xiàn)實(shí)環(huán)境中行駛時(shí)的準(zhǔn)確性是至關(guān)重要的。根據(jù)研究,標(biāo)注質(zhì)量受到多個(gè)因素的影響,例如一致性、正確性、精度和驗(yàn)證。一致性是評(píng)估標(biāo)注質(zhì)量的首要標(biāo)準(zhǔn)。它涉及在整個(gè)數(shù)據(jù)集上保持一致性,對(duì)于避免在訓(xùn)練在這些數(shù)據(jù)上的模型時(shí)產(chǎn)生混淆至關(guān)重要。例如,如果特定類型的車輛被標(biāo)注為汽車,那么在所有其他情況下,它應(yīng)該被一致地進(jìn)行相同的標(biāo)注。標(biāo)注精度是另一個(gè)重要的指標(biāo),它指的是標(biāo)簽是否與目標(biāo)或場(chǎng)景的實(shí)際狀態(tài)相匹配。相比之下,正確性強(qiáng)調(diào)標(biāo)注的數(shù)據(jù)是否適用于數(shù)據(jù)集的目的和標(biāo)注準(zhǔn)則。在標(biāo)注之后,驗(yàn)證標(biāo)注數(shù)據(jù)的準(zhǔn)確性和完整性是至關(guān)重要的。這個(gè)過程可以通過專家或算法的手動(dòng)審查來完成。驗(yàn)證有助于在問題影響自動(dòng)駕駛車輛性能之前有效地防止數(shù)據(jù)集中的問題,從而減少潛在的安全風(fēng)險(xiǎn)。[288]提出了一種面向數(shù)據(jù)的驗(yàn)證方法,適用于專家標(biāo)注的數(shù)據(jù)集。

KITTI 的一個(gè)標(biāo)注失敗案例如下圖12所示。在相應(yīng)的圖像和LiDAR點(diǎn)云中說明了真值邊界框(藍(lán)色)。在圖像的左側(cè),汽車的標(biāo)注(用紅色圈出)不準(zhǔn)確,因?yàn)樗窗麄€(gè)汽車目標(biāo)。此外,盡管相機(jī)和LiDAR清晰捕捉到兩輛汽車(綠色長(zhǎng)方體突出顯示),但它們未被標(biāo)注。

數(shù)據(jù)分析

這一部分將詳細(xì)系統(tǒng)地從不同角度分析數(shù)據(jù)集,例如全球數(shù)據(jù)的分布,時(shí)間趨勢(shì),以及數(shù)據(jù)分布。

全球分布

在圖13中展示了191個(gè)自動(dòng)駕駛數(shù)據(jù)集的全球分布概況。該圖表顯示美國處于領(lǐng)先地位,擁有40個(gè)數(shù)據(jù)集(占比21%),突顯了其在自動(dòng)駕駛領(lǐng)域的領(lǐng)導(dǎo)地位。德國擁有24個(gè)數(shù)據(jù)集,反映了其強(qiáng)大的汽車工業(yè)和對(duì)自動(dòng)駕駛技術(shù)推動(dòng)的影響。中國緊隨其后,擁有16個(gè)數(shù)據(jù)集,表明中國在這一領(lǐng)域的興趣和投資。另一個(gè)值得注意的點(diǎn)是,全球范圍內(nèi)有11個(gè)數(shù)據(jù)集,歐洲地區(qū)(不包括德國)有24個(gè)數(shù)據(jù)集。這種多樣化的區(qū)域分布增強(qiáng)了收集到的數(shù)據(jù)的穩(wěn)健性,并突顯了研究界和工業(yè)界的國際合作和努力。

另一方面,盡管較小的部分代表了包括加拿大、韓國、英國、日本和新加坡在內(nèi)的其他國家,這些國家都是擁有堅(jiān)實(shí)技術(shù)背景和積累的發(fā)達(dá)國家——這一統(tǒng)計(jì)數(shù)據(jù)反映了極端的地區(qū)偏見。美國、西歐和東亞的主導(dǎo)地位導(dǎo)致了自動(dòng)駕駛系統(tǒng)在這些地區(qū)典型的環(huán)境條件下過度擬合的偏見。這種偏見可能導(dǎo)致自動(dòng)駕駛車輛在各種或未知的地區(qū)和情況下無法正常運(yùn)行。因此,引入來自更廣泛國家和地區(qū)的數(shù)據(jù),如非洲,可以促進(jìn)自動(dòng)駕駛車輛的全面發(fā)展。

此外,由CARLA 等仿真器生成的35個(gè)合成數(shù)據(jù)集占18.32%。由于實(shí)際駕駛環(huán)境錄制的局限性,這些合成數(shù)據(jù)集克服了這些缺點(diǎn),對(duì)于開發(fā)更強(qiáng)大和可靠的駕駛系統(tǒng)至關(guān)重要。

感知數(shù)據(jù)集的時(shí)間趨勢(shì)

在圖10中,作者介紹了從2007年到2023年(截至本文撰寫時(shí))具有前50影響分?jǐn)?shù)的感知數(shù)據(jù)集的時(shí)間趨勢(shì)概覽。這些數(shù)據(jù)集根據(jù)它們的數(shù)據(jù)來源領(lǐng)域進(jìn)行了顏色編碼,并且合成數(shù)據(jù)集用紅色外框標(biāo)注,清晰地展示了朝著多樣化數(shù)據(jù)收集策略的進(jìn)展。一個(gè)明顯的趨勢(shì)顯示了多年來數(shù)據(jù)集的數(shù)量和種類的增加,表明隨著自動(dòng)駕駛領(lǐng)域的不斷發(fā)展,需要高質(zhì)量數(shù)據(jù)集。

總體而言,由于自動(dòng)駕駛汽車有效而準(zhǔn)確地感知周圍環(huán)境的能力的重要性,大多數(shù)數(shù)據(jù)集提供了來自裝備在自車上的傳感器的感知視角(車載)。另一方面,由于實(shí)際世界數(shù)據(jù)成本高昂,一些研究人員提出了高影響力的合成數(shù)據(jù)集,如VirtualKITTI (2016年),以減輕對(duì)實(shí)際數(shù)據(jù)的依賴。在仿真器的有效性的推動(dòng)下,近年來發(fā)布了許多新穎的合成數(shù)據(jù)集。在時(shí)間線上,像DAIR-V2X (2021年)這樣的V2X數(shù)據(jù)集也呈現(xiàn)出向合作駕駛系統(tǒng)的趨勢(shì)。此外,由于無人機(jī)提供的非遮擋視角,基于無人機(jī)的數(shù)據(jù)集,如2018年發(fā)布的UAVDT ,在推動(dòng)感知系統(tǒng)方面發(fā)揮著關(guān)鍵作用。

數(shù)據(jù)分布

在圖14中介紹了這些數(shù)據(jù)集每幀目標(biāo)數(shù)量的情況。值得注意的是,Waymo  展示了大量幀數(shù)少于50個(gè)目標(biāo)的情況,同時(shí)在圖表中占據(jù)了廣泛的位置,說明了它在每幀中從低到高的目標(biāo)密度涵蓋了各種場(chǎng)景。相反,KITTI  展示了一個(gè)更為受限的分布和有限的數(shù)據(jù)規(guī)模。Argoverse 2  具有大量幀數(shù)的高目標(biāo)計(jì)數(shù),其峰值約為70,這表明了它在一般情況下復(fù)雜的環(huán)境表示。對(duì)于 ONCE ,其目標(biāo)密度均勻地分布在支持的感知范圍內(nèi)。像 nuScenes  和 ZOD  這樣的數(shù)據(jù)集展示了類似的曲線,快速上升然后緩慢下降,暗示了環(huán)境復(fù)雜性的適度水平,每幀中目標(biāo)數(shù)量具有相當(dāng)?shù)目勺冃浴?/p>

除了場(chǎng)景中目標(biāo)數(shù)量之外,基于與自車的距離的目標(biāo)分布是揭示數(shù)據(jù)集的多樣性和顯著差異的另一個(gè)重要點(diǎn),如下圖15所示。Waymo 數(shù)據(jù)集展示了大量標(biāo)注目標(biāo)在近場(chǎng)到中場(chǎng)場(chǎng)景中。相反,Argoverse 2 和 ZOD 展示了更寬的檢測(cè)范圍,有些幀甚至包括超過200米的邊界框。nuScenes 的曲線意味著它在較短范圍內(nèi)的目標(biāo)非常豐富,這在城市駕駛場(chǎng)景中是典型的。然而,隨著距離的增加,nuScenes 數(shù)據(jù)集的目標(biāo)數(shù)量迅速減少。ONCE 數(shù)據(jù)集覆蓋了目標(biāo)在不同距離上更均勻的分布,而KITTI 數(shù)據(jù)集更注重近距離檢測(cè)。

討論與未來工作

本文主要關(guān)注分析現(xiàn)有數(shù)據(jù)集,這些數(shù)據(jù)集通常包含豐富的視覺數(shù)據(jù),并旨在完成模塊化pipeline中的任務(wù)。然而,隨著技術(shù)的迅速發(fā)展,尤其是大語言模型的出色性能,下一代自動(dòng)駕駛數(shù)據(jù)集出現(xiàn)了許多新的趨勢(shì),提出了新的挑戰(zhàn)和需求。

端到端駕駛數(shù)據(jù)集。與模塊化設(shè)計(jì)的自動(dòng)駕駛pipeline相比,端到端架構(gòu)簡(jiǎn)化了整體設(shè)計(jì)過程并減少了集成復(fù)雜性。UniAD  的成功驗(yàn)證了端到端模型的潛在能力。然而,端到端自動(dòng)駕駛的數(shù)據(jù)集數(shù)量有限 。因此,引入專注于端到端駕駛的數(shù)據(jù)集對(duì)推動(dòng)自動(dòng)駕駛車輛的發(fā)展至關(guān)重要。另一方面,在數(shù)據(jù)引擎中實(shí)施自動(dòng)標(biāo)注pipeline可以顯著促進(jìn)端到端駕駛框架和數(shù)據(jù)的開發(fā) 。

自動(dòng)駕駛數(shù)據(jù)集中引入語言。視覺語言模型(VLMs)最近在許多領(lǐng)域取得了令人印象深刻的進(jìn)展。其在為視覺任務(wù)提供語言信息方面的固有優(yōu)勢(shì)使得自動(dòng)駕駛系統(tǒng)更具解釋性和可靠性。強(qiáng)調(diào)了多模式大語言模型在各種自動(dòng)駕駛?cè)蝿?wù)中的重要作用,例如感知 ,運(yùn)動(dòng)規(guī)劃 和控制 。下面表 VII 中展示了包含語言標(biāo)簽的自動(dòng)駕駛數(shù)據(jù)集。總體而言,將語言納入自動(dòng)駕駛數(shù)據(jù)集是未來數(shù)據(jù)集發(fā)展的趨勢(shì)。

圖片

通過VLMs生成數(shù)據(jù)。正如所提到的,VLMs的強(qiáng)大能力可以用于生成自動(dòng)駕駛數(shù)據(jù)。例如,DriveGAN  通過在沒有監(jiān)督的情況下解開不同組件來生成高質(zhì)量的自動(dòng)駕駛數(shù)據(jù)。此外,由于世界模型理解駕駛環(huán)境的能力,一些工作探索了使用世界模型生成高質(zhì)量駕駛視頻。DriveDreamer  作為從真實(shí)場(chǎng)景中派生的先驅(qū)性工作,解決了游戲環(huán)境或仿真設(shè)置的局限性。

域自適應(yīng)。域自適應(yīng)是開發(fā)自動(dòng)駕駛車輛時(shí)面臨的關(guān)鍵挑戰(zhàn) ,它指的是在一個(gè)數(shù)據(jù)集(源域)上訓(xùn)練的模型在另一個(gè)數(shù)據(jù)集(目標(biāo)域)上能夠穩(wěn)定執(zhí)行的能力。這個(gè)挑戰(zhàn)表現(xiàn)在多個(gè)方面,如環(huán)境條件的多樣性 、傳感器設(shè)置  或從合成到真實(shí)的轉(zhuǎn)換 。

結(jié)論

本文對(duì)200多個(gè)現(xiàn)有的自動(dòng)駕駛數(shù)據(jù)集進(jìn)行了詳盡而系統(tǒng)的回顧和分析。從傳感器類型和模態(tài)、感知領(lǐng)域以及與自動(dòng)駕駛數(shù)據(jù)集相關(guān)的任務(wù)開始。引入了一個(gè)稱為"影響分?jǐn)?shù)"的新型評(píng)估指標(biāo),以驗(yàn)證感知數(shù)據(jù)集的影響力和重要性。隨后,展示了幾個(gè)高影響力數(shù)據(jù)集,涉及感知、預(yù)測(cè)、規(guī)劃、控制和端到端自動(dòng)駕駛。此外,解釋了自動(dòng)駕駛數(shù)據(jù)集的標(biāo)注方法,并調(diào)查了影響標(biāo)注質(zhì)量的因素。

此外,描述了收集到的數(shù)據(jù)集的年代和地理分布,為理解當(dāng)前自動(dòng)駕駛數(shù)據(jù)集的發(fā)展提供了全面的視角。同時(shí),研究了幾個(gè)數(shù)據(jù)集的數(shù)據(jù)分布,為理解不同數(shù)據(jù)集之間的差異提供了一個(gè)具體的觀點(diǎn)。最后,討論了下一代自動(dòng)駕駛數(shù)據(jù)集的發(fā)展和趨勢(shì)。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-11-06 09:42:03

自動(dòng)駕駛數(shù)據(jù)

2023-04-28 09:24:50

自動(dòng)駕駛數(shù)據(jù)

2021-08-26 15:22:23

人工智能AI自動(dòng)駕駛

2022-08-29 09:15:54

自動(dòng)駕駛數(shù)據(jù)

2022-08-09 14:42:44

自動(dòng)駕駛算力

2021-09-27 15:10:39

人工智能AI自動(dòng)駕駛

2023-07-26 09:37:17

自動(dòng)駕駛研究

2021-12-24 13:28:15

自動(dòng)駕駛數(shù)據(jù)人工智能

2021-10-27 05:36:51

自動(dòng)駕駛人工智能AI

2021-11-26 05:40:56

自動(dòng)駕駛人工智能AI

2024-01-02 11:47:00

自動(dòng)駕駛數(shù)據(jù)

2024-08-29 10:20:00

3D自動(dòng)駕駛

2024-06-05 09:22:43

2023-09-07 10:20:38

自動(dòng)駕駛技術(shù)

2023-12-08 10:10:56

模型論文調(diào)研

2023-12-05 09:40:18

自動(dòng)駕駛數(shù)據(jù)

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2023-12-18 10:15:30

自動(dòng)駕駛自然語言

2020-03-27 22:15:52

自動(dòng)駕駛物聯(lián)網(wǎng)大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲欧美日韩一区二区 | 青青草网 | 国产精品一区二区三区久久 | 九色.com | 一区二区三区成人 | 亚洲视频在线观看 | 91在线资源 | 国产日韩久久 | 国产精品精品3d动漫 | 久久午夜精品 | 美国黄色毛片 | 毛片一级电影 | 日本亚洲精品 | 国产无套一区二区三区久久 | 亚洲色图插插插 | 日韩欧美二区 | 中文字幕日韩欧美一区二区三区 | 中国一级特黄视频 | 成人三级视频在线观看 | 日本免费在线 | 日韩毛片 | 欧美不卡一区二区三区 | 国产精品久久久久久久午夜片 | 黄色毛片在线看 | www.亚洲一区 | 精品一区二区三区在线视频 | 日韩精品免费视频 | 欧美福利专区 | jizz在线免费观看 | 久久99国产精一区二区三区 | 亚洲欧美日本在线 | 久久久久久国产精品三区 | 亚洲成人一区二区在线 | 国产精品三级久久久久久电影 | 亚洲女人的天堂 | 一本一道久久a久久精品综合蜜臀 | 亚洲精品福利在线 | 国产成人网 | 日本久久精品视频 | 中文福利视频 | 中文字幕在线视频精品 |