數據為王!如何通過數據一步步構建高效的自動駕駛算法?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
下一代自動駕駛技術期望依賴于智能感知、預測、規劃和低級別控制之間的專門集成和交互。自動駕駛算法性能的上限一直存在巨大的瓶頸,學術界和業界一致認為,克服瓶頸的關鍵在于以數據為中心的自動駕駛技術。AD仿真、閉環模型訓練和AD大數據引擎近期已經獲得了一些寶貴的經驗。然而,對于如何構建高效的以數據為中心的AD技術來實現AD算法的自進化和更好的AD大數據積累,缺乏系統的知識和深刻的理解。為了填補這一研究空白,這里將密切關注最新的數據驅動自動駕駛技術,重點是自動駕駛數據集的全面分類,主要包括里程碑、關鍵特征、數據采集設置等。此外我們從產業前沿對現有的基準閉環AD大數據pipeline進行了系統的回顧,包括閉環框架的過程、關鍵技術和實證研究。最后討論了未來的發展方向、潛在應用、局限性和關注點,以引起學術界和工業界的共同努力,推動自動駕駛的進一步發展。
總結來說,主要貢獻如下:
- 介紹了第一個按里程碑代、模塊化任務、傳感器套件和關鍵功能分類的自動駕駛數據集綜合分類法;
- 基于深度學習和生成人工智能模型,對最先進的閉環數據驅動自動駕駛pipeline和相關關鍵技術進行系統回顧;
- 給出了閉環大數據驅動pipeline在自動駕駛工業應用中如何工作的實證研究;
- 討論了當前pipeline和解決方案的優缺點,以及以數據為中心的自動駕駛未來的研究方向。
SOTA自動駕駛數據集:分類和發展
自動駕駛數據集的演變反映了該領域的技術進步和日益增長的雄心。20世紀末的早期進展院的AVT研究和加州大學伯克利分校的PATH計劃,為基本的傳感器數據奠定了基礎,但受到時代技術水平的限制。在過去的二十年里,在傳感器技術、計算能力和復雜的機器學習算法的進步的推動下,出現了重大的飛躍。2014年,美國汽車工程師學會(SAE)向公眾公布了一個系統化的六級(L0-L5)自動駕駛系統,該系統得到了自動駕駛研發進展的廣泛認可。在深度學習的推動下,基于計算機視覺的方法已經主導了智能感知。深度強化學習及其變體為智能規劃和決策提供了至關重要的改進。最近,大型語言模型(LLM)和視覺語言模型(VLM)展示了它們強大的場景理解、駕駛行為推理和預測以及智能決策能力,為自動駕駛的未來發展開辟了新的可能性。
自動駕駛數據集的里程碑式發展
圖2按照時間順序展示了開源自動駕駛數據集的里程碑式開發。顯著的進步導致主流數據集被分為三代,其特點是數據集的復雜性、數量、場景多樣性和標注粒度都有了顯著的飛躍,將該領域推向了技術成熟的新前沿。具體而言,橫軸表示開發時間軸。每行的側頭包括數據集名稱、傳感器模態、合適的任務、數據收集地點和相關挑戰。為了進一步比較不同世代的數據集,我們使用不同顏色的條形圖來可視化感知和預測/規劃數據集規模。早期階段,即2012年開始的第一代,由KITTI和Cityscapes牽頭,為感知任務提供了高分辨率圖像,是視覺算法基準進度的基礎。推進到第二代,NuScenes、Waymo、Argoverse 1等數據集引入了一種多傳感器方法,將車載攝像頭、高精地圖(HD Map)、激光雷達、雷達、GPS、IMU、軌跡、周圍物體的數據集成在一起,這對于全面的駕駛環境建模和決策過程至關重要。最近,NuPlan、Argoverse 2和Lyft L5顯著提高了影響標準,提供了前所未有的數據規模,并培育了一個有利于尖端研究的生態系統。這些數據集以其龐大的規模和多模態傳感器集成為特點,在開發感知、預測和規劃任務的算法方面發揮了重要作用,為先進的End2End或混合自動駕駛模型鋪平了道路。2024年,我們迎來了第三代自動駕駛數據集。在VLM、LLM和其他第三代人工智能技術的支持下,第三代數據集強調了行業致力于應對自動駕駛日益復雜的挑戰,如數據長尾分布問題、分布外檢測、角點案例分析等。
數據集采集、設置和關鍵功能
表1總結了具有高度影響力的感知數據集的數據采集和標注設置,包括駕駛場景、傳感器套件和標注,我們報告了數據集場景下天氣/時間/駕駛條件類別的總數,其中天氣通常包括晴天/多云/霧天/下雨/雪/其他(極端條件);一天中的時間通常包括上午、下午和晚上;駕駛條件通常包括城市街道、主干道、小街、農村地區、高速公路、隧道、停車場等。場景越多樣化,數據集就越強大。我們還報告了數據集收集的區域,表示為as(亞洲)、EU(歐洲)、NA(北美)、SA(南美)、AU(澳大利亞)、AF(非洲)。值得注意的是,Mapillary是通過AS/EU/NA/SA/AF/AF收集的,DAWN是從谷歌和必應圖像搜索引擎收集的。對于傳感器套件,我們研究了相機、激光雷達、GPS和IMU等。表1中的FV和SV分別是前視圖相機和街景相機的縮寫。360°全景攝像頭設置,通常由多個前視圖攝像頭、罕見視圖攝像頭和側視圖攝像頭組成。我們可以觀察到,隨著AD技術的發展,數據集中包含的傳感器類型和數量正在增加,數據模式也越來越多樣化。關于數據集標注,早期的數據集通常采用手動標注方法,而最近的NuPlan、Argoverse 2和DriveLM對AD大數據采用了自動標注技術。我們認為,從傳統的手動標注到自動標注的轉變是未來以數據為中心的自動駕駛的一大趨勢。
對于預測和規劃任務,我們在表2中總結了主流數據集的輸入/輸出分量、傳感器套件、場景長度和預測長度。對于運動預測/預測任務,輸入組件通常包括自車歷史軌跡、周圍代理歷史軌跡、高精地圖和交通狀態信息(即交通信號狀態、道路ID、停車標志等)。目標輸出是自車和/或周圍主體在短時間內的幾個最可能的軌跡(例如前5或前10軌跡)。運動預測任務通常采用滑動時間窗口設置,將整個場景劃分為幾個較短的時間窗口。例如,NuScenes采用過去2秒的GT據和高精地圖來預測下一個6秒的軌跡,而Argoverse 2采用歷史5秒的地面真相和高精地圖預測未來6秒的軌道。NuPlan、CARLA和ApoloScape是最受歡迎的規劃任務數據集。輸入組件包括自我/周圍車輛歷史軌跡、自我車輛運動狀態和駕駛場景表示。雖然NuPlan和ApoloScape是在現實世界中獲得的,但CARLA是一個模擬數據集。CARLA包含在不同城鎮的模擬駕駛過程中拍攝的道路圖像。每個道路圖像都帶有一個轉向角,它表示保持車輛正常行駛所需的調整。規劃的預測長度可以根據不同算法的要求而變化。
閉環數據驅動的自動駕駛系統
我們現在正從以前的軟件和算法定義的自動駕駛時代轉向新的鼓舞人心的大數據驅動和智能模型協同自動駕駛時代。閉環數據驅動系統旨在彌合AD算法訓練與其現實世界應用/部署之間的差距。與傳統的開環方法不同,在傳統開環方法中,模型是在從人類客戶駕駛或道路測試中收集的數據集上被動訓練的,閉環系統與真實環境動態交互。這種方法解決了分布變化的挑戰——從靜態數據集學習的行為可能無法轉化為真實世界駕駛場景的動態性質。閉環系統允許AV從互動中學習并適應新的情況,通過行動和反饋的迭代循環進行改進。
然而,由于幾個關鍵問題,構建現實世界中以數據為中心的閉環AD系統仍然具有挑戰性:第一個問題與AD數據收集有關。在現實世界的數據采集中,大多數數據樣本是常見/正常駕駛場景,而彎道和異常駕駛場景的數據幾乎無法采集。其次,需要進一步努力探索準確高效的AD數據自動標注方法。第三,為了緩解AD模型在城市環境中某些場景中表現不佳的問題,應該強調場景數據挖掘和場景理解。
SOTA閉環自動駕駛pipeline
自動駕駛行業正在積極構建集成的大數據平臺,以應對大量AD數據積累帶來的挑戰。這可以被恰當地稱為數據驅動自動駕駛時代的新基礎設施。在我們對頂級AD公司/研究機構開發的數據驅動閉環系統的調查中,我們發現了幾個共性:
- 這些pipeline通常遵循一個工作流循環,包括:(I)數據采集,(II)數據存儲,(III)數據選擇和預處理,(IV)數據標注,(V)AD模型訓練,(VI)模擬/測試驗證,以及(VII)真實世界部署。
- 系統內閉環的設計,現有的解決方案要么選擇單獨設置的“數據閉環”和“模型閉環”,要么分別設置不同階段的周期:“研發階段閉環”、“部署階段閉環”。
- 之外,該行業還強調了真實世界AD數據集的長期分布問題以及處理角落案例時的挑戰。特斯拉和英偉達是這一領域的行業先驅,其數據系統架構為該領域的發展提供了重要參考。
NVIDIA MagLev AV平臺圖3(左))遵循“收集→ 選擇→ 標簽→ 馴龍”作為程序,它是一個可復制的工作流程,可以實現SDC的主動學習,并在循環中進行智能標注。MagLev主要包括兩條閉環pipeline。第一個循環是以自動駕駛數據為中心,從數據攝入和智能選擇開始,通過標注和標注,然后是模型搜索和訓練。然后對經過訓練的模型進行評估、調試,并最終部署到現實世界中。第二個閉環是平臺的基礎設施支持系統,包括數據中心骨干和硬件基礎設施。此循環包括安全的數據處理、可擴展的DNN和系統KPI、用于跟蹤和調試的儀表板。它支持AV開發的全周期,確保在開發過程中不斷改進和整合真實世界的數據和模擬反饋。
特斯拉自動駕駛數據平臺(圖3(右))是另一個具有代表性的AD平臺,它強調使用大數據驅動的閉環pipeline來顯著提高自動駕駛模型的性能。pipeline從源數據收集開始,通常來自特斯拉的車隊學習、事件觸發車端數據收集和陰影模式。收集到的數據將由數據平臺算法或人類專家進行存儲、管理和檢查。無論何時發現角落案例/不準確性,數據引擎都將從現有數據庫中檢索并匹配與角落案例/不準確事件高度相似的數據樣本。同時,將開發單元測試,以復制場景并嚴格測試系統的響應。之后,檢索到的數據樣本將由自動標注算法或人類專家進行標注。然后,標注良好的數據將反饋給AD數據庫,數據庫將被更新以生成用于AD感知/預測/規劃/控制模型的新版本的訓練數據集。經過模型訓練、驗證、仿真和真實世界測試,具有更高性能的新AD模型將發布并部署。
基于Generative AI的高保真AD數據生成與仿真
從真實世界采集的大多數AD數據樣本都是常見/正常駕駛場景,其中我們在數據庫中已經有大量類似的樣本。然而,要從真實世界的采集中收集某種類型的AD數據樣本,我們需要駕駛指數級的長時間,這在工業應用中是不可行的。因此,高保真自動駕駛數據生成和仿真方法引起了學術界的極大關注。CARLA是一款用于自動駕駛研究的開源模擬器,能夠在用戶指定的各種設置下生成自動駕駛數據。CARLA的優勢在于其靈活性,允許用戶創建不同的道路條件、交通場景和天氣動態,這有助于全面的模型訓練和測試。然而,作為模擬器,其主要缺點在于領域差距。CARLA生成的AD數據無法完全模擬真實世界的物理和視覺效果;真實駕駛環境的動態和復雜特征也沒有被表現出來。
最近,世界模型以其更先進的內在概念和更有前景的性能,已被用于高保真度AD數據生成。世界模型可以被定義為一個人工智能系統,它構建其感知的環境的內部表示,并使用學習到的表示來模擬環境中的數據或事件。一般世界模型的目標是表示和模擬各種情況和互動,就像成熟的人類在現實世界中遇到的一樣。在自動駕駛領域,GAIA-1和DriveDreamer是基于世界模型的數據生成的代表作。GAIA-1是一個生成型人工智能模型,通過將原始圖像/視頻以及文本和動作提示作為輸入,實現圖像/視頻到圖像/視頻的生成。GAIA-1的輸入模態被編碼成統一的令牌序列。這些標注由世界模型內的自回歸變換器處理,以預測后續的圖像標注。然后,視頻解碼器將這些標注重建為具有增強的時間分辨率的連貫視頻輸出,從而實現動態和上下文豐富的視覺內容生成。DriveDreamer在其架構中創新地采用了擴散模型,專注于捕捉現實世界駕駛環境的復雜性。它的兩階段訓練pipeline首先使模型能夠學習結構化的交通約束,然后預測未來的狀態,確保為自動駕駛應用程序量身定制的強大的環境理解。
自動駕駛數據集的自動標注方法
高質量的數據標注成功和可靠性是必不可少的。到目前為止,數據標注pipeline可以分為三種類型,從傳統的手工標注到半自動標注,再到最先進的全自動標注方法,如圖4所示AD數據標注通常被視為特定于任務/模型。工作流程從仔細準備標注任務和原始數據集的需求開始。然后,下一步是使用人工專家、自動標注算法或End2End大型模型生成初始標注結果。之后,標注質量將由人工專家或自動質量檢查算法根據預定義的要求進行檢查。如果本輪標注結果未能通過質量檢查,它們將再次發送回標注循環并重復此標注作業,直到它們滿足預定義的要求。最后,我們可以獲得現成的標注AD數據集。
自動標注方法是閉環自動駕駛大數據平臺緩解人工標注勞動密集、提高AD數據閉環循環效率、降低相關成本的關鍵。經典的自動標記任務包括場景分類和理解。最近,隨著BEV方法的普及,AD數據標注的行業標準也在不斷提高,自動標注任務也變得更加復雜。在當今工業前沿的場景中,3D動態目標自動標注和3D靜態場景自動標注是兩種常用的高級自動標注任務。
場景分類和理解是自動駕駛大數據平臺的基礎,系統將視頻幀分類為預定義的場景,如駕駛場所(街道、高速公路、城市立交橋、主干道等)和場景天氣(晴天、雨天、雪天、霧天、雷雨天等)。基于CNN的方法通常用于場景分類,包括預訓練+微調CNN模型、多視圖和多層CNN模型,以及用于改進場景表示的各種基于CNN的模型。場景理解超越了單純的分類。它涉及解釋場景中的動態元素,如周圍的車輛代理、行人和紅綠燈。除了基于圖像的場景理解外,基于激光雷達的數據源,如SemanticKITTI,也因其提供的細粒度幾何信息而被廣泛采用。
三維動態物體自動標注和三維靜態場景自動標注的出現是為了滿足廣泛采用的純電動汽車感知技術的要求。Waymo提出了一種基于激光雷達點云序列數據的3D自動標記流水線,該流水線使用3D檢測器逐幀定位目標。然后,通過多目標跟蹤器鏈接跨幀的已識別目標的邊界框。為每個目標提取目標軌跡數據(每個幀處的對應點云+3D邊界框),并使用分治架構進行以目標為中心的自動標記,以生成最終細化的3D邊界框作為標簽。優步提出的Auto4D pipeline首次探索了時空尺度下的AD感知標記。在自動駕駛領域中,空間尺度內的3D目標邊界框標記以及時間尺度內的1D對應時間戳標記被稱為4D標記。Auto4D pipeline從連續的激光雷達點云開始,以建立初始物體軌跡。該軌跡由目標大小分支進行細化,該分支使用目標觀測值對目標大小進行編碼和解碼。同時,運動路徑分支對路徑觀測和運動進行編碼,允許路徑解碼器以恒定的目標大小細化軌跡。
3D靜態場景自動標記可被視為HDMap生成,其中車道、道路邊界、人行橫道、紅綠燈和駕駛場景中的其他相關元素應進行標注。在這一主題下,有幾項有吸引力的研究工作:基于視覺的方法,如MVMap,NeMO;基于激光雷達的方法,如VMA;預訓練3D場景重建方法,如OccBEV,OccNet/ADPT,ALO。VMA是最近提出的一項用于3D靜態場景自動標記的工作。VMA框架利用眾包、多行程聚合的激光雷達點云來重建靜態場景,并將其分割成單元進行處理。基于MapTR的單元標注器通過查詢和解碼將原始輸入編碼為特征圖,生成語義類型的點序列。VMA的輸出是矢量化地圖,將通過閉環標注和人工驗證對其進行細化,從而為自動駕駛提供滿意的高精地圖。
實證研究
我們提供了一個實證研究,以更好地說明本文中提到的先進的閉環AD數據平臺。整個過程圖如圖5所示。在這種情況下,研究人員的目標是開發一個基于Generative AI和各種基于深度學習的算法的AD大數據閉環pipeline,從而在自動駕駛算法研發階段和OTA升級階段(在現實世界部署后)實現數據閉環。具體而言,生成人工智能模型用于(1)基于工程師提供的文本提示生成特定場景的高保真度AD數據。(2) AD大數據自動標注,有效準備地面實況標簽。
圖中顯示了兩個閉環。其中較大的一個階段是自動駕駛算法研發階段,該階段從生成人工智能模型的合成自動駕駛數據和從真實世界駕駛中獲取的數據樣本的數據收集開始。這兩種數據源被集成為一個自動駕駛數據集,在云端進行挖掘,以獲得有價值的見解。之后,數據集進入了雙重標記路徑:基于深度學習的自動標記或手動手工標記,確保了標注的速度和精度。然后,標記的數據被用于在高容量自動駕駛超級計算平臺上訓練模型。這些模型經過模擬和真實世界的道路測試,以評估其功效,從而發布自動駕駛模型并進行后續部署。較小的一個是針對真實世界部署后的OTA升級階段,該階段涉及大規模云端模擬和真實世界測試,以收集AD算法的不準確/角落情況。所識別的不準確性/角點情況用于通知模型測試和更新的下一次迭代。例如,假設我們發現我們的AD算法在隧道駕駛場景中表現不佳。已識別的隧道駕駛彎道情況將立即向環路公布,并在下一次迭代中更新。生成型人工智能模型將以隧道駕駛場景相關描述作為文本提示,生成大規模的隧道駕駛數據樣本。生成的數據和原始數據集將被輸入模擬、測試和模型更新。這些過程的迭代性質對于優化模型以適應具有挑戰性的環境和新數據,保持自動駕駛功能的高精度和可靠性至關重要。
討論
第三代及以后的新型自動駕駛數據集。盡管LLM/VLM等基礎模型在語言理解和計算機視覺方面取得了成功,但將其直接應用于自動駕駛仍然具有挑戰性。原因有兩個方面:一方面,這些LLM/VLM必須具有全面集成和理解多源AD大數據(如FOV圖像/視頻、激光雷達云點、高清地圖、GPS/IMU數據等)的能力,這比理解我們在日常生活中看到的圖像更難。另一方面,自動駕駛領域現有的數據規模和質量與其他領域(如金融和醫療)不可比,難以支持更大容量LLM/VLM的訓練和優化。由于法規、隱私問題和成本的原因,目前自動駕駛大數據的規模和質量有限。我們相信,在各方的共同努力下,下一代AD大數據在規模和質量上都會有顯著提升。
自動駕駛算法的硬件支持。當前的硬件平臺已經取得了重大進展,特別是隨著GPU和TPU等專門處理器的出現,這些處理器提供了對深度學習任務至關重要的大量并行計算能力。車載和云基礎設施中的高性能計算資源對于實時處理車輛傳感器生成的大量數據流至關重要。盡管取得了這些進步,但在處理自動駕駛算法日益復雜的問題時,在可擴展性、能效和處理速度方面仍然存在局限性。VLM/LLM引導的用戶-車輛交互是一個非常有前景的應用案例。基于該應用程序可以收集用戶特定的行為大數據。然而,VLM/LLM在車端的設備將要求高標準的硬件計算資源,并且交互式應用程序預計具有低延遲。因此,未來可能會有一些重量輕的大型自動駕駛車型,或者LLM/VLM的壓縮技術將得到進一步研究。
基于用戶行為數據的個性化自動駕駛推薦。智能汽車,已經從簡單的交通工具發展到智能終端場景的最新應用擴展。因此,人們對配備先進自動駕駛功能的車輛的期望是,它們能夠從歷史駕駛數據記錄中學習駕駛員的行為偏好,如駕駛風格和行駛路線偏好。這將使智能汽車在未來幫助駕駛員進行車輛控制、駕駛決策和路線規劃時能夠更好地與用戶喜愛的車輛保持一致。我們將上述概念稱為個性化自動駕駛推薦算法。推薦系統已廣泛應用于電子商務、在線購物、送餐、社交媒體和直播平臺。然而,在自動駕駛領域,個性化推薦仍處于起步階段。我們相信,在不久的將來,將設計一個更合適的數據系統和數據采集機制,在用戶允許并遵守相關規定的情況下,收集用戶駕駛行為偏好的大數據,從而為用戶實現定制的自動駕駛推薦系統。
數據安全和值得信賴的自動駕駛。海量的自動駕駛大數據對數據安全和用戶隱私保護提出了重大挑戰。隨著互聯自動駕駛汽車(CAV)和車聯網(IoV)技術的發展,車輛的連接越來越緊密,從駕駛習慣到頻繁路線的詳細用戶數據的收集引發了人們對個人信息潛在濫用的擔憂。我們建議在收集的數據類型、保留策略和第三方共享方面具有透明度的必要性。它強調了用戶同意和控制的重要性,包括尊重“不跟蹤”請求和提供刪除個人數據的選項。對于自動駕駛行業來說,在促進創新的同時保護這些數據需要嚴格遵守這些準則,確保用戶信任并遵守不斷發展的隱私立法。
除了數據安全和隱私,另一個問題是如何實現值得信賴的自動駕駛。隨著AD技術的巨大發展,智能算法和生成人工智能模型(如LLM、VLM)將在執行越來越復雜的駕駛決策和任務時“充當驅動因素”。在這個領域下,一個自然的問題出現了:人類能信任自動駕駛模型嗎?在我們看來,值得信賴的關鍵在于自動駕駛模型的可解釋性。他們應該能夠向人類駕駛員解釋做出決定的原因,而不僅僅是執行駕駛動作。LLM/VLM有望通過實時提供高級推理和可理解的解釋來增強可信賴的自動駕駛。
結論
這項調查首次系統回顧了自動駕駛中以數據為中心的進化,包括大數據系統、數據挖掘和閉環技術。在這項調查中,我們首先制定了按里程碑代分類的數據集分類法,回顧了AD數據集在整個歷史時間線上的發展,介紹了數據集的獲取、設置和關鍵功能。此外,我們從學術和工業兩個角度闡述了閉環數據驅動的自動駕駛系統。詳細討論了以數據為中心的閉環系統中的工作流pipeline、流程和關鍵技術。通過實證研究,展示了以數據為中心的閉環AD平臺在算法研發和OTA升級方面的利用率和優勢。最后,對現有數據驅動自動駕駛技術的優缺點以及未來的研究方向進行了全面的討論。重點是第三代之后的新數據集、硬件支持、個性化AD推薦、可解釋的自動駕駛。我們還表達了對Generative AI模型、數據安全和自動駕駛未來發展中值得信賴的擔憂。
原文鏈接:https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA