Waabi最新 | UnO:用于感知和預測的無監(jiān)督占用場
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
原標題:UnO: Unsupervised Occupancy Fields for Perception and Forecasting
論文鏈接:https://arxiv.org/pdf/2406.08691
項目鏈接:https://waabi.ai/uno/
作者單位:Waabi 多倫多大學
論文思路:
感知世界并預測其未來狀態(tài)是自動駕駛中的一項關鍵任務。監(jiān)督方法利用帶標注的物體標簽來學習世界模型——傳統(tǒng)上通過目標檢測和軌跡預測,或時序鳥瞰視角(BEV)占用場。然而,這些標注代價高昂,且通常僅限于一組預定義的類別,無法涵蓋我們在道路上可能遇到的所有情況。相反,本文通過從LiDAR數據中進行自監(jiān)督學習,來感知和預測一個連續(xù)的4D(時空)占用場。這個無監(jiān)督的世界模型可以輕松且有效地轉移到下游任務中。本文通過添加一個輕量級的學習渲染器來處理點云預測,并在Argoverse 2、nuScenes和KITTI數據集中實現了最先進的性能。為了進一步展示其可遷移性,本文微調本文的模型用于BEV語義占用預測,并顯示其在標注數據稀缺時,優(yōu)于全監(jiān)督的最先進方法。最后,與之前最先進的時空幾何占用預測方法相比,本文的4D世界模型在識別與自動駕駛相關的物體類別上實現了更高的召回率。
論文設計:
為了讓自動駕駛車輛(SDV)能夠有效且安全地規(guī)劃其行動,它必須能夠感知環(huán)境并預測其未來的演變。為了執(zhí)行這兩項任務,已經發(fā)展了兩種范式。最常見的方法是檢測場景中的一組離散物體,然后預測每個物體的可能未來軌跡 [5, 8, 11, 20, 21, 25, 35, 37, 39]。最近,鳥瞰視角(BEV)語義占用場 [1, 6, 15, 27, 31, 34] 變得流行起來,因為它們避免了對置信度分數進行閾值處理,并且更好地表示了對未來運動的不確定性。
這些方法利用來自人工標注的監(jiān)督來學習世界模型。不幸的是,它們的性能受限于人工標注的規(guī)模和表達能力。由于這些標簽的成本高昂,可用的標注數據量比未標注數據的量級要小得多。此外,這些標簽通常局限于一組預定義的物體類別,并且物體形狀用3D邊界框來近似,對于許多類別來說,這是一個非常粗糙的近似。因此,罕見事件和不常見的物體很少包含在標注數據中,限制了當前自動駕駛系統(tǒng)的安全性。
這促使本文開發(fā)能夠利用大量未標注傳感器數據來學習世界表示的方法。先前的工作提出直接從過去的點云預測未來的點云 [28, 36, 38, 40]。然而,這使得任務變得不必要地困難,因為模型不僅必須學習世界模型,還必須學習傳感器的外參和內參以及LiDAR的屬性,如光線反射率,這是一種復雜的材料和入射角(materials and incidence angle)函數。為了解決這個問題,4D-OCC [23] 提出了利用已知的傳感器內參和外參來學習未來的幾何占用體素網格。然而,該方法受限于使用量化的體素網格和通過回歸優(yōu)化光密度的LiDAR深度渲染目標。正如本文的實驗所示,這導致模型在學習世界動態(tài)時遇到困難。此外,所學習的表示是否對點云預測以外的下游任務有用仍然未知。
本文的目標是學習一個能夠利用大規(guī)模未標注LiDAR數據的世界模型,并且能夠輕松且有效地遷移到下游感知和預測任務中。為此,本文提出了一項新的無監(jiān)督任務:從LiDAR觀測中預測連續(xù)的4D(3D空間和時間)占用場(圖1.a)。這一目標適合于學習通用表示,因為準確預測時空占用場需要理解世界的幾何結構(例如,預測部分遮擋物體的形狀)、動態(tài)(例如,預測移動物體未來的位置)和語義(例如,理解道路規(guī)則)。重要的是,本文采用了一種隱式架構,使本文的模型能夠在空間和未來時間的任何連續(xù)點(x, y, z, t)進行查詢。本文稱之為UNO(UNsupervised Occupancy)的世界模型,能夠學習常識性概念,例如物體的完整范圍,即使輸入的LiDAR數據只能看到物體的一部分。預測具有相關不確定性的多模態(tài)未來的能力也隨之而來;例如,UNO可以預測一輛車可能會或不會變道,而行人可能會留在人行道上或進入人行橫道。
為了展示本文的世界模型的通用性和有效性,本文展示了它可以遷移到兩個重要的下游任務:點云預測(圖1.b)和監(jiān)督的BEV語義占用預測(圖1.c)。對于點云預測,UNO通過在占用預測的基礎上學習一個簡單的光線深度渲染器,超越了Argoverse 2、nuScenes和KITTI中的最先進方法。對于BEV語義占用預測,本文展示了微調UNO能夠優(yōu)于完全監(jiān)督的方法,特別是在可用于訓練的標簽有限時,這種改進尤為顯著,展示了令人印象深刻的少樣本泛化能力。
圖1. 本文展示了UNO,這是一種世界模型,能夠從未標注數據中學習預測隨時間變化的3D占用情況(a)。該模型可以輕松且有效地遷移到下游任務,如點云預測(b)和鳥瞰視角語義占用預測(c)。
實驗結果:
圖4. UNO在兩個不同示例上的可視化。本文標注了以下值得注意的觀察:(A) 右轉車輛的預測,(B) 僅從LiDAR數據的部分視角觀察到的物體范圍,(C) 移動車輛的預測,其中擴展的占用表示對未來加速度的不確定性,(D) 對人行道上行走行人的預測,(E) 預測車輛繞過停放的汽車進行變道,(F) 對變道車輛的持久點云預測,(G) 感知小物體如錐形標。
圖5. BEV語義占用結果。微調UNO與最先進的監(jiān)督方法在不同監(jiān)督規(guī)模下的對比。
圖6. 微調后的UNO的BEV語義占用預測。本文可視化了地圖以提供上下文,但這不是模型的輸入。A:準確感知場景中擁擠的區(qū)域,B:預測左轉結束,顯示出隱式地圖理解,C:對移動物體進行準確的未來預測。
圖7. 在Argoverse 2傳感器數據集上的無監(jiān)督占用召回率比較,結果在預測時間范圍內取平均值。召回率是在0.7的精度下計算的。?表示最稀有的25%的類別,?表示按邊界框體積計算最小的25%的類別。
總結:
本文提出了UNO,這是一種強大的無監(jiān)督占用世界模型,能夠從過去的LiDAR數據中預測4D幾何占用場。為了解決這個問題,本文利用未來點云所隱含的占用作為監(jiān)督,來訓練一個可以在任意連續(xù)的 (x, y, z, t) 點上查詢的隱式架構。UNO不僅能夠從未標注數據中實現對世界幾何、動態(tài)和語義的出色理解,而且也能夠有效且輕松地遷移到執(zhí)行下游任務。為了展示這一能力,本文證明了UNO在點云預測和有監(jiān)督的BEV語義占用預測任務上優(yōu)于最先進的方法。本文希望UNO和未來在無監(jiān)督世界模型方面的工作能夠為自動駕駛帶來更高的安全性,特別是對脆弱和稀有道路使用者。