“真假難辨”!巧用NeRF生成的自動駕駛仿真數據
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
神經輻射場(NeRF)已成為推進自動駕駛(AD)重新搜索的有前途的工具,提供可擴展的閉環模擬和數據增強功能。然而,為了信任模擬中獲得的結果,需要確保AD系統以相同的方式感知真實數據和渲染數據。盡管渲染方法的性能正在提高,但許多場景在忠實重建方面仍然具有固有的挑戰性。為此,我們提出了一種新的視角來解決真實數據與模擬數據之間的差距。我們不只是專注于提高渲染保真度,而是探索簡單而有效的方法,在不影響真實數據性能的情況下,增強感知模型對NeRF偽影的魯棒性。此外,我們使用最先進的神經渲染技術,首次對AD設置中的真實到模擬數據間隙進行了大規模調查。具體來說,我們在真實和模擬數據上評估了對象檢測器和在線映射模型,并研究了不同預訓練策略的效果。我們的結果顯示,模型對模擬數據的穩健性顯著提高,甚至在某些情況下提高了真實世界的性能。最后,我們深入研究了真實到模擬間隙與圖像重建指標之間的相關性,將FID和LPIPS確定為強指標。
在本文中,我們提出了一種新的視角來縮小智駕系統不同感知模塊的真實數據和模擬數據之間的差距。我們的目標不是提高渲染質量,而是在不降低真實數據性能的情況下,使感知模型對NeRF偽影更具魯棒性。我們認為,這一方向是對提高NeRF性能的補充,也是實現可擴展虛擬AV測試的潛在關鍵。作為朝著這個方向邁出的第一步,我們表明,即使是簡單的數據增強技術也會對模型對NeRF偽影的魯棒性產生很大影響。
此外,我們對大規模AD數據集進行了首次廣泛的real2sim gap研究,并評估了多個目標檢測器以及在線建圖模型對真實數據和最先進(SOTA)神經渲染方法數據的性能。我們的研究包括訓練過程中不同數據增強技術的影響,以及推理過程中NeRF渲染的保真度。我們發現,在模型微調過程中集成這些數據顯著增強了它們對模擬數據的魯棒性,在某些情況下,甚至提高了對真實數據的性能。最后,我們研究了real2sim間隙和常見圖像重建指標之間的相關性,以深入了解將NeRFs用作AD數據模擬器的重要意義。我們發現LPIPS和FID是real2sim差距的有力指標,并進一步證實了我們提出的增強降低了對較差視圖合成的敏感性。
方法詳解
NeRF驅動的模擬引擎可以大大加速AD功能的測試和驗證,因為它們可以使用已經收集的數據探索新的虛擬場景。然而,為了使此類模擬結果可信,AD系統在暴露于渲染數據和真實數據時必須以相同的方式運行。以前,這已經通過渲染更真實的傳感器數據來改進模擬來解決。在這項工作中,我們提出了一種替代和補充的方法,即我們調整AD系統,使其對真實數據和模擬數據之間的差異不那么敏感。
作為朝著這個方向邁出的第一步,我們探索了不同的微調策略如何使感知模型對渲染數據中的偽影更具魯棒性。具體來說,在給定已經訓練好的模型的情況下,我們使用圖像來微調感知模型,這些圖像旨在提高渲染圖像的性能,同時保持真實數據的性能,見圖2。除了減少real2sim差距外,這還可能降低對傳感器真實性的要求,為神經渲染方法的更廣泛應用開辟道路,并減少對所述方法的訓練和評估的計算需求。請注意,當我們專注于感知模型時,我們的方法也可以很容易地擴展到端到端模型。
最后,我們可以想象多種方法來實現使模型更健壯的目標,例如從領域自適應和多任務學習文獻中汲取靈感。然而,微調需要最小的模型特定調整,使我們能夠輕松地研究一系列模型。
Image augmentations
獲得對偽影增強魯棒性的經典策略是使用圖像增強。在這里,我們選擇增強來表示渲染圖像中存在的各種失真。更具體地說,我們添加隨機高斯噪聲,將圖像與高斯模糊核卷積,應用類似于SimCLR中發現的光度失真,最后對圖像進行下采樣和上采樣。增廣是按順序應用的,每個增廣都有一定的概率。
Fine-tuning with mixed-in rendered images
使感知模型適應NeRF渲染數據的另一種自然方式是在微調期間包括這樣的數據。這涉及到在用于監督感知模型的相同數據集上訓練NeRF方法。然而,對于大型數據集來說,在所有上訓練NeRF的成本可能高得令人望而卻步。相反,我們在子集上訓練NeRF。注意,除了給定感知任務的注釋外,AD的NeRF通常還增加了中數據的順序要求,其中一些還需要3D對象檢測、語義分割或多種類型標簽等任務的標簽。
接下來,我們將中所選序列的圖像劃分為NeRF訓練集和保持集。感知模型的微調是在它們的整個訓練數據集D上完成的,對于在D中具有渲染對應關系的圖像,我們使用具有概率p的渲染圖像。這意味著用于微調的圖像沒有被NeRF模型看到。
Image-to-image translation
如前所述,渲染NeRF數據是一種昂貴的數據增強技術。此外,除了感知任務所需的數據外,它還需要順序數據和潛在的額外標記。也就是說,為了獲得可擴展的方法,我們理想地想要一種有效的策略來獲得單個圖像的NeRF數據。為此,我們建議使用圖像對圖像的方法來學習生成類NeRF圖像。給定真實圖像,該模型將圖像轉換到NeRF域,有效地引入了NeRF的典型偽影。這使我們能夠在有限的計算成本下,在微調過程中大幅增加類NeRF圖像的數量。我們使用渲染圖像Dnerf及其相應的真實圖像來訓練圖像到圖像模型。不同增強策略的可視化示例見圖3。
結果
結論
神經輻射場(NeRF)已成為模擬自動駕駛(AD)數據的一種很有前途的途徑。然而,為了實用,必須了解AD系統在模擬數據上執行的行為是如何轉換為真實數據的。我們的大規模調查揭示了暴露于模擬圖像和真實圖像的感知模型之間的性能差距。
與早期專注于提高渲染質量的方法不同,本文研究了如何改變感知模型,使其對NeRF模擬數據更具魯棒性。我們表明,使用NeRF或類似NeRF的數據進行微調,在不犧牲真實數據性能的情況下,大大減少了對象檢測和在線映射方法的real2sim間隙。此外,我們還表明,在現有的列車分布之外生成新的場景,例如模擬車道偏離,可以提高實際數據的性能。對NeRF社區內常用圖像指標的研究表明,LPIPS和FID分數與感知性能表現出最強的相關性。這表明,與單純的重建質量相比,感知相似性對感知模型具有更大的意義。
總之,我們認為NeRF模擬數據對AD有價值,尤其是當使用我們提出的方法來增強感知模型的穩健性時。此外,NeRF數據不僅有助于在模擬數據上測試AD系統,而且有助于提高感知模型在真實數據上的性能。