ICRA 2025|清華x光輪:自駕世界模型生成和理解事故場景
近年來,自動駕駛技術快速發展,蘿卜快跑已經無縫融入了武漢的交通,不少車企的智駕系統也都上路了。
然而,在復雜交通環境中,如何理解和預防事故仍然是一個巨大挑戰。比如前段時間特斯拉 FSD 終于入華。但中國版 FSD 似乎有些「水土不服」,頻繁闖紅燈、開上人行道、逆行,被網友調侃為「美國司機直接來中國開車」。
同時,現有的方法往往難以準確解釋事故發生的原因,并缺乏有效的預防策略。此外,由于事故數據較為稀缺,自動駕駛系統在面對突發情況時往往難以作出合理決策。
為了解決這一問題,光輪智能(Lightwheel)和來自來自清華、香港科技大學、吉林大學、南京理工大學、北京理工大學、復旦大學等的研究團隊,提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業的自動駕駛事故場景的安全能力。
AVD2 是一個創新的事故視頻生成與描述框架,旨在提升自動駕駛系統對事故場景的理解。通過生成與自然語言描述和推理高度一致的事故視頻,AVD2 增強了對事故場景的建模能力。
同時,該團隊還貢獻了 EMM-AU(Enhanced Multi-Modal Accident Video Understanding)數據集,以推動事故分析和預防的研究。
- 項目主頁鏈接:https://an-answer-tree.github.io/
- 論文鏈接:https://arxiv.org/abs/2502.14801
- EMM-AU 數據集鏈接:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip
- 代碼鏈接:https://github.com/An-Answer-tree/AVD2
模型架構
AVD2 框架包含兩個主要部分:視頻生成和事故分析。通過生成與事故描述一致的高質量視頻,并結合自然語言解釋,AVD2 能夠更深入地理解事故場景。
視頻生成
AVD2 的視頻生成部分旨在基于輸入的事故描述生成具有現實感的交通事故視頻。該部分使用了 Open-Sora 1.2 模型,并通過兩個階段的微調來優化模型:
1. 第一階段 Finetune:基于 MM-AU 數據集 對 Open-Sora 1.2 模型進行預訓練,生成與事故場景相關的視頻。
2. 第二階段 Finetune:利用選取的 2,000 個詳細事故場景視頻進一步微調模型,以確保生成的視頻與真實事故場景高度一致。
通過這一過程,AVD2 能夠根據描述生成多個具有高保真度的事故視頻,用于進一步的事故理解和分析。
- 生成視頻的增強
為了提高視頻質量,AVD2 框架采用 RRDBNet 模型,在 Real-ESRGAN 框架下進行超分辨率處理。每個生成的低分辨率視頻幀都被提升到更高的分辨率,以增強細節并減少偽影,從而為后續的分析提供高質量的視頻數據。
事故分析
AVD2 的事故分析部分結合了視頻理解與自然語言處理技術,主要包括兩個任務:
- 車輛行為描述和原因分析(如何規避)
AVD2 生成兩個自然語言描述:
1. 車輛行為描述:基于輸入的視頻,生成描述車輛動作的句子(例如:“車輛右轉”)。
2. 原因解釋:解釋為什么車輛執行這一動作(例如:“因為前方交通信號燈變綠”)。同時進一步給出如何規避事故的發生(例如:“轉彎前應環顧四周注意直行車輛”)。
這兩個任務共同協作,利用 Vision-Language Transformer(視覺 - 語言 Transformer)來進行多任務學習。模型同時學習生成描述與推理任務,增強了兩者之間的關聯性,從而提高了整體性能。
- 多任務學習與文本生成
多任務學習方法使得 AVD2 能夠聯合訓練行為描述任務和事故原因理解任務,以及預防措施任務。
通過這種方式,AVD2 在生成的事故視頻基礎上,結合視覺特征與文本特征進行分析,不僅可以描述事故發生的過程,還能為事故的預防提供有價值的建議。
AVD2 的整體架構
在圖中,輸入視頻通過 SwinBERT 進行處理,生成視頻特征,隨后這些特征被輸入到不同的任務模塊中進行預測和描述生成。同時,SCST(自我批判序列訓練)機制被用來優化生成文本的質量。
生成與分析模塊的協同工作
AVD2 框架中的生成模塊與分析模塊緊密配合,生成的事故視頻不僅為自動駕駛系統提供了訓練數據,還為系統提供了關于事故行為的詳細解釋和原因分析。兩者結合,大大提升了系統的透明度和可解釋性。
實驗結果
該團隊通過多種機器評測指標(如 BLEU、METEOR、CIDEr 等)對 AVD2 進行了評估,并與現有的先進方法進行了對比。
以下是 AVD2 與 ADAPT 框架 (Jin et al., 2023) 在描述任務與解釋和預防任務上的比較結果:(MM-AU 為原始數據集 (Fang et al., 2024),EMM-AU 為該團隊結合生成的事故數據集新提出的數據集,SR 為經過超分處理后的數據集)
如上所示,AVD2 在所有評測指標上優于 ADAPT,尤其是在 CIDEr 指標上,AVD2 在動作描述和原因解釋(預防措施)兩個方面都表現出了更好的性能。
可視化結果
以下是 AVD2 對事故場景的可視化結果,在此展示兩個不同的事故視頻及對視頻的分析:
第一張圖示例:車輛變道未打轉向燈,未給優先通行車輛讓路,導致了潛在的碰撞風險。
第二張圖示例:由于過快的車速,剎車距離不足,造成了跟車過近的危險情況。
未來,該團隊將計劃進一步優化 AVD2 框架,并將此新技術通過光輪智能的端到端自動駕駛應用于客戶的上車訓練評測中,以促進自動駕駛技術的安全在產業界真正落地。