世界模型再進化!博士AdaWM:自適應世界模型規劃新SOTA
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
- 論文鏈接:https://arxiv.org/pdf/2501.13072
摘要
本文介紹了AdaWM:基于自適應世界模型的自動駕駛規劃。基于世界模型的強化學習(RL)已經成為一種有前景的自動駕駛方法,它學習潛在動態模型并且用其訓練規劃策略。為了加快學習過程,通常使用預訓練-微調范式,其中在線RL由預訓練模型和離線學習的策略來初始化。然而,在RL中樸素地執行這類初始化可能會導致新任務中的在線交互期間性能急劇下降。為了應對這一挑戰,本文首先分析了性能下降問題,并且確定了兩個主要根本原因:規劃策略的不匹配和動態模型的不匹配(由分布偏移導致)。本文進一步分析了這些因素對微調過程中性能下降的影響,研究結果表明,微調策略的選擇在緩解這些影響方面發揮著關鍵作用。然后,本文引入了AdaWM,這是一種基于自適應世界模型的規劃方法,其具有兩個關鍵步驟:(a)不匹配識別,它量化了不匹配并且告知微調策略;(b)對齊驅動的微調,它使用高效的低秩更新選擇性地更新策略或者模型。本文在具有挑戰性的CARLA駕駛任務上進行實驗,結果表明,AdaWM顯著地改進了微調過程,使自動駕駛系統的性能更為魯棒和高效。
主要貢獻
本文的主要貢獻總結如下:
1)本文量化了微調過程中觀測到的性能差距,并且確定了兩個主要根本原因:(1)動態模型不匹配;(2)策略不匹配。然后,評估每種原因對微調性能的相應影響;
2)本文引入了AdaWM,這是一種基于自適應世界模型的自動駕駛規劃方法,它通過兩個關鍵步驟實現了有效的微調:(1)不匹配識別;(2)對齊驅動的微調。此外,AdaWM分別為動態模型和策略引入了高效的更新方法;
3)本文在具有挑戰性的CARLA環境中的多個任務上驗證了AdaWM,展現了它在路徑成功率(SR)和碰撞時間(TTC)方面實現卓越性能的能力。實驗結果表明,AdaWM有效地緩解了各種新任務的性能下降問題,證實了識別和解決微調過程中不匹配的重要性。
論文圖片和表格
總結
本項工作提出了AdaWM,這是一種基于自適應世界模型的規劃方法,它緩解了自動駕駛中基于世界模型的強化學習(RL)的性能下降問題。根據理論分析,本文確定了導致性能下降的兩個主要原因:動態模型不匹配和策略不匹配。本文提出了具有兩個核心組件的AdaWM:不匹配識別和對齊驅動的微調。AdaWM評估了性能下降的主要來源,并且根據識別的不匹配對動態模型或者策略應用選擇性低秩更新。在CARLA上的大量實驗表明,AdaWM顯著地提高了路徑成功率和碰撞時間,驗證了其有效性。本項工作強調了在解決具有挑戰性的現實世界任務時選擇高效且魯棒的微調策略的重要性。未來研究存在若干條有前景的途徑。首先,探索將AdaWM應用于自動駕駛以外的其它領域能夠擴大其適用性。此外,將AdaWM擴展到考慮智能體之間交互的多智能體環境中,可以進一步提高其在復雜現實世界環境中的魯棒性。