世界模型大一統？清華&復旦提出OccLLaMA：首個用于自動駕駛多任務的具身世界模型

作者：自動駕駛之心 2024-09-10 10:07:19

今天為大家分享清華&復旦最新的工作—OccLLaMA！首個用于自動駕駛多任務的生成世界模型來了！

寫在前面&筆者的個人理解

近年來，整合了語言、圖像、音頻等各種模態的多模態大語言模型取得了重大的突破，極大的加快了具身人工智能領域技術的發展。雖然相關研究成果取得了較為不錯的進展，但是能夠處理現實世界中多項任務的通用智能體還并未出現。這本質上是因為現有的多模態大型語言模型通過學習的方式從感知到動作的直接映射來執行相應動作，忽略了世界的動態特性以及運動與世界動態之間的關系。相比之下，人類擁有使他們能夠基于3D內部視覺表征模擬未來狀態并據此規劃行動的視覺模型。因此，探索如何構建智能體的世界模型對于具身智能的進步至關重要。

自動駕駛作為具身人工智能的一項非常具有代表性的應用，在世界范圍內得到了廣泛的討論和研究，但是目前的自動駕駛世界模型專注于傳感器相關的任務，如點云、視覺以及柵格預測任務，無法同時實現預測場景演變、語言推理和與現實世界的交互等內容。因此，我們希望提出一個能夠統一視覺、語言和動作的模型，具有類似人類的能力。

考慮到最近提出的柵格預測網絡可以作為一種通用的3D視覺任務，更加準確的描述細粒度的3D結構，同時還包含了高級語義信息，非常適合對齊空間和語義。同時，基于自回歸語言模型的視覺生成的可行性已得到徹底驗證，其性能可與擴散模型相當。

因此，在本文中，我們提出了統一的3D占用-語言-動作生成世界模型，該模型統一了VLA相關任務，包括但不限于場景理解、規劃和 4D占用預測，我們將提出的模型稱之為OccLLaMA，其整體效果如下圖所示。

OccLLaMA支持包括場景理解和推理、4D占用預測和運動規劃

網絡模型的整體架構&細節梳理

在詳細介紹本文提出的OccLLaMA算法模型之前，下圖展示了OccLLaMA算法模型的整體網絡結構。

OccLLaMA算法模型的整體網絡結構

通過上圖可以看出，OccLLaMA算法模型的核心組件包括Scene Tokenizer、Occupancy-Language-Action生成世界模型以及為了實現多任務引入的三階段訓練方案。具體而言，為了使OccLLaMA具有理解和生成視覺模態的能力，我們選擇Occupancy作為通用的視覺表示，并引入一種新穎的Scene Tokenizer來有效地構建離散場景詞匯，同時考慮到稀疏性和類別不平衡。通過結合場景詞匯、語言詞匯和動作詞匯，我們為VLA任務構建了一個統一的多模態詞匯，為在一個模型中集成VLA奠定了基礎。

Scene Tokenizer

受到點云處理任務的啟發，我們在編碼器當中引入了一種稀疏的編碼策略。同時我們將非占用類別與其他語義類別分離，從而實現更高效的場景重建。

編碼器

解碼器

由于量化后BEV的特征圖中的高度信息丟失，解碼器通過堆疊卷積塊和上采樣層來恢復密集的3D體素特征。具體來說，為了解決類別不平衡問題，我們分別實例化輕量級體素頭和分類頭，以解碼占用的幾何和語義信息。值得注意的是，體素頭為分類頭提供了一個占用掩碼，使我們能夠僅監督占用體素的語義。

Generative World Model

統一詞匯

場景預測

我們觀察到語言和動作都是時間序列，這使得這些序列中的token自然適合具有原始的因果掩碼和下一個token預測機制的時間注意力。具體而言，我們在與場景token對應的位置實現空間注意力，以更好地捕捉場景內的空間關系。相應地，我們初始化可學習的場景查詢用于預測整個完整的場景，從而實現場景內token之間的更好交互并顯著減少推理時間。在算法1中，詳細解釋了執行場景預測機制的算法流程，如下圖所示。

場景預測的整體算法流程

訓練階段

我們的訓練方案包括三個階段，分別是scene tokenizer的訓練過程，3D Occupancy-Language-Action的預訓練過程，以及指令微調過程。

scene tokenizer的訓練過程：我們首先專注于場景codebook的學習，以將占用率表示為離散的標記，并計算相關的loss損失進行優化。在優化后，scene tokenizer在整個流程的后續階段始終保持不變。
3D Occupancy-Language-Action的預訓練過程：在這個階段，我們專注于對齊occupancy-language-action。我們使用世界模型目標和場景標題目標進行全參數預訓練，前者監督占用和動作之間的對齊以學習世界的演變，后者監督占用和語言之間的對齊以學習3D場景的語義理解。
指令微調過程：在這個階段，我們根據LoRA針對不同場景理解和規劃任務的提示指令對模型進行微調。

實驗結果&評價指標

為了展示我們提出的算法模型在4D占用預測、運動規劃以及視覺問答任務中的性能，我們分別針對三個任務展開了一系列的相關實驗。

4D占用預測任務

4D占用預測任務旨在根據一些歷史占用輸入預測未來的3D占用場景。具體來說，我們使用2秒的歷史幀信息來預測接下來的3秒，并使用 mIoU和IoU作為主要的評估指標。相關的實驗結果統計在下表當中。

我們在兩種設置下將提出的OccLLaMA與最先進的方法OccWorld進行了比較：一種是使用真實3D占用信息(-O)，另外一種是使用基于相機模型FBOCC的預測結果(-F)。

首先，我們觀察到我們的scene tokenizer展現出了卓越的場景重建能力。此外，我們提出的OccLLaMA可以在1秒內實現了具有競爭力的預測結果，并且在更長時間內明顯優于OccWorld算法模型，凸顯了我們提出的算法模型其更強的長期預測能力。

此外，OccLLaMA-F可以被視為端到端的檢測流程，因為它以相機為輸入。盡管任務很復雜，但OccLLaMA始終表現出強大的預測性能。為了更加直觀的展示我們算法模型的有效性，我們也進行了相關的可視化，如下圖所示。

4D柵格預測任務的可視化結果

運動規劃任務

我們將提出的OccLLaMA算法模型的運動規劃能力與利用各種輸入和監督的幾個強基線算法模型進行了比較，相關的實驗結果如下表所示。

我們還將提出的算法模型與OccWorld算法模型在不同設置下進行了比較，例如4D占用率預測任務中的設置。我們觀察到UniAD算法模型提供了最佳的表現性能，而監督標記限制了其對大規模數據集的可擴展性。作為替代方案，OccLLaMA僅依靠3D語義占用就實現了具有競爭力的表現性能，展示了其作為自動駕駛基礎模型的擴展潛力。與使用占用作為輸入的方法相比，OccLLaMA的表現明顯優于OccNet算法模型，進一步凸顯了其自回歸架構的優越性。此外，超越自回歸的最先進的方法OccWorld算法模型，也從側面證明了我們提出各個模塊的有效性。此外，通過集成現有方法實現的卓越性能，展示了我們方法的通用性。值得注意的是，輸出軌跡而不交替場景預測會導致性能下降，這表明世界模型范式具有更大的潛力。

視覺問答任務

據我們所知，我們是第一個利用占用數據和文本指令作為輸入并在自動駕駛中實現一系列3D任務的多模態大型語言模型。我們選擇在NuScenes-QA基準上最先進的算法模型Lidar-LLM，作為我們的主要比較基線。此外，我們分別使用深度圖像和原始圖像作為輸入，在 NuScenes-QA基準上評估了強大的2D LLM。我們使用Top-1準確度指標評估模型的性能，并對不同類型的問題進行單獨評估。

為了確保公平性，我們在LLaMA2-7b下實現了我們的整體算法模型，這是與LiDAR-LLM和LLaVA相同的基礎模型。相關的實驗結果匯總在如下的表格當中。

我們觀察到提出的OccLLaMA算法模型總體上提供了最佳的表現性能。與LiDAR-LLM相比，提出的OccLLaMA算法模型可以更好地捕獲3D空間中的語義信息，這對于與目標相關的問題至關重要。此外，OccLLaMA算法模型將空間信息作為輸入，并自然地對齊語義和空間數據，這對涉及空間關系的問題很有幫助。

結論

在本文中，我們提出了OccLLaMA算法模型，一種用于多任務的自動駕駛3D占用語言動作生成世界模型。通過對4D占用預測、運動規劃和視覺問答等任務的大量實驗，實驗數據結果證明了我們提出的OccLLaMA算法模型在多任務上的有效性。未來，我們將增加數據多樣性，以進一步增強OccLLaMA算法模型的功能。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看