成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

          中科院最新DrivingGPT:利用多模態自回歸方法統一駕駛世界模型和規劃雙任務!

          人工智能 智能汽車
          今天為大家分享中科院最新的工作DrivingGPT!利用多模態自回歸方法統一駕駛世界模型和規劃雙任務。

          寫在前面&筆者的個人理解

          目前,駕駛世界模型已獲得了來自工業界和學術界的廣泛關注,因為基于模型的搜索和規劃被廣泛認為是實現人類級智能的重要途徑。這些模型有多種用途,包括訓練數據增強、稀有場景生成。大多數當前世界模型都是通過微調現有的擴散模型來開發的,利用視頻生成基礎模型的泛化能力。控制信號(如文本、布局和駕駛操作)通過兩種主要方法整合:擴散模型的空間特征與控制信號特征之間的交叉注意,或通道級特征調制技術。

          盡管駕駛世界模型取得了非常不錯的研究進展,但一個根本挑戰仍然存在:在可微分框架中無縫集成世界建模和規劃仍未得到很大程度的解決,從而限制了可微分模型規劃的全部潛力。世界模型目前主要基于視頻擴散架構,限制了它們生成多種模態(如文本和動作序列)的能力。因此,在擴散模型框架內實現駕駛規劃和世界建模的真正端到端集成仍然是一項重大的技術挑戰。這些限制促使我們探索能夠自然處理多模態輸入和輸出并實現端到端可微分規劃的替代架構。

          與擴散模型相比,具有下一個Token預測訓練目標的自回歸Transformer在包括語言建模、視覺問答、圖像生成、視頻預測、順序決策和機器人操作在內的廣泛任務中表現出卓越的建模能力。自回歸Transformer處理順序數據和多種模態的天生能力使其特別有希望成為基于模型的集成駕駛規劃器。

          基于上述的討論,在這項工作中,我們旨在利用自回歸Transformer的建模能力來進行駕駛任務中的世界建模和軌跡規劃,提出的算法模型稱為DrivingGPT。在具有挑戰性的 NAVSIM 基準上進行的實驗進一步證明了所提出的多模態駕駛語言作為規劃訓練目標的有效性。我們的 DrivingGPT 在駕駛得分方面優于流行的帶有 MLP 軌跡解碼器規劃器的視覺編碼器。

          圖片

          • 論文鏈接:https://arxiv.org/pdf/2412.18607

          網絡模型結構&技術細節

          經過訓練用于下一個Token預測的自回歸Transformer已在不同領域展現出卓越的能力。在這項工作中,我們通過結合世界模型和軌跡規劃,利用自回歸Transformer的強大功能實現自動駕駛。我們的方法將視覺輸入和駕駛動作轉換為離散駕駛語言,從而通過自回歸Transformer實現統一建模,其整體的網絡結構圖如下圖所示。

          圖片

          問題表述

          與許多其他任務一樣,駕駛問題可以表述為馬爾可夫決策過程,這是一種在具有部分隨機結果的環境中做出決策的通用數學框架。MDP 包含一個狀態空間,它反映了自車和環境的所有狀態;一個動作空間;一個隨機轉換函數,它描述了給定時間的狀態和動作的所有可能結果的概率分布;以及一個標量獎勵函數,它決定了在特定狀態下應采取的最佳動作。在大多數實際應用中,我們只能感知到噪聲觀測,而無法感知底層狀態。因此,引入了觀測概率函數,MDP 變為部分可觀測的 MDP。預測未來軌跡的端到端策略和模擬駕駛世界動態的觀察空間隨機轉換函數在自動駕駛中都非常重要。我們尋求將這兩個挑戰統一為一個序列建模任務。

          多模態駕駛語言

          一般的駕駛序列可以表示為一系列時間同步的觀察-行動對,時間范圍為T。在這里,我們需要將觀察和動作標記為離散token,并形成多模態駕駛語言,然后才能利用自回歸Transformer進行下一個token預測。

          Observation Tokenization

          為了簡化我們的方法,我們只將前置攝像頭圖像包含在觀察空間中,而將更先進的傳感器設置(如周圍的 cemaras、LiDAR 和 IMU)留待將來探索。為了將更多幀納入我們的序列建模,我們利用 VQ-VAE 將圖像下采樣為圖像token。

          Action Tokenization

          我們的方法與現有的駕駛世界建模方法的不同之處在于,它能夠生成未來的駕駛行為。與大多數的端到端駕駛規劃器不同,可以預測未來的整個駕駛軌跡。我們的下一個 token 預測公式的因果性質禁止我們構建具有較長動作范圍的驅動序列。未來的觀察和行動都從歷史行動中獲取了太多特權信息。

          Unified Visual Action Sequence Modeling

          圖片

          雖然駕駛語言模型形式看起來很簡單,但它明確地將駕駛世界建模和端到端駕駛作為其子任務。

          Integrating Action into Trajectory

          由于我們在駕駛語言中使用了幀與幀之間的相對動作,因此我們需要將它們整合起來以獲得絕對駕駛軌跡。我們首先將預測的動作轉換為二維變換矩陣,然后進行整合。

          圖片

          然后,我們通過連續乘以這些相對位姿矩陣來獲得絕對位姿,并將其相應地轉換回絕對動作。

          實驗結果&評價指標

          視頻生成的實驗結果

          我們對navtest數據集上的幾種方法進行了定量比較,相關的實驗結果匯總在下表當中。

          圖片

          由于許多視頻模型僅發布模型權重,我們將我們的方法與它們公開可用的模型進行比較。我們發現 SVD 和 CogvideoX 都傾向于產生細微的動作,這導致駕駛場景中的表現不佳。為了確保公平比較,我們在 navtrain 集上微調了 SVD 模型。以前的視頻模型通常依賴于基于擴散的方法,而我們的方法是自回歸視頻生成的先驅。值得注意的是,我們從頭開始訓練的模型在視頻生成質量方面超越了以前的方法。

          自回歸模型的一個關鍵優勢是能夠通過有效利用歷史信息來生成長時長視頻,從而生成更連貫的視頻。在這個實驗中,我們從 navtest 數據集中選擇了 512 個視頻片段(每個片段包含超過 64 幀)進行評估。而 SVD 方法在生成較長的序列時很難保持質量,相關的實驗結果如下表所示。

          圖片

          通過上表的實驗結果可以看出,我們的方法表現出了生成高質量長期序列的卓越能力。SVD的固定幀數訓練限制導致較長序列的圖像和視頻質量顯著下降。相比之下,我們的方法始終如一地生成高質量圖像并獲得較低的 FVD 分數,表明性能更穩定和更優越。

          此外,與以往基于擴散的方法相比,我們的方法可以生成更加多樣化和合理的場景。如下圖所示,SVD 微調方法在生成較長的視頻時經常會陷入重復過去內容的困境,例如長時間被困在紅燈下。相比之下,自回歸方法在生成長視頻方面表現出顯著的優勢,從而顯著改善了場景內容和視頻質量。

          圖片

          除了長視頻生成之外,我們方法的另一個優勢在于它能緩解物體幻覺現象。如下圖所示,基于擴散的方法由于缺乏歷史信息,經常會遭遇物體突然出現(紅色框)和逐漸消失(綠色框)的情況。相比之下,我們的自回歸方法保持了卓越的一致性。

          圖片

          端到端規劃的實驗結果

          我們的 DrivingGPT 能夠聯合預測未來圖像和駕駛行為,從而實現端到端的規劃性能評估。為了嚴格評估我們的規劃器的性能,我們選擇了更具挑戰性的 NAVSIM 基準,該基準旨在提供比以前的 nuScenes 和 nuPlan 基準更多樣化的駕駛操作。此外,鑒于最近關于使用自車狀態將為規劃者提供過多特權信息的討論,我們故意選擇將其排除在我們的駕駛語言之外。按照 NAVSIM 設置,我們根據過去 2 秒的觀察和行動來預測未來 4 秒的軌跡。相關的實驗結果如下表所示。

          圖片

          與恒定速度和恒定速度恒定偏航率的基線相比,我們提出的 DrivingGPT 實現了不俗的表現性能。此外,我們的 DrivingGPT 與使用 ResNet-50 視覺編碼器和 MLP 軌跡解碼器實現的簡單但可靠的端到端規劃器基線相比更具優勢。該基線僅使用前置攝像頭圖像,也不使用自車狀態。考慮到我們提出的 DrivingGPT 只能通過重建駕駛環境的高度壓縮圖像token來學習表示,結果突出了聯合學習世界建模和給定規劃的潛力。下圖展示了我們提出的DrivingGPT 在具有挑戰性的駕駛場景下生成的軌跡。

          圖片

          消融實驗分析

          如下表所示,視覺標記器的質量顯著影響世界模型視覺預測質量的上限。我們在navtest數據集上評估了幾種最先進的離散視覺標記器,該數據集包含 12,146 個視頻樣本。根據我們的評估,我們選擇 Llama-Gen 作為我們世界模型的最佳視覺標記器。

          圖片

          此外,自回歸Transformer是眾所周知的強大擬合機器。因此,我們試圖回答一個問題:DrivingGPT 是否真正學會了駕駛,還是只是通過復制或推斷歷史駕駛動作來偷工減料。我們逐漸用僅從歷史動作估計的未來動作替換 DrivingGPT 的預測動作。我們只是復制最后的歷史動作,因為一般的駕駛軌跡不涉及任何動作輸入變化。相關的實驗結果如下表所示。

          圖片

          我們的 DrivingGPT 始終優于所有簡單復制橫向、縱向和歷史動作的變體。可能會注意到,復制之前的縱向動作會產生最差的規劃結果,這是因為 NAVSIM 基準包含許多場景,其中自車剛剛開始從停止和啟動加速。實驗結果表明,我們的 DrivingGPT 真正學會了如何駕駛,而不僅僅是復制歷史動作。

          同時,我們發現數據質量在語言建模等其他任務上訓練自回歸Transformer時起著核心作用。因此,我們研究驅動數據質量和數量對端到端規劃性能的影響,相關的實驗結果如下表所示。

          圖片

          使用NAVSIM等高質量數據訓練的模型(僅包含 100k 個駕駛序列)優于使用 650k 個 nuPlan 駕駛序列訓練的模型。結果表明,在駕駛語言建模中,數據質量比數據數量更重要。

          結論

          在本文中,我們提出了一種新穎的多模態駕駛語言,該語言有效地將視覺世界建模和軌跡規劃統一到序列建模任務中。我們設計的算法框架稱為DrivingGPT,可以聯合學習為這兩個任務生成圖像和動作token。在nuPlan 和 NAVSIM 基準上進行的實驗和消融研究證明了所提出的 DrivingGPT 在動作條件視頻生成和端到端規劃方面的有效性。

          責任編輯:張燕妮 來源: 自動駕駛之心
          相關推薦

          2024-06-05 09:22:43

          2023-05-15 12:14:02

          ChatGPT語音模型

          2023-04-18 10:12:06

          模型解碼

          2025-02-26 13:00:00

          2025-02-08 13:30:00

          2023-04-13 15:25:14

          模型

          2024-10-23 15:13:35

          2024-10-22 09:40:00

          模型生成

          2025-05-09 08:40:00

          2017-05-15 15:07:36

          納米材料農藥

          2022-03-28 13:14:50

          機器學習語言訓練AI

          2019-01-16 15:21:12

          中科院大數據數據庫

          2023-12-04 09:33:00

          自動駕駛視覺

          2024-03-07 12:31:29

          AI技術

          2009-09-18 09:40:57

          浪潮中科院合肥

          2016-04-19 12:51:26

          2010-05-14 10:09:21

          中科院LED無線上網

          2009-10-11 01:04:43

          曙光中科院計算中心

          2017-04-17 13:31:28

          中科院5G移動通信
          點贊
          收藏

          51CTO技術棧公眾號

          主站蜘蛛池模板: 欧美一区二区在线观看 | 久久久久久久久久一区 | 欧美影院| 精品国产一区二区三区成人影院 | www精品美女久久久tv | 日本韩国电影免费观看 | 日韩精品免费在线观看 | 久久精品一区二区 | 日韩电影中文字幕 | 91大神在线资源观看无广告 | 日日噜噜噜夜夜爽爽狠狠视频, | 国产一区二区久久久 | 在线观看中文字幕视频 | 成人二区 | 国产美女自拍视频 | 久久精彩视频 | 国产欧美性成人精品午夜 | 国产美女自拍视频 | 亚洲91视频| 欧美a视频 | 久久综合久色欧美综合狠狠 | 亚洲欧美综合 | 免费看a| 伊人超碰 | 久久一区视频 | 国产成人精品999在线观看 | 国产精品一区二区三区四区 | 九九激情视频 | 91视视频在线观看入口直接观看 | 日韩中文字幕视频在线 | 伊人精品一区二区三区 | 韩日精品一区 | 狠狠躁躁夜夜躁波多野结依 | 欧美综合一区二区三区 | 日韩精品在线观看一区二区 | 精品国产乱码久久久久久蜜柚 | 亚洲一区二区在线播放 | 日日操天天射 | 日本在线一区二区 | 日日夜夜操天天干 | 亚洲精久久久 |