成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ADAPT:曙光初現,全面探索端到端自動駕駛的可解釋性!

人工智能 新聞
今天為大家分享端到端可解釋性的最新工作ADAPT,該方法基于Transformer架構,通過多任務聯合訓練的方式端到端地輸出車輛動作描述及每個決策的推理。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

筆者的個人思考

端到端是今年非?;鸬囊粋€方向,今年的CVPR best paper也頒給了UniAD,但端到端同樣也存在很多問題,比如可解釋性不高、訓練難收斂等等,領域的一些學者開始逐漸把注意力轉到端到端的可解釋性上,今天為大家分享端到端可解釋性的最新工作ADAPT,該方法基于Transformer架構,通過多任務聯合訓練的方式端到端地輸出車輛動作描述及每個決策的推理。筆者對ADAPT的一些思考如下:

  1. 這里是用視頻的2D 的feature來做的預測, 有可能把2D feature轉化為 bev feature之后效果會更好.
  2. 與LLM結合效果可能會更好, 比如 Text Generation那部分換成LLM.
  3. 當前這個工作是拿歷史的視頻作為輸入, 預測的action及其描述也是歷史的, 如果改成預測將來的action以及action對應的原因的話可能更有意義.
  4. image token化那塊兒得到的  token 有點兒多,可能有很多沒有用的信息, 或許可以試試Token-Learner.

出發點是什么?

端到端自動駕駛在交通行業具有巨大潛力,而且目前對這方面的研究比較火熱。像CVPR2023的best paper UniAD 做的就是端到端的自動駕駛。但是, 自動決策過程缺乏透明度和可解釋性會阻礙它的發展, 畢竟實車上路,是要安全第一的。早期已經有一些嘗試使用 attention map 圖或 cost volume 來提高模型的可解釋性,但這些方式很難理解。那么這篇工作的出發點,就是尋求一種好理解的方式來解釋決策。下圖是幾種方式的對比, 顯然用語言表達更容易理解。

圖片

ADAPT有什么優勢?

  1. 能夠端到端地輸出車輛動作描述及每個決策的推理;
  2. 該方法基于transformer的網絡結構, 通過multi-task的方式進行聯合訓練;
  3. 在BDD-X(Berkeley DeepDrive eXplanation) 數據集上達到了SOTA的效果;
  4. 為了驗證該系統在真實場景中的有效性, 建立了一套可部署的系統, 這套系統能夠輸入原始的視頻, 實時地輸出動作的描述及推理;

效果展示

看效果還是非常不錯的, 尤其是第三個黑夜的場景, 紅綠燈都注意到了。

目前領域的進展

Video Captioning

視頻描述的主要目標是用自然語言描述給定視頻的對象及其關系。早期的研究工作通過在固定模板中填充識別的元素來生成具有特定句法結構的句子,這些模板不靈活且缺乏豐富性。

一些方法利用序列學習方法來生成具有靈活句法結構的自然句子。具體來說,這些方法采用video encoder 來提取 feature,并使用語言 decoder 來學習視覺文本對齊。為了用細粒度的對象和動作使描述更加豐富,有些方法利用 object-leverl 的表示來獲取視頻中詳細的object-aware 交互特征。

雖然現有的架構在一般 video captioning 方向取得了有一定的結果,但它不能直接應用于動作表示,因為簡單地將視頻描述轉移到自動駕駛動作表示會丟失掉一些關鍵信息,比如車輛速度等,而這些對于自動駕駛任務來說至關重要。如何有效地利用這些多模態信息來生成句子目前仍在探索中。PaLM-E 在多模態句子這塊兒是個不錯的工作。

端到端自動駕駛

Learning-based 的自動駕駛是一個活躍的研究領域。最近CVPR2023 的best-paper UniAD, 包括后面的 FusionAD, 以及Wayve的基于World model的工作 MILE 等都是這個方向的工作。輸出地形式有出軌跡點的,像UniAD, 也有直接出車輛的action的, 像MILE。

此外, 一些方法對車輛、騎自行車者或行人等交通參與者的未來行為進行建模,以預測車輛waypoints,而另外一些方法直接根據傳感器輸入預測車輛控制信號,類似于這個工作的控制信號預測子任務。

自動駕駛的可解釋性

自動駕駛領域中, 大多數可解釋性的方法是基于視覺的,也有一些是基于LiDAR的工作。一些方法利用attention map 的可視化來過濾掉不顯著的圖像區域,使得自動駕駛車輛看起來合理并且可解釋。然而,attention map 可能很容易包含一些不太重要的區域。還有一些方法以激光雷達和高精地圖作為輸入來預測其他交通參與者的bounding box,并利用cost volume來解釋決策的推理。此外,也有通過分割的方法構建了在線地圖,用于擺脫高清地圖的嚴重依賴。盡管基于視覺或基于激光雷達的方法提供了不錯的結果,但是缺乏語言解釋使得這個整個系統看起來復雜且難以理解。[68]首先探索了自動駕駛車輛文本解釋的可能性,離線提取視頻特征后用于預測控制信號,然后進行視頻描述的任務。

自動駕駛中的Multi-task learning

這個端到端的框架采用多任務學習,用文本生成和預測控制信號這兩個任務來聯合訓練模型。多任務學習在自動駕駛中用的非常多。由于更好的數據利用和共享特征,不同任務的聯合訓練提高了各個任務的性能,因此這個工作中, 采用的是控制信號預測和文本生成這兩個任務的聯合訓練。

ADAPT方法

網絡結構圖如下所示:

圖片

整個結構分成了兩個任務:

  1. Driving Caption Generation(DCG): 輸入videos, 輸出兩個句子, 第一句描述自車的action,第二句描述采取這個action的推理, 比如 "The car is accelerating, because the traf?c lights turn green."
  2. Control Signal Prediction(CSP) : 輸入相同的videos, 輸出一串控制信號, 比如速度,方向, 加速度.

其中, DCG和CSP兩個任務是共享 Video Encoder, 只是采用不同的prediction heads來產生不同的最終輸出。

對于 DCG 任務, 是用 vision-language transformer encoder產生兩個自然語言的句子。

對于CSP 任務, 用motion transformer encoder 預測控制信號的序列。

Video Encoder

這里采用的是 Video Swin Transformer 將輸入的video frames 轉為 video feature tokens。

輸入  楨 image, shape 為 , 出來的feature的size 是 , 這里的  是channel的維度.

Prediction Heads

Text Generation Head

上面這個feature  , 經過token化得到  個 維度為  的video token, 然后經過一個MLP 調整維度與 text tokens的embedding對齊, 之后將 text tokens和 video tokens 一起喂給 vision-language transformer encoder, 產生動作描述和推理。

Control Signal Prediction Head

和輸入的 楨video 對應著的 有 控制信號 , CSP head的輸出是 , 這里每一個控制信號不一定是一維的, 可以是多維的, 比如同時包括速度,加速度,方向等。這里的做法是 把video features token化了之后, 經過motion transformer 產生一串輸出信號, loss 函數是MSE,

不過需要注意的是, 這里并沒有把第一楨放進去, 因為第一楨提供的動態信息太少了。

Joint Training

在這個框架中, 因為共享的video encoder, 因此其實是假設CSP和DCG這兩個任務在 video representation的層面上是對齊的。出發點是動作描述和控制信號都是車輛細粒度動作的不同表達形式,動作推理解釋主要關注影響車輛動作的駕駛環境。

訓練時采用聯合訓練的方式

需要注意的是, 雖然是聯合訓練地,但是推理的時候,卻可以獨立執行, CSP任務很好理解, 根據流程圖直接輸入視頻,輸出控制信號即可, 對于DCG任務, 直接輸入視頻, 輸出描述和推理, Text 的產生是基于自回歸的方式一個單詞一個單詞的產生, 從[CLS]開始, 結束于 [SEP]或者是達到了長度閾值。

實驗設計與對比

數據集

使用的數據集是  BDD-X, 這個數據集包含了 7000段成對的視頻和控制信號。每段視頻大約40s, 圖像的大小是 , 頻率是 FPS, 每個video都有1到5種車輛的行為,比如加速,右轉,并線。所有這些行為都有文本注釋,包括動作敘述(例如,“汽車停下來”)和推理(例如,“因為交通燈是紅色的”)??偣泊蠹s有 29000 個行為注釋對。

具體實現細節

  1. video swin transformer 在 Kinetics-600 上面預訓練過
  2. vision-language transformer 和 motion transformer是隨機初始化的
  3. 沒有固定 video swin 的參數, 所以整個是端到端訓練的
  4. 輸入的視頻楨大小經過resize和crop, 最終輸入網絡的是 224x224
  5. 對于描述和推理,用的是WordPiece embeddings [75] 而不是整個words,  (e.g., ”stops” is cut to ”stop” and ”#s”), 每個句子的最大長度是15
  6. 訓練的時候對于 masked language modeling 會隨機mask掉50%的tokens, 每個mask的token 有80%的概率 會成為 【MASK】這個token, 有10%的概率會隨機選擇一個word, 剩下的10%的概率保持不變。
  7. 用的是AdamW 的優化器, 并且在前10%的訓練 steps中, 有warm-up的機制
  8. 用4個V100的GPU大約要訓練13個小時

聯合訓練的影響

這里對比了三個實驗說明了聯合訓練的有效性.

Single

指的是把CSP任務移掉,只保留著DCG的任務, 相當于只訓 captioning 模型.

Single+

依然沒有CSP的任務, 但是輸入DCG模塊的時候除了video tokens外, 還有control singal tokens的輸入

效果對比如下

可以看到 相比只有DCG的任務, ADAPT的Reasoning的效果要明顯好很多。有控制信號輸入時效果有所提升,但是還是沒有把CSP任務加進來的效果好. 相當于加了CSP任務后, 對video的表示及理解能力更強了。

另外下面這個表格也說明了聯合訓練對于 CSP的效果也是有提升的.

圖片

這里  可以理解為精度, 具體會把預測的控制信號做一個截斷,公式如下

不同類型控制信號的影響

實驗中用的基礎信號是speed和course, 但是實驗發現, 只使用他們中的任何一個時效果都沒有兩個都用的時候效果好,如下表所示:

這說明speed和course這兩個信號能夠使得網絡學習到更好的動作描述及推理。

動作描述與推理之間的交互

與一般描述任務相比,駕駛描述任務生成是兩個句子,即動作描述和推理。通過下表可以發現:

  1. 第1,3行說明使用cross attention效果要更好一些, 這也好理解, 基于描述來做推理有利于模型的訓練;
  2. 第2,3行說明交換推理和描述的順序也會掉點, 這說明了推理是依賴于描述的;
  3. 后面三行對比來看, 只輸出描述和只輸出推理都不如二者都輸出的時候效果好;

Sampling Rates 的影響

這個結果是可以猜到的, 使用的幀越多,結果越好,但是對應的速度也會變慢, 如下表所示

原文鏈接:https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-10-30 09:47:00

自動駕駛技術

2024-01-10 17:34:42

2024-04-15 11:40:37

自動駕駛端到端

2023-08-24 09:52:44

自動駕駛設計

2024-02-21 09:14:32

端到端自動駕駛

2024-01-04 09:35:41

自動駕駛端到端

2025-02-10 10:35:00

自動駕駛端到端模型

2024-07-12 08:38:57

2024-03-13 09:39:45

端到端自動駕駛

2019-08-29 18:07:51

機器學習人工智能

2023-03-07 16:48:54

算法可解釋性

2023-12-11 10:29:11

自動駕駛系統

2023-12-18 10:15:30

自動駕駛自然語言

2023-08-05 13:08:54

2024-05-08 11:32:24

端到端自動駕駛

2024-04-17 09:50:28

自動駕駛端到端

2024-10-11 09:32:48

2024-08-14 10:40:00

模型自動駕駛

2023-01-04 09:59:48

自動駕駛技術

2023-10-18 09:40:25

自動駕駛技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品国产一区二区电影 | 欧美日韩精品免费观看 | www.4567| 国产精品视频一区二区三区四区国 | 91视频正在播放 | 国产日韩欧美在线 | 成人免费视频在线观看 | 一区二区三区在线 | 午夜成人免费电影 | 国产精品亚洲综合 | 男女免费在线观看视频 | 视频在线日韩 | 中文字幕一区在线观看视频 | 欧美中文字幕在线 | 久久综合久久久 | 成人精品在线视频 | 久久久精品 | 成人h视频在线观看 | 成人av大全 | 国产精品18hdxxxⅹ在线 | 中文字幕在线一区 | 婷婷福利视频导航 | 日韩在线国产 | a级毛片免费高清视频 | 日韩欧美精品在线 | 午夜视频免费网站 | 一区二区三区在线播放视频 | 日韩一区二区三区av | 欧美涩涩网 | 国产精品一区在线观看 | 91精品国产综合久久婷婷香蕉 | 九九久久免费视频 | 午夜a v电影| www.久草.com| 欧美成人精品在线 | 日韩欧美一区在线 | 国产精品成人一区二区三区吃奶 | 亚洲日本欧美日韩高观看 | 日韩视频在线免费观看 | 国产69精品久久99不卡免费版 | 99精品视频一区二区三区 |