成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

固定參數的模型有多大潛力?港中文、上海AI Lab等提出高效視頻理解框架EVL

人工智能 新聞
來自香港中文大學、上海人工智能實驗室等機構的研究者提出了高效的視頻理解遷移學習框架 EVL,通過固定骨干基礎模型的權重,節省了訓練計算量和內存消耗。

視覺基礎模型近兩年取得了矚目發展。從一方面而言,基于大規模互聯網數據的預訓練已經給模型預置了大量的語義概念,從而具有良好的泛化性能;但另一方面,為充分利用大規模數據集帶來的模型尺寸增長,使得相關模型在遷移到下游任務時面臨著低效率問題,尤其是對于需要處理多幀的視頻理解模型。

圖片

  • 論文鏈接:https://arxiv.org/abs/2208.03550
  • 代碼鏈接:https://github.com/OpenGVLab/efficient-video-recognition

基于上述兩方面特點,來自香港中文大學、上海人工智能實驗室等機構的研究者提出了高效的視頻理解遷移學習框架 EVL,通過固定骨干基礎模型的權重,節省了訓練計算量和內存消耗;同時通過利用多層次、細粒度的中間特征,盡可能保持了傳統端到端微調的靈活性。

下圖 1 展示了 EVL 方法在視頻理解數據集 Kinetics-400 上的結果。實驗顯示,本文方法在節省訓練開銷的同時,仍然充分發掘了視覺基礎模型在視頻理解任務中的潛力。

圖片

圖 1:Kinetics-400 識別精度比較,橫軸為推理計算量,縱軸為精度。

方法

算法的總體示意圖如圖 2(a)所示。對于一個視頻樣本,我們取其中的 T 幀輸入一個圖像識別網絡(以 CLIP 為例)并提取特征。與傳統方法相比,我們從圖像識別網絡的最后幾層中提取多層、未池化的特征,從而獲取更豐富、更細粒度的圖像信息;并且圖像識別網絡的參數權重在視頻學習中始終保持固定。隨后,多層特征圖依次輸入一個 Transformer 解碼器進行視頻級信息聚合。經多層解碼后的 [CLS] 特征將用于生成最終的分類預測。

如圖 2(b)所示,由于 Transformer 解碼器聚合特征時的無序性,我們在網絡中添加了額外的時序信息建模模塊,以更好地提取位置有關的細粒度時序信息。具體而言,我們添加 3 種額外的位置有關時序信息:第一是時間位置嵌入(Position Embeddings),第二是時間維度深度可分卷積(Depthwise Convolution),第三是相鄰幀間的注意力信息。對于幀間注意力信息,我們從圖像識別網絡中提取對應層的 Query 和 Key 特征,并在相鄰幀之間計算注意力圖(不同于圖像識別網絡中,注意力圖是由來自同一幀內的 Query 和 Key 特征得到)。所得的注意力圖能顯式地反映出相鄰幀之間物體的位置變化。注意力圖經過線性投影后得到反應物體位移特征的向量組,并以逐元素相加的形式融合入圖像特征中。

圖片

圖 2:EVL 算法結構圖。(a)總體結構,(b)時序信息建模模塊。

圖片

圖片

圖 3:幀間注意力特征的數學表達。

實驗

在圖 1 和表 1 中,我們引用了之前視頻理解中的部分重要方法。盡管著力于減小訓練開銷,我們的方法仍然能在精度方面領先于現有方法(相同計算量下)。

表 2 中我們展示了固定骨干網絡帶來的訓練開銷降低。內存方面,在 V100 16GB GPU 上,固定骨干網絡可以使單卡 batch size 最高達到 64,而端到端訓練則只能達到 8;時間方面,固定骨干網絡可以節省 3 至 4 倍的訓練時間。

表 3 中我們展示了細粒度特征圖對識別性能的提升。多層的未經池化特征使得我們在固定骨干網絡權值時仍然能保持相當程度的靈活性。使用未經池化的特征帶來的提升最為顯著(大約 3%),其次,使用多層解碼器和中間層特征也能分別帶來大約 1% 的性能提升。

最后我們在表 4 中展示了細粒度時序信息模塊的效果。盡管細粒度時序信息對 Kinetics-400 的性能影響有限,但它們對于 Something-Something-v2 的性能十分重要:3 種細粒度時序信息模塊在 Kinetics-400 和 Something-Something-v2 上分別合計帶來大約 0.5% 和大約 14% 的性能提升。

圖片

表 1:Kinetics-400 上與現有方法的對比結果

圖片

表 2:固定骨干網絡權重帶來的訓練開銷降低

圖片

表 3:細粒度特征圖對精度的影響

圖片

表 4:細粒度時序信息建模在不同數據集上的效果

總結

本文提出了 EVL 視頻理解學習框架,首次展示了固定的圖像骨干網絡在視頻理解問題上的巨大潛力,也使得高性能的視頻理解對于計算資源有限的研究群體更加友好。我們也相信隨著視覺基礎模型在質量及規模上的提升,我們的方法能為后續的輕量級遷移學習算法研究提供參考。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-19 11:28:00

2025-02-10 14:05:00

訓練模型AI

2024-07-03 12:12:33

訓練模型

2025-05-09 08:19:00

2024-08-30 12:58:43

AI多模態技術

2022-07-17 13:07:26

模型開源

2023-04-13 15:40:59

模型論文

2023-06-05 10:09:03

研究人工智能

2025-06-25 09:02:05

2024-11-05 13:40:00

2025-02-27 13:00:00

2025-06-16 14:40:40

模型AI訓練

2024-04-30 14:39:33

2025-05-19 08:37:00

2024-09-23 15:40:00

2021-12-01 10:05:12

模型人工智能計算

2022-07-22 11:09:49

人工智能AIops

2025-04-11 09:35:34

2022-05-12 13:39:48

AI研究模型

2024-06-04 09:48:14

自動駕駛模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91久久精品国产91久久 | 亚洲三区视频 | 亚洲福利在线观看 | 伊人激情综合网 | 精品在线99 | 国产伦精品一区二区 | 亚洲欧美在线视频 | 日韩一二三 | 看片地址 | 日韩精品在线看 | 亚洲综合天堂 | 午夜伊人| 嫩草视频在线免费观看 | 欧美成人免费在线视频 | 瑟瑟视频在线看 | 国产乱精品一区二区三区 | 欧美八区 | 日本一区二区在线视频 | 在线三级电影 | 国产成人网 | 精品久久久久久久久久久 | 日韩国产一区二区三区 | 国产精品揄拍一区二区 | 激情欧美日韩一区二区 | 一区二区在线免费播放 | 午夜在线观看免费 | 日韩在线综合网 | a在线v| 国产成人jvid在线播放 | 欧美性大战久久久久久久蜜臀 | 色综合天天天天做夜夜夜夜做 | 男女污污动态图 | aaaaaaa片毛片免费观看 | 中文字幕丁香5月 | 九色国产| 欧美激情a∨在线视频播放 成人免费共享视频 | 色婷婷av久久久久久久 | 天天草av| 国产伦一区二区三区 | 视频一区二区三区四区五区 | 中文字幕国产 |