固定參數的模型有多大潛力？港中文、上海AI Lab等提出高效視頻理解框架EVL

作者：機器之心 2022-09-30 15:15:41

來自香港中文大學、上海人工智能實驗室等機構的研究者提出了高效的視頻理解遷移學習框架 EVL，通過固定骨干基礎模型的權重，節省了訓練計算量和內存消耗。

視覺基礎模型近兩年取得了矚目發展。從一方面而言，基于大規模互聯網數據的預訓練已經給模型預置了大量的語義概念，從而具有良好的泛化性能；但另一方面，為充分利用大規模數據集帶來的模型尺寸增長，使得相關模型在遷移到下游任務時面臨著低效率問題，尤其是對于需要處理多幀的視頻理解模型。

論文鏈接：https://arxiv.org/abs/2208.03550
代碼鏈接：https://github.com/OpenGVLab/efficient-video-recognition

基于上述兩方面特點，來自香港中文大學、上海人工智能實驗室等機構的研究者提出了高效的視頻理解遷移學習框架 EVL，通過固定骨干基礎模型的權重，節省了訓練計算量和內存消耗；同時通過利用多層次、細粒度的中間特征，盡可能保持了傳統端到端微調的靈活性。

下圖 1 展示了 EVL 方法在視頻理解數據集 Kinetics-400 上的結果。實驗顯示，本文方法在節省訓練開銷的同時，仍然充分發掘了視覺基礎模型在視頻理解任務中的潛力。

圖 1：Kinetics-400 識別精度比較，橫軸為推理計算量，縱軸為精度。

方法

算法的總體示意圖如圖 2（a）所示。對于一個視頻樣本，我們取其中的 T 幀輸入一個圖像識別網絡（以 CLIP 為例）并提取特征。與傳統方法相比，我們從圖像識別網絡的最后幾層中提取多層、未池化的特征，從而獲取更豐富、更細粒度的圖像信息；并且圖像識別網絡的參數權重在視頻學習中始終保持固定。隨后，多層特征圖依次輸入一個 Transformer 解碼器進行視頻級信息聚合。經多層解碼后的 [CLS] 特征將用于生成最終的分類預測。

如圖 2（b）所示，由于 Transformer 解碼器聚合特征時的無序性，我們在網絡中添加了額外的時序信息建模模塊，以更好地提取位置有關的細粒度時序信息。具體而言，我們添加 3 種額外的位置有關時序信息：第一是時間位置嵌入（Position Embeddings），第二是時間維度深度可分卷積（Depthwise Convolution），第三是相鄰幀間的注意力信息。對于幀間注意力信息，我們從圖像識別網絡中提取對應層的 Query 和 Key 特征，并在相鄰幀之間計算注意力圖（不同于圖像識別網絡中，注意力圖是由來自同一幀內的 Query 和 Key 特征得到）。所得的注意力圖能顯式地反映出相鄰幀之間物體的位置變化。注意力圖經過線性投影后得到反應物體位移特征的向量組，并以逐元素相加的形式融合入圖像特征中。

圖 2：EVL 算法結構圖。（a）總體結構，（b）時序信息建模模塊。

圖 3：幀間注意力特征的數學表達。

實驗

在圖 1 和表 1 中，我們引用了之前視頻理解中的部分重要方法。盡管著力于減小訓練開銷，我們的方法仍然能在精度方面領先于現有方法（相同計算量下）。

表 2 中我們展示了固定骨干網絡帶來的訓練開銷降低。內存方面，在 V100 16GB GPU 上，固定骨干網絡可以使單卡 batch size 最高達到 64，而端到端訓練則只能達到 8；時間方面，固定骨干網絡可以節省 3 至 4 倍的訓練時間。

表 3 中我們展示了細粒度特征圖對識別性能的提升。多層的未經池化特征使得我們在固定骨干網絡權值時仍然能保持相當程度的靈活性。使用未經池化的特征帶來的提升最為顯著（大約 3%），其次，使用多層解碼器和中間層特征也能分別帶來大約 1% 的性能提升。

最后我們在表 4 中展示了細粒度時序信息模塊的效果。盡管細粒度時序信息對 Kinetics-400 的性能影響有限，但它們對于 Something-Something-v2 的性能十分重要：3 種細粒度時序信息模塊在 Kinetics-400 和 Something-Something-v2 上分別合計帶來大約 0.5% 和大約 14% 的性能提升。