還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024
短視頻在當下社交媒體逐漸成為主導的視頻格式。傳統視頻處理技術和研究一般都專注于橫屏視頻的理解和解析,而豎屏視頻因其拍攝手法和內容重點不同,展示出與橫屏視頻數據不同的特性。
針對這一不同,字節跳動技術團隊發布了專注于豎屏視頻理解的數據集,提出了多個針對豎屏視頻處理的技術點以及一個初始方案。這項研究對準確的豎屏視頻理解和基礎技術架構有較為重要的意義,論文已入選 CVPR2024。
視頻 demo 展示、數據特性演示以及豎屏視頻類別分類,請見 https://mingfei.info/PMV
論文地址:https://arxiv.org/abs/2312.13746
視頻分類作為基礎的計算機視覺技術,對視頻內容的分類、特征提取,以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺上主導的短視頻格式,受到用戶的廣泛青睞。而豎屏的視頻分類技術在目前的研究中鮮有關注,為了激發這一領域的研究,團隊提出了一個專用的數據集 PortraitMode-400,包含真實的視頻數據和 400 個結構化的類別標簽。
進一步,通過自建數據和公開數據子集實驗,團隊初步展示了橫屏數據和豎屏數據之間的不同,和獨特的先驗分布,并針對不同的技術點進行實驗,提出了針對豎屏視頻處理的技術方案。
團隊首先從公開數據 Kinetics-700 中抽取包含豎屏視頻數量的子集 S100-PM,并對應的抽取同等數量的橫屏視頻得到 S100-LM。團隊分別在 S100-PM 和 S100-LM 上訓練兩個相同的模型(不含任何預訓練),并在相同的測試集上進行公平測試,以觀察豎屏和橫屏視頻所含的不同數據特性。
如下方所示,以上半為例,團隊將 S100-PM 訓練的模型在豎屏測試集上做滑窗測試(16x9 個不重疊的均勻分布的滑窗)得到 Probing-P,同樣的可以得到 S100-LM 訓練模型的測試結果 Probing-L。為了觀察 S100-PM 模型對 S100-LM 模型的優勢,團隊做差值圖得到 c 圖,黃色框 1 表示此位置豎屏訓練的模型以大于 9 個點的差值顯著優于橫屏訓練的模型。同樣的,團隊可以得到下半所示的差值圖,S100-LM 訓練模型在橫屏中下區域的準確率低于 S100-PM 訓練模型。
可以觀察得到,在確保所有訓練和測試條件一致的情況下,訓練數據的不同帶來準確率空間分布上的顯著差異,而且差值呈啞鈴狀分布。
橫屏與豎屏視頻的不同,說明豎屏視頻是一種不同于以往數據的新視頻格式,有著不同的數據特性。為了進一步推動領域研究,團隊提出了數據集 PortraitMode-400,通過自底向上的方式綜合大量的熱門搜索詞,人工篩查和提取得到 400 個包含顯著動作內容的類別集合,涵蓋從飲食運動到休閑娛樂等等領域。每個類別包含至少 100 個公開的豎屏視頻鏈接,并已通過人工審查的方式確保數據的高質量可用。
此外,團隊還真對豎屏視頻數據的不同特性進行實驗,以期提出一套合理有效的技術方案。為此,團隊利用不同的模型類別,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在豎屏數據上進行廣泛實驗。團隊發現,與傳統橫屏數據處理相比,豎屏數據對數據預處理有著不一樣的傾向。
如下圖上半所示,在 CNN 模型下傾向于 Inception-style 方案,而在 Transformer 類模型下傾向于 shorter-side resize 方案。進一步的,團隊發現更好的保持原始視頻在訓練時的長寬比,可以在同等測試條件下獲得更好的準確率。
如下半所示,隨著采樣框長寬比增大,Transformer 類模型表現逐漸增強,而 CNN 模型表現相反。這些實驗現象表明了,豎屏數據不同于橫屏數據的特性;提供了不同模型架構下的訓練偏好設置。
最后,團隊還在時間信息顯著性、音頻模態重要性等方面進行了實驗。發現時間信息的加入和音頻模態的引入,都可以對豎屏數據的準確率帶來不小的提升,展示了在相關領域的研究空間和可能性。
應用落地和展望
視頻分類作為基礎的計算機視覺技術,對視頻內容的分類、特征提取,以及推薦等有著重要的作用。針對豎屏視頻的專門研究可以進一步推動相關技術的發展,增強內容推薦等關鍵能力,進一步激發豎屏領域的其他類型研究,如生成等。
本文轉自 機器之心 ,作者:機器之心
