成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024

發布于 2024-4-3 12:34
瀏覽
0收藏

短視頻在當下社交媒體逐漸成為主導的視頻格式。傳統視頻處理技術和研究一般都專注于橫屏視頻的理解和解析,而豎屏視頻因其拍攝手法和內容重點不同,展示出與橫屏視頻數據不同的特性。


針對這一不同,字節跳動技術團隊發布了專注于豎屏視頻理解的數據集,提出了多個針對豎屏視頻處理的技術點以及一個初始方案。這項研究對準確的豎屏視頻理解和基礎技術架構有較為重要的意義,論文已入選 CVPR2024。


視頻 demo 展示、數據特性演示以及豎屏視頻類別分類,請見 https://mingfei.info/PMV

還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區

論文地址:https://arxiv.org/abs/2312.13746


視頻分類作為基礎的計算機視覺技術,對視頻內容的分類、特征提取,以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺上主導的短視頻格式,受到用戶的廣泛青睞。而豎屏的視頻分類技術在目前的研究中鮮有關注,為了激發這一領域的研究,團隊提出了一個專用的數據集 PortraitMode-400,包含真實的視頻數據和 400 個結構化的類別標簽。


進一步,通過自建數據和公開數據子集實驗,團隊初步展示了橫屏數據和豎屏數據之間的不同,和獨特的先驗分布,并針對不同的技術點進行實驗,提出了針對豎屏視頻處理的技術方案。


還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區


團隊首先從公開數據 Kinetics-700 中抽取包含豎屏視頻數量的子集 S100-PM,并對應的抽取同等數量的橫屏視頻得到 S100-LM。團隊分別在 S100-PM 和 S100-LM 上訓練兩個相同的模型(不含任何預訓練),并在相同的測試集上進行公平測試,以觀察豎屏和橫屏視頻所含的不同數據特性。


如下方所示,以上半為例,團隊將 S100-PM 訓練的模型在豎屏測試集上做滑窗測試(16x9 個不重疊的均勻分布的滑窗)得到 Probing-P,同樣的可以得到 S100-LM 訓練模型的測試結果 Probing-L。為了觀察 S100-PM 模型對 S100-LM 模型的優勢,團隊做差值圖得到 c 圖,黃色框 1 表示此位置豎屏訓練的模型以大于 9 個點的差值顯著優于橫屏訓練的模型。同樣的,團隊可以得到下半所示的差值圖,S100-LM 訓練模型在橫屏中下區域的準確率低于 S100-PM 訓練模型。


可以觀察得到,在確保所有訓練和測試條件一致的情況下,訓練數據的不同帶來準確率空間分布上的顯著差異,而且差值呈啞鈴狀分布。


還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區


還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區


橫屏與豎屏視頻的不同,說明豎屏視頻是一種不同于以往數據的新視頻格式,有著不同的數據特性。為了進一步推動領域研究,團隊提出了數據集 PortraitMode-400,通過自底向上的方式綜合大量的熱門搜索詞,人工篩查和提取得到 400 個包含顯著動作內容的類別集合,涵蓋從飲食運動到休閑娛樂等等領域。每個類別包含至少 100 個公開的豎屏視頻鏈接,并已通過人工審查的方式確保數據的高質量可用。


還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區


此外,團隊還真對豎屏視頻數據的不同特性進行實驗,以期提出一套合理有效的技術方案。為此,團隊利用不同的模型類別,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在豎屏數據上進行廣泛實驗。團隊發現,與傳統橫屏數據處理相比,豎屏數據對數據預處理有著不一樣的傾向。


如下圖上半所示,在 CNN 模型下傾向于 Inception-style 方案,而在 Transformer 類模型下傾向于 shorter-side resize 方案。進一步的,團隊發現更好的保持原始視頻在訓練時的長寬比,可以在同等測試條件下獲得更好的準確率。


如下半所示,隨著采樣框長寬比增大,Transformer 類模型表現逐漸增強,而 CNN 模型表現相反。這些實驗現象表明了,豎屏數據不同于橫屏數據的特性;提供了不同模型架構下的訓練偏好設置。

還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區

還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區

最后,團隊還在時間信息顯著性、音頻模態重要性等方面進行了實驗。發現時間信息的加入和音頻模態的引入,都可以對豎屏數據的準確率帶來不小的提升,展示了在相關領域的研究空間和可能性。


還得是抖音,字節推出豎屏視頻理解數據集,入選CVPR2024-AI.x社區

應用落地和展望

視頻分類作為基礎的計算機視覺技術,對視頻內容的分類、特征提取,以及推薦等有著重要的作用。針對豎屏視頻的專門研究可以進一步推動相關技術的發展,增強內容推薦等關鍵能力,進一步激發豎屏領域的其他類型研究,如生成等。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/UGSzyUkR3K4pQ9TUB-ZzHA??

已于2024-4-3 12:35:28修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 精品久久一区 | 国产一区二区三区色淫影院 | 日韩三级在线观看 | 亚洲福利网 | 日本一区二区高清不卡 | 91麻豆精品国产91久久久久久 | 欧美日韩国产一区二区 | 欧美全黄 | 红色av社区 | 亚洲国产精品一区二区第一页 | 久久国产精品免费一区二区三区 | 成人国产在线视频 | 找个黄色片 | 国产黄色在线 | 久草日韩| 夜夜骑首页 | 亚洲国产精品人人爽夜夜爽 | 久久亚洲春色中文字幕久久久 | 性网站免费 | 一区二区三区四区不卡 | 日本手机看片 | 精品在线一区二区三区 | 一区二区三区四区五区在线视频 | 久久久亚洲精品视频 | 精品欧美乱码久久久久久1区2区 | 日韩欧美中文字幕在线观看 | 成人免费毛片片v | 久久国产精品免费一区二区三区 | 美女视频久久 | 91不卡| 中文字幕一区在线观看视频 | 99久久精品免费看国产免费软件 | 另类视频在线 | 日本精品视频在线观看 | 久久精品中文字幕 | 亚洲国产精品福利 | 亚洲自拍偷拍欧美 | 久久综合亚洲 | 成人激情视频在线播放 | 久久久久久精 | 亚洲高清成人在线 |