成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="alpat"></noscript>

<button id="alpat"><option id="alpat"><code id="alpat"></code></option></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024

輕薄滴假象

發布于 2024-4-3 12:34

瀏覽

0收藏

短視頻在當下社交媒體逐漸成為主導的視頻格式。傳統視頻處理技術和研究一般都專注于橫屏視頻的理解和解析，而豎屏視頻因其拍攝手法和內容重點不同，展示出與橫屏視頻數據不同的特性。

針對這一不同，字節跳動技術團隊發布了專注于豎屏視頻理解的數據集，提出了多個針對豎屏視頻處理的技術點以及一個初始方案。這項研究對準確的豎屏視頻理解和基礎技術架構有較為重要的意義，論文已入選 CVPR2024。

視頻 demo 展示、數據特性演示以及豎屏視頻類別分類，請見 https://mingfei.info/PMV

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

論文地址：https://arxiv.org/abs/2312.13746

視頻分類作為基礎的計算機視覺技術，對視頻內容的分類、特征提取，以及推薦等有著重要的作用。豎屏視頻是目前社交媒體平臺上主導的短視頻格式，受到用戶的廣泛青睞。而豎屏的視頻分類技術在目前的研究中鮮有關注，為了激發這一領域的研究，團隊提出了一個專用的數據集 PortraitMode-400，包含真實的視頻數據和 400 個結構化的類別標簽。

進一步，通過自建數據和公開數據子集實驗，團隊初步展示了橫屏數據和豎屏數據之間的不同，和獨特的先驗分布，并針對不同的技術點進行實驗，提出了針對豎屏視頻處理的技術方案。

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

團隊首先從公開數據 Kinetics-700 中抽取包含豎屏視頻數量的子集 S100-PM，并對應的抽取同等數量的橫屏視頻得到 S100-LM。團隊分別在 S100-PM 和 S100-LM 上訓練兩個相同的模型（不含任何預訓練），并在相同的測試集上進行公平測試，以觀察豎屏和橫屏視頻所含的不同數據特性。

如下方所示，以上半為例，團隊將 S100-PM 訓練的模型在豎屏測試集上做滑窗測試（16x9 個不重疊的均勻分布的滑窗）得到 Probing-P，同樣的可以得到 S100-LM 訓練模型的測試結果 Probing-L。為了觀察 S100-PM 模型對 S100-LM 模型的優勢，團隊做差值圖得到 c 圖，黃色框 1 表示此位置豎屏訓練的模型以大于 9 個點的差值顯著優于橫屏訓練的模型。同樣的，團隊可以得到下半所示的差值圖，S100-LM 訓練模型在橫屏中下區域的準確率低于 S100-PM 訓練模型。

可以觀察得到，在確保所有訓練和測試條件一致的情況下，訓練數據的不同帶來準確率空間分布上的顯著差異，而且差值呈啞鈴狀分布。

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

橫屏與豎屏視頻的不同，說明豎屏視頻是一種不同于以往數據的新視頻格式，有著不同的數據特性。為了進一步推動領域研究，團隊提出了數據集 PortraitMode-400，通過自底向上的方式綜合大量的熱門搜索詞，人工篩查和提取得到 400 個包含顯著動作內容的類別集合，涵蓋從飲食運動到休閑娛樂等等領域。每個類別包含至少 100 個公開的豎屏視頻鏈接，并已通過人工審查的方式確保數據的高質量可用。

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

此外，團隊還真對豎屏視頻數據的不同特性進行實驗，以期提出一套合理有效的技術方案。為此，團隊利用不同的模型類別，如 CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer）在豎屏數據上進行廣泛實驗。團隊發現，與傳統橫屏數據處理相比，豎屏數據對數據預處理有著不一樣的傾向。

如下圖上半所示，在 CNN 模型下傾向于 Inception-style 方案，而在 Transformer 類模型下傾向于 shorter-side resize 方案。進一步的，團隊發現更好的保持原始視頻在訓練時的長寬比，可以在同等測試條件下獲得更好的準確率。

如下半所示，隨著采樣框長寬比增大，Transformer 類模型表現逐漸增強，而 CNN 模型表現相反。這些實驗現象表明了，豎屏數據不同于橫屏數據的特性；提供了不同模型架構下的訓練偏好設置。

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

最后，團隊還在時間信息顯著性、音頻模態重要性等方面進行了實驗。發現時間信息的加入和音頻模態的引入，都可以對豎屏數據的準確率帶來不小的提升，展示了在相關領域的研究空間和可能性。

還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024-AI.x社區

應用落地和展望

視頻分類作為基礎的計算機視覺技術，對視頻內容的分類、特征提取，以及推薦等有著重要的作用。針對豎屏視頻的專門研究可以進一步推動相關技術的發展，增強內容推薦等關鍵能力，進一步激發豎屏領域的其他類型研究，如生成等。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/UGSzyUkR3K4pQ9TUB-ZzHA??

標簽

計算機視覺視頻

已于2024-4-3 12:35:28修改

贊

收藏

回復

舉報

回復

相關推薦

CVPR 2024 | 通過細粒度人類反饋對齊數據，提高多模態大模型可信度

zhangyannni ? 4087瀏覽 ? 0回復
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 4283瀏覽 ? 0回復
MuLAn：首個實例級RGBA分解數據集

angel ? 3797瀏覽 ? 0回復
字節提出新一代數據集COCONut，比COCO粒度分割更密集

輕薄滴假象 ? 4098瀏覽 ? 0回復
字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

Crystalcxt ? 2678瀏覽 ? 0回復
CVPR 2024 | 合成視頻數據集里只有單人數據？M3Act破解人群行為標注難題

輕薄滴假象 ? 2583瀏覽 ? 0回復
CVPR 2024 視頻場景解析挑戰賽第一名方案詳解

angel ? 3557瀏覽 ? 0回復
ETH北航字節推出LoRA新范式 | ICML 2024

Crystalcxt ? 2682瀏覽 ? 0回復
谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

duhorse ? 3180瀏覽 ? 0回復
百萬級高質量視頻數據集發布，登頂抱抱臉數據集排行榜，中科大&上海AI Lab等出品

Crystalcxt ? 3018瀏覽 ? 0回復
SEED-Bench：基于生成理解的多模態大語言模型基準測試（CVPR2024）

AIRoobt ? 6414瀏覽 ? 0回復
OpenAI、百度、阿里、騰訊、字節、快手最全 AI 工具集，你使用最多的是 ChatGPT 嘛？

wsp_ping ? 4220瀏覽 ? 0回復
能訓出SOTA模型的優質數據集發布！復旦最新VidGen-1M: 文生視頻還得靠好數據

angel ? 2812瀏覽 ? 0回復
破解AI多模態理解難題：浙江大學與字節跳動聯手推出Molecule-Space新方法

AI論文解讀 ? 2975瀏覽 ? 0回復
從數據集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 4625瀏覽 ? 0回復
是時候接受真實世界的檢驗啦！UCLA&谷歌提出首個評估生成視頻物理常識數據集VideoPhy

angel ? 2988瀏覽 ? 0回復
NeurIPS 2024 | 像素級LLM實現圖像視頻理解、生成、分割和編輯大統一

angel ? 4208瀏覽 ? 0回復
曝阿里內部在開發AI殺手級應用，相信會比抖音更受歡迎！吳泳銘要求把AI促增長寫進所有部門績效

51CTO技術棧 ? 1541瀏覽 ? 0回復
快手12篇論文入選CVPR 2025！

快手技術 ? 752瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍

下一篇：值得你花時間看的擴散模型教程，來自普渡大學

社區精華內容

目錄

主站蜘蛛池模板：精品久久一区 | 国产一区二区三区色淫影院 | 日韩三级在线观看 | 亚洲福利网 | 日本一区二区高清不卡 | 91麻豆精品国产91久久久久久 | 欧美日韩国产一区二区 | 欧美全黄 | 红色av社区 | 亚洲国产精品一区二区第一页 | 久久国产精品免费一区二区三区 | 成人国产在线视频 | 找个黄色片 | 国产黄色在线 | 久草日韩| 夜夜骑首页 | 亚洲国产精品人人爽夜夜爽 | 久久亚洲春色中文字幕久久久 | 性网站免费 | 一区二区三区四区不卡 | 日本手机看片 | 精品在线一区二区三区 | 一区二区三区四区五区在线视频 | 久久久亚洲精品视频 | 精品欧美乱码久久久久久1区2区 | 日韩欧美中文字幕在线观看 | 成人免费毛片片v | 久久国产精品免费一区二区三区 | 美女视频久久 | 91不卡| 中文字幕一区在线观看视频 | 99久久精品免费看国产免费软件 | 另类视频在线 | 日本精品视频在线观看 | 久久精品中文字幕 | 亚洲国产精品福利 | 亚洲自拍偷拍欧美 | 久久综合亚洲 | 成人激情视频在线播放 | 久久久久久精 | 亚洲高清成人在线 |