成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Video Depth Anything來了!字節開源首款10分鐘級長視頻深度估計模型,性能SOTA

人工智能 新聞
近期,字節智能創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything(VDA) 成功解決這一難題。

Video Depth Anything 工作來自字節跳動智能創作 AR 團隊與豆包大模型團隊。字節跳動智能創作 AR 團隊致力于建設領先的計算機視覺、音視頻編輯、特效處理、3D 視覺與增強現實(AR)等技術。豆包大模型團隊成立于 2023 年,致力于開發先進的 AI 大模型技術,成為業界一流的研究團隊。

單目深度估計模型,可根據二維 RGB 圖像估計每個像素點的深度信息,在增強現實、3D 重建、自動駕駛領域應用廣泛。作為此領域的代表性成果,Depth Anything 系列在 Github 已總計收獲 11.6k Stars,應用范圍之廣、受歡迎程度之高也可見一斑。

但時間一致性問題限制了單目深度估計模型在視頻領域的實際應用。如何構建一個又準又穩又快的長視頻深度模型,成為單目深度估計進一步擴大應用范圍的關鍵。

近期,字節智能創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything(VDA) 成功解決這一難題。

VDA 基于 Depth Anything V2,它融合了高效的時空頭、精簡的時域一致性損失函數,以及新穎的基于關鍵幀長視頻推理策略,甚至可面向 10 分鐘級的視頻,完成深度估計任務。

在不犧牲泛化能力、細節生成能力和計算效率前提下,VDA 實現了時序穩定的深度估計,且無需引入復雜視頻生成先驗知識,為單目深度估計在視頻領域應用提供全新解決方案。

實驗結果表明,VDA 在視頻數據集的精度和穩定性指標均取得 SOTA,尤其精度提升超過 10 個百分點,且推理速度均遠快于此前同類模型,其速度是此前最高精度模型的 10 倍以上。在 V100 下,較小版本 VDA 模型推理速度甚至可達 30FPS(每秒 30 幀)。

圖片

目前,該論文成果和代碼倉庫均已對外公開,項目上線數天已收獲 300+ Stars,X 原貼閱讀量也超過 2 萬,另有多個轉發閱讀量超 1 萬,包括 Gradio 官號。

圖片

圖片

  • 論文鏈接:https://arxiv.org/abs/2501.12375
  • 項目主頁:https://videodepthanything.github.io/
  • 代碼倉庫:https://github.com/DepthAnything/Video-Depth-Anything

視頻深度估計的挑戰

近年來單目深度估計(MDE)取得顯著進展。以 Depth Anything V2 為例,該模型在多種場景下均能展現強泛化能力,可生成細節豐富的深度預測結果,同時,具備較高的計算效率。

然而,該系列模型存在一定局限。

具體來說,模型主要針對靜態圖像設計,用于視頻場景時,很容易因畫面劇烈變化和運動模糊等因素,造成深度預測準確性和穩定性下降。

在一些對時間一致性要求較高的應用領域,如機器人、增強現實以及高級視頻編輯等,嚴重制約了模型的應用。

近期有一些方法如 DepthCrafter、Depth Any Video,將預訓練視頻擴散模型( Video Diffusion Models)應用于視頻深度估計。

盡管它們在生成細節方面表現良好,但計算效率較低,無法充分利用現有深度基礎模型,精度也有待提升,處理視頻長度還存在限制,難以滿足實際應用中對長視頻的處理需求。

VDA 模型設計:兼顧預測精度與效率

  • 從單圖深度模型到視頻深度模型

VDA 使用訓好的 Depth Anything V2 模型作為編碼器,并在訓練過程中,固定編碼器參數,降低訓練成本并保留已學習到的特征。

VDA 設計了一個輕量級時空頭(Spatio-Temporal Head,STH),包含四個時間注意力層,這些層在每個空間位置上獨立進行時間維度信息融合。

值得注意的是,VDA 僅在頭部引入時間注意力機制,同時引入圖像和視頻訓練,避免在有限視頻數據上訓練,破壞原有模型特征。

圖片

  • 時空一致性約束

為了約束時序一致性,并去除以往視頻深度模型訓練過程中對光流信息的依賴,VDA 提出時序梯度匹配損失(Temporal Gradient Matching Loss)。

具體來說,不再從光流中獲得對應點,直接使用相鄰幀中相同坐標深度來計算損失,假設相鄰幀中相同圖像位置的深度變化應與真實值變化一致,類似于計算時間維度上的梯度:

圖片

  • 超長視頻推理策略

為了處理任意視頻長度,VDA 提出關鍵幀對齊和重疊區域插值方法,以對齊全局尺度和偏移,并確保局部窗口之間的平滑推理。

用于推理的后續視頻片段由未來幀、重疊幀和關鍵幀組成,其中,關鍵幀從之前的幀中子采樣得到。

這種方法將早期窗口內容引入當前窗口,保持計算負擔最小,可顯著減少累積的尺度漂移,尤其利于長視頻處理。

圖片

實驗結果:

VDA 精度、速度、穩定性均刷新 SOTA

VDA 在 6 個包含室內外場景的 Benchmark 上,從幾何精度、時序穩定性、耗時三個方面和學界 SOTA 方案進行對比。

其中,長視頻 Benchmark 精度和時序穩定性誤差均為最優。其中,VDA-L 在多項評估指標上面獲得最佳,VDA-S 的效果次之,雙雙大幅優于 DepthCrafter 和 DAv2-L。

圖片

研究者還發現,隨著視頻長度增長,VDA 比對 DepthCrafter 和 DepthAnyVideo 指標沒有明顯下降,這也是它在超長視頻上實現穩定深度估計的有力證明。

圖片

最后,團隊實驗還證明了 VDA 模型耗時遠小于其他視頻深度模型,即使相比單幀模型 Depth Anything V2,耗時也只增加約 10%。尤其 DVA-S 模型,單幀推理時間僅 9.1ms,面向實時性要求較高的場景,具有較大應用潛力。

圖片

更多實驗配置和測試細節請移步完整論文(https://arxiv.org/abs/2501.12375)

相關工作 Prompt Depth Anything 也已開源

除了視頻深度模型外,豆包大模型團隊于近期同浙江大學合作開源了 Prompt Depth Anything 技術,實現了 4K 分辨率下的高精絕對深度估計(Metric Depth),一作豆包大模型團隊實習生同學。

絕對深度估計,指依靠模型,預測場景中每個像素點到攝像機的真實物理距離(以米、毫米等物理單位表示)。相比當前百花齊放的基礎深度估計模型(如 Depth Anything V1&V2、Margold 等),絕對深度估計仍面臨巨大挑戰。

面向該問題,豆包大模型團隊與浙江大學聯合團隊受語言 / 視覺基礎模型中提示詞機制啟發,創新性地提出了深度估計基礎模型的提示機制 ——

通過以 iPhone LiDAR 傳感器采集的 24x24 絕對深度作為提示,促使模型最多可輸出 3840x2160 同精度級別的絕對深度。該方法具有普適性,可應用于任意形式的提示內容,比如車載 LiDAR、雙目匹配深度、相機內參等。

團隊認為,該成果具備廣泛的下游應用空間,比如 3D 重建:

自動駕駛:


機器人抓取任務等:

該項目現已開源,更多方法介紹以及實驗結果見論文主頁(https://promptda.github.io/)。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-23 15:40:00

2024-02-01 09:46:04

模型數據

2019-08-19 09:10:14

人工智能深度學習技術

2024-06-28 16:03:38

2024-07-19 10:14:13

2024-06-18 09:25:13

2021-07-15 06:43:11

Bash調試腳本

2013-09-13 14:08:01

2020-10-13 18:22:58

DevOps工具開發

2014-08-08 09:30:04

android scrollview

2021-04-23 09:50:41

topLinux命令

2022-12-16 09:55:50

網絡架構OSI

2021-05-28 07:38:20

內存溢出場景

2021-05-17 20:13:50

數倉操作型數據庫

2022-08-29 15:02:53

遠程桌面

2018-11-28 11:20:53

Python函數式編程編程語言

2021-08-01 21:38:07

網頁點燈網關

2020-10-29 08:28:42

Java NIO異步非阻塞

2023-08-29 06:50:01

Javamaven

2024-04-30 08:28:44

開源大模型Llama
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久噜噜噜精品国产亚洲综合 | 欧美二区三区 | av免费在线观看网站 | 久久精品免费一区二区 | 中文久久 | 午夜99 | 午夜无码国产理论在线 | 一级黄色日本片 | av大片| 精品欧美乱码久久久久久1区2区 | 成人影 | 亚洲国产成人av好男人在线观看 | 黄色永久免费 | 欧美一区二区三区久久精品 | 国产二区在线播放 | 成人精品| 超碰导航 | 久草视| 91精品国产综合久久婷婷香蕉 | 亚洲精品一区中文字幕 | 日韩精品在线免费观看视频 | 欧美a∨ | 亚洲一区日韩 | 玖玖色在线视频 | 欧美日韩亚| 欧美一级黑人aaaaaaa做受 | 成人三级在线播放 | 久久这里有精品 | 国产欧美久久一区二区三区 | 大香网伊人 | 天天干免费视频 | 91精品国产综合久久精品 | h视频免费在线观看 | www.国产精 | 91久久久久久久 | 91免费电影| 欧美激情国产日韩精品一区18 | 特级特黄特色的免费大片 | 国产精品片aa在线观看 | 精品日韩一区 | 91在线观看视频 |