Video Depth Anything來了！字節開源首款10分鐘級長視頻深度估計模型，性能SOTA

作者：機器之心 2025-01-27 12:12:25

近期，字節智能創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything（VDA）成功解決這一難題。

Video Depth Anything 工作來自字節跳動智能創作 AR 團隊與豆包大模型團隊。字節跳動智能創作 AR 團隊致力于建設領先的計算機視覺、音視頻編輯、特效處理、3D 視覺與增強現實（AR）等技術。豆包大模型團隊成立于 2023 年，致力于開發先進的 AI 大模型技術，成為業界一流的研究團隊。

單目深度估計模型，可根據二維 RGB 圖像估計每個像素點的深度信息，在增強現實、3D 重建、自動駕駛領域應用廣泛。作為此領域的代表性成果，Depth Anything 系列在 Github 已總計收獲 11.6k Stars，應用范圍之廣、受歡迎程度之高也可見一斑。

但時間一致性問題限制了單目深度估計模型在視頻領域的實際應用。如何構建一個又準又穩又快的長視頻深度模型，成為單目深度估計進一步擴大應用范圍的關鍵。

近期，字節智能創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything（VDA）成功解決這一難題。

VDA 基于 Depth Anything V2，它融合了高效的時空頭、精簡的時域一致性損失函數，以及新穎的基于關鍵幀長視頻推理策略，甚至可面向 10 分鐘級的視頻，完成深度估計任務。

在不犧牲泛化能力、細節生成能力和計算效率前提下，VDA 實現了時序穩定的深度估計，且無需引入復雜視頻生成先驗知識，為單目深度估計在視頻領域應用提供全新解決方案。

實驗結果表明，VDA 在視頻數據集的精度和穩定性指標均取得 SOTA，尤其精度提升超過 10 個百分點，且推理速度均遠快于此前同類模型，其速度是此前最高精度模型的 10 倍以上。在 V100 下，較小版本 VDA 模型推理速度甚至可達 30FPS（每秒 30 幀）。

目前，該論文成果和代碼倉庫均已對外公開，項目上線數天已收獲 300+ Stars，X 原貼閱讀量也超過 2 萬，另有多個轉發閱讀量超 1 萬，包括 Gradio 官號。

論文鏈接：https://arxiv.org/abs/2501.12375
項目主頁：https://videodepthanything.github.io/
代碼倉庫：https://github.com/DepthAnything/Video-Depth-Anything

視頻深度估計的挑戰

近年來單目深度估計（MDE）取得顯著進展。以 Depth Anything V2 為例，該模型在多種場景下均能展現強泛化能力，可生成細節豐富的深度預測結果，同時，具備較高的計算效率。

然而，該系列模型存在一定局限。

具體來說，模型主要針對靜態圖像設計，用于視頻場景時，很容易因畫面劇烈變化和運動模糊等因素，造成深度預測準確性和穩定性下降。

在一些對時間一致性要求較高的應用領域，如機器人、增強現實以及高級視頻編輯等，嚴重制約了模型的應用。

近期有一些方法如 DepthCrafter、Depth Any Video，將預訓練視頻擴散模型（ Video Diffusion Models）應用于視頻深度估計。

盡管它們在生成細節方面表現良好，但計算效率較低，無法充分利用現有深度基礎模型，精度也有待提升，處理視頻長度還存在限制，難以滿足實際應用中對長視頻的處理需求。

VDA 模型設計：兼顧預測精度與效率

從單圖深度模型到視頻深度模型

VDA 使用訓好的 Depth Anything V2 模型作為編碼器，并在訓練過程中，固定編碼器參數，降低訓練成本并保留已學習到的特征。

VDA 設計了一個輕量級時空頭（Spatio-Temporal Head，STH），包含四個時間注意力層，這些層在每個空間位置上獨立進行時間維度信息融合。

值得注意的是，VDA 僅在頭部引入時間注意力機制，同時引入圖像和視頻訓練，避免在有限視頻數據上訓練，破壞原有模型特征。

時空一致性約束

為了約束時序一致性，并去除以往視頻深度模型訓練過程中對光流信息的依賴，VDA 提出時序梯度匹配損失（Temporal Gradient Matching Loss）。

具體來說，不再從光流中獲得對應點，直接使用相鄰幀中相同坐標深度來計算損失，假設相鄰幀中相同圖像位置的深度變化應與真實值變化一致，類似于計算時間維度上的梯度：

超長視頻推理策略

為了處理任意視頻長度，VDA 提出關鍵幀對齊和重疊區域插值方法，以對齊全局尺度和偏移，并確保局部窗口之間的平滑推理。

用于推理的后續視頻片段由未來幀、重疊幀和關鍵幀組成，其中，關鍵幀從之前的幀中子采樣得到。

這種方法將早期窗口內容引入當前窗口，保持計算負擔最小，可顯著減少累積的尺度漂移，尤其利于長視頻處理。

實驗結果：

VDA 精度、速度、穩定性均刷新 SOTA

VDA 在 6 個包含室內外場景的 Benchmark 上，從幾何精度、時序穩定性、耗時三個方面和學界 SOTA 方案進行對比。

其中，長視頻 Benchmark 精度和時序穩定性誤差均為最優。其中，VDA-L 在多項評估指標上面獲得最佳，VDA-S 的效果次之，雙雙大幅優于 DepthCrafter 和 DAv2-L。

研究者還發現，隨著視頻長度增長，VDA 比對 DepthCrafter 和 DepthAnyVideo 指標沒有明顯下降，這也是它在超長視頻上實現穩定深度估計的有力證明。

最后，團隊實驗還證明了 VDA 模型耗時遠小于其他視頻深度模型，即使相比單幀模型 Depth Anything V2，耗時也只增加約 10%。尤其 DVA-S 模型，單幀推理時間僅 9.1ms，面向實時性要求較高的場景，具有較大應用潛力。

更多實驗配置和測試細節請移步完整論文（https://arxiv.org/abs/2501.12375）

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Video Depth Anything來了！字節開源首款10分鐘級長視頻深度估計模型，性能SOTA

視頻深度估計的挑戰

VDA 模型設計：兼顧預測精度與效率

實驗結果：

VDA 精度、速度、穩定性均刷新 SOTA

相關工作 Prompt Depth Anything 也已開源