Video Depth Anything來了!字節開源首款10分鐘級長視頻深度估計模型,性能SOTA
Video Depth Anything 工作來自字節跳動智能創作 AR 團隊與豆包大模型團隊。字節跳動智能創作 AR 團隊致力于建設領先的計算機視覺、音視頻編輯、特效處理、3D 視覺與增強現實(AR)等技術。豆包大模型團隊成立于 2023 年,致力于開發先進的 AI 大模型技術,成為業界一流的研究團隊。
單目深度估計模型,可根據二維 RGB 圖像估計每個像素點的深度信息,在增強現實、3D 重建、自動駕駛領域應用廣泛。作為此領域的代表性成果,Depth Anything 系列在 Github 已總計收獲 11.6k Stars,應用范圍之廣、受歡迎程度之高也可見一斑。
但時間一致性問題限制了單目深度估計模型在視頻領域的實際應用。如何構建一個又準又穩又快的長視頻深度模型,成為單目深度估計進一步擴大應用范圍的關鍵。
近期,字節智能創作 AR 團隊聯合豆包大模型團隊開發的 Video Depth Anything(VDA) 成功解決這一難題。
VDA 基于 Depth Anything V2,它融合了高效的時空頭、精簡的時域一致性損失函數,以及新穎的基于關鍵幀長視頻推理策略,甚至可面向 10 分鐘級的視頻,完成深度估計任務。
在不犧牲泛化能力、細節生成能力和計算效率前提下,VDA 實現了時序穩定的深度估計,且無需引入復雜視頻生成先驗知識,為單目深度估計在視頻領域應用提供全新解決方案。
實驗結果表明,VDA 在視頻數據集的精度和穩定性指標均取得 SOTA,尤其精度提升超過 10 個百分點,且推理速度均遠快于此前同類模型,其速度是此前最高精度模型的 10 倍以上。在 V100 下,較小版本 VDA 模型推理速度甚至可達 30FPS(每秒 30 幀)。
目前,該論文成果和代碼倉庫均已對外公開,項目上線數天已收獲 300+ Stars,X 原貼閱讀量也超過 2 萬,另有多個轉發閱讀量超 1 萬,包括 Gradio 官號。
- 論文鏈接:https://arxiv.org/abs/2501.12375
- 項目主頁:https://videodepthanything.github.io/
- 代碼倉庫:https://github.com/DepthAnything/Video-Depth-Anything
視頻深度估計的挑戰
近年來單目深度估計(MDE)取得顯著進展。以 Depth Anything V2 為例,該模型在多種場景下均能展現強泛化能力,可生成細節豐富的深度預測結果,同時,具備較高的計算效率。
然而,該系列模型存在一定局限。
具體來說,模型主要針對靜態圖像設計,用于視頻場景時,很容易因畫面劇烈變化和運動模糊等因素,造成深度預測準確性和穩定性下降。
在一些對時間一致性要求較高的應用領域,如機器人、增強現實以及高級視頻編輯等,嚴重制約了模型的應用。
近期有一些方法如 DepthCrafter、Depth Any Video,將預訓練視頻擴散模型( Video Diffusion Models)應用于視頻深度估計。
盡管它們在生成細節方面表現良好,但計算效率較低,無法充分利用現有深度基礎模型,精度也有待提升,處理視頻長度還存在限制,難以滿足實際應用中對長視頻的處理需求。
VDA 模型設計:兼顧預測精度與效率
- 從單圖深度模型到視頻深度模型
VDA 使用訓好的 Depth Anything V2 模型作為編碼器,并在訓練過程中,固定編碼器參數,降低訓練成本并保留已學習到的特征。
VDA 設計了一個輕量級時空頭(Spatio-Temporal Head,STH),包含四個時間注意力層,這些層在每個空間位置上獨立進行時間維度信息融合。
值得注意的是,VDA 僅在頭部引入時間注意力機制,同時引入圖像和視頻訓練,避免在有限視頻數據上訓練,破壞原有模型特征。
- 時空一致性約束
為了約束時序一致性,并去除以往視頻深度模型訓練過程中對光流信息的依賴,VDA 提出時序梯度匹配損失(Temporal Gradient Matching Loss)。
具體來說,不再從光流中獲得對應點,直接使用相鄰幀中相同坐標深度來計算損失,假設相鄰幀中相同圖像位置的深度變化應與真實值變化一致,類似于計算時間維度上的梯度:
- 超長視頻推理策略
為了處理任意視頻長度,VDA 提出關鍵幀對齊和重疊區域插值方法,以對齊全局尺度和偏移,并確保局部窗口之間的平滑推理。
用于推理的后續視頻片段由未來幀、重疊幀和關鍵幀組成,其中,關鍵幀從之前的幀中子采樣得到。
這種方法將早期窗口內容引入當前窗口,保持計算負擔最小,可顯著減少累積的尺度漂移,尤其利于長視頻處理。
實驗結果:
VDA 精度、速度、穩定性均刷新 SOTA
VDA 在 6 個包含室內外場景的 Benchmark 上,從幾何精度、時序穩定性、耗時三個方面和學界 SOTA 方案進行對比。
其中,長視頻 Benchmark 精度和時序穩定性誤差均為最優。其中,VDA-L 在多項評估指標上面獲得最佳,VDA-S 的效果次之,雙雙大幅優于 DepthCrafter 和 DAv2-L。
研究者還發現,隨著視頻長度增長,VDA 比對 DepthCrafter 和 DepthAnyVideo 指標沒有明顯下降,這也是它在超長視頻上實現穩定深度估計的有力證明。
最后,團隊實驗還證明了 VDA 模型耗時遠小于其他視頻深度模型,即使相比單幀模型 Depth Anything V2,耗時也只增加約 10%。尤其 DVA-S 模型,單幀推理時間僅 9.1ms,面向實時性要求較高的場景,具有較大應用潛力。
更多實驗配置和測試細節請移步完整論文(https://arxiv.org/abs/2501.12375)
相關工作 Prompt Depth Anything 也已開源
除了視頻深度模型外,豆包大模型團隊于近期同浙江大學合作開源了 Prompt Depth Anything 技術,實現了 4K 分辨率下的高精絕對深度估計(Metric Depth),一作豆包大模型團隊實習生同學。
絕對深度估計,指依靠模型,預測場景中每個像素點到攝像機的真實物理距離(以米、毫米等物理單位表示)。相比當前百花齊放的基礎深度估計模型(如 Depth Anything V1&V2、Margold 等),絕對深度估計仍面臨巨大挑戰。
面向該問題,豆包大模型團隊與浙江大學聯合團隊受語言 / 視覺基礎模型中提示詞機制啟發,創新性地提出了深度估計基礎模型的提示機制 ——
通過以 iPhone LiDAR 傳感器采集的 24x24 絕對深度作為提示,促使模型最多可輸出 3840x2160 同精度級別的絕對深度。該方法具有普適性,可應用于任意形式的提示內容,比如車載 LiDAR、雙目匹配深度、相機內參等。
團隊認為,該成果具備廣泛的下游應用空間,比如 3D 重建:
自動駕駛:
機器人抓取任務等:
該項目現已開源,更多方法介紹以及實驗結果見論文主頁(https://promptda.github.io/)。