Adobe黑科技:視頻擴散降維圖像編輯,ObjectMover秒懂物理規律
論文第一作者為余鑫,香港大學三年級博士生,通訊作者為香港大學齊曉娟教授。主要研究方向為生成模型及其在圖像和 3D 中的應用,發表計算機視覺和圖形學頂級會議期刊論文數十篇,論文數次獲得 Oral, Spotlight 和 Best Paper Honorable Mention 等榮譽。此項研究工作為作者于 Adobe Research 的實習期間完成。
近年來,圖像生成與編輯技術的快速發展,特別是擴散模型(Diffusion Models)的興起,使得圖像編輯任務取得了顯著進展。然而,現有技術在實現圖像中物體的移動、插入和移除時,仍存在諸多問題:比如物體在新位置的光照與陰影無法與環境真實協調,物體身份特征發生失真,以及物體移動產生的空缺區域無法自然地補全。這些問題在復雜的真實場景中尤為突出。
為解決上述難題,Adobe 聯合香港大學提出了一種新型圖像編輯模型 ——ObjectMover。該模型首次結合視頻擴散模型(Video Diffusion Model)的強大先驗知識,并創新性地使用虛幻引擎(Unreal Engine)合成數據進行訓練,從而實現單張圖像內物體的真實感移動。
- 論文題目:ObjectMover: Generative Object Movement with Video Prior
- 論文鏈接:https://arxiv.org/abs/2503.08037
- 項目主頁:https://xinyu-andy.github.io/ObjMover
實驗結果與效果分析
ObjectMover 可統一地處理圖像編輯中的三個常見任務:物體移動、物體刪除與物體插入。與以往方法不同的是,本文僅需用戶使用邊界框(Bounding Box)指定待編輯的物體及目標位置,無需額外標注(如文本指令或陰影標注),模型即可自動同步處理相關的物理效果(例如陰影、反射等)。
真實感的光影同步調整
如下圖所示,當移動水中人物時,ObjectMover 能夠自動同步調整水中倒影,并識別并調整人物身上的太陽光,使太陽光準確地照射在水面。
再例如下面這個異常困難的具有復雜陰影的例子。當雕像被移動后,其投射在地上的影子也被同步移動。需要注意的是,模型能夠識別哪一部分陰影屬于雕像,而不會移除其他物體的影子,并且還能補全之前被雕像陰影覆蓋的其他物體的陰影。此外,移動后雕像呈現出的透視角度也會隨位置變化而自然調整,且雕像背部原先被遮擋的區域自然地被新位置的太陽光照射。
此外,模型還能有效理解物體的材質特性。例如,下圖展示了透明酒杯移動的實例。當透明酒杯被移動后,模型不會簡單地復制酒杯原位置上透視看到的背景內容,而是精確地去除背景,僅保留酒杯自身的透明材質屬性。當酒杯被移動至新位置時,模型又能準確地透過酒杯重新生成與目標位置環境一致的新背景內容。這充分體現了模型對透明物體材質的深入理解。同時,模型還能夠自動補全原本不完整的酒杯杯體,生成完整的物體外觀。
綜上,ObjectMover 不僅實現了物體位置的簡單變化,更表現出顯著的物理規律理解能力。
多任務處理,一個統一模型
得益于統一的條件輸入框架和多任務訓練機制,ObjectMover 還能有效完成物體刪除與插入任務。如圖所示,刪除任務中,模型能夠真實地填充被移除物體的背景,而非生成不相干的新物體,并準確地移除光影;而在插入任務中,模型能精準保持被插入物體的身份特征,自動生成與環境一致的光影效果。
實驗對比
實驗結果表明,ObjectMover 在物體移動、刪除和插入三個任務中均取得了明顯優于現有方法的圖像質量與真實感。
研究方法與主要創新點
將視頻擴散模型用于單幀圖像編輯任務
傳統圖像編輯方法一般微調單幀圖像擴散模型,這些模型的預訓練階段僅關注單張圖像,沒有學習到物體動態變化過程中的光影調整。而本文提出的核心創新在于,將物體移動任務視為序列到序列(Sequence-to-Sequence)的預測任務,首次應用了預訓練的視頻擴散模型。
具體而言,本文通過將輸入圖像、待移動物體、用戶指令與目標位置統一編碼為視頻序列形式,以不改變模型原架構的前提下直接進行微調,充分利用了視頻模型預訓練時習得的物理規律及物體對應關系(Object Correspondence),從而在圖像編輯任務中實現了精確的光影同步與身份特征保持。
首個利用虛幻引擎(Unreal Engine)生成合成數據進行圖像編輯訓練
由于真實環境中難以獲取大規模精準標注的物體移動數據,傳統方法多依賴人工標注或數據改造,存在數據量不足和質量限制。為此,本文首次利用虛幻引擎生成了豐富、高質量的合成數據集,涵蓋了復雜的光照環境、多樣的物體類型及真實的物體與環境交互。
通過合成數據,本文得以模擬現實世界中多樣的物體移動場景,例如光照強弱變化、物體透視變化及遮擋區域真實補全效果等。此外,本文設計了多種移動軌跡與光照條件,確保模型學習到高度泛化的視覺先驗。
實驗結果證明,虛幻引擎生成的數據與視頻預訓練模型的結合,有效提高了模型在真實圖像編輯任務中的泛化能力。同時,本文提出了基于真實視頻與合成數據的多任務訓練策略,進一步增強模型的泛化表現。