賈佳亞團隊聯(lián)合Adobe提出GenProp，物體追蹤移除特效樣樣在行

作者：機器之心 2025-01-24 14:14:35

本文搭建了一個通用的框架，把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆Ｐ?GenProp，可將一幀的修改傳播到整個視頻。

論文一作劉少騰，Adobe Research實習(xí)生，香港中文大學(xué)博士生（DV Lab），師從賈佳亞教授。主要研究方向是多模態(tài)大模型和生成模型，包含圖像視頻的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。

論文地址：https://arxiv.org/pdf/2412.19761
項目地址：https://genprop.github.io/
視頻地址：https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力，這種潛力能革新傳統(tǒng)視覺任務(wù)嗎？

近日，賈佳亞團隊聯(lián)手 Adobe 團隊，用 GenProp（Generative Video Propagation）來給出答案。

GenProp 可以完成幾乎所有 “傳播”（ Propagation）任務(wù)，即便是更接近感知任務(wù)的實例追蹤（Instance Tracking）：

在人們的印象里，追蹤（Tracking）問題已經(jīng)得到了很好的解決。SOTA 方法 SAM 在大規(guī)模分割數(shù)據(jù)上經(jīng)過了專門的訓(xùn)練，精度很高。然而，傳統(tǒng)感知方法的數(shù)據(jù)標(biāo)注很難覆蓋 “千變?nèi)f化” 的影子，強如 SAM 也會在這類問題上犯錯。

相比于 SAM v2.1，GenProp 展現(xiàn)出了生成模型特有的優(yōu)勢：得益于 video generation 的基礎(chǔ)能力，模型可以完整地追蹤物體的 side effects，如狗和人的影子、反射等。

這給我們帶來了一些啟發(fā)：

能夠生成的視覺現(xiàn)象，是否都能夠被感知？
生成式的大規(guī)模預(yù)訓(xùn)練，可能會彌補感知模型的一些缺陷。

GenProp 并不追求在某個問題上成為定量的 SOTA，而是希望能夠發(fā)揮生成模型的作用，拓展每個問題的邊界，展現(xiàn)之前方法做不到的事情。接下來，我們會看到 GenProp 對物體移除、視頻補全、物體替換、背景替換、物體插入、視頻外繪等問題的革新。

對于物體移除，傳統(tǒng)方法只能移除物體本身。和追蹤問題類似，GenProp 也可以同時移除物體產(chǎn)生的 side effects，如反射、影子。這對于傳統(tǒng)方法很困難，因為數(shù)據(jù)多變、難以收集，需要模型對物理規(guī)律有理解。

對于物體插入，GenProp 不僅能插入靜止物體，還可以產(chǎn)生合理的獨立運動，如行駛的賽車、掉落的檸檬（符合物理規(guī)律）。

對于物體替換，GenProp 不止能編輯外觀（appearance editing），還能大幅改變替換物體的形狀，例如熊變成羊，人變成石臺。而依靠 attention map 的傳統(tǒng)視頻編輯方法，如 Video-P2P，都無法大幅改變形狀。

GenProp 還可以編輯特效，如使釣魚竿著火！須知，現(xiàn)階段的編輯算法大多圍繞物體和場景，對于特效的編輯能力都較弱。

對于背景替換，GenProp 能使生成物體和新背景的相互作用，適應(yīng)協(xié)調(diào)：

除此之外，GenProp 在沒有 outpainting 數(shù)據(jù) pair 訓(xùn)練的情況下，涌現(xiàn)出了 outpainting 的能力，可以補全大面積運動的區(qū)域，體現(xiàn)了模型的通用能力：

化繁為簡：通用框架與通用數(shù)據(jù)對

GenProp 允許用戶在初始幀上做任意修改，并據(jù)此生成后續(xù)變化的內(nèi)容。

在推理過程中，GenProp 的框架通過選擇性內(nèi)容編碼器（Selective Content Encoder，SCE）接收原始視頻作為輸入，以保留未改變區(qū)域的內(nèi)容。首幀所做的更改會通過 Image-to-Video（I2V）模型在整個視頻中傳播，而其他區(qū)域則保持不變。

如圖所示，Selective Content Encoder 負(fù)責(zé)重建原始視頻的信息，Image-to-Video 模型負(fù)責(zé)生產(chǎn)新的視頻信息。通過調(diào)整 Injection Weight，可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基礎(chǔ)上集成了選擇性內(nèi)容編碼器（Selective Content Encoder，SCE）和掩碼預(yù)測解碼器（Mask Decoder），強制模型傳播編輯區(qū)域的同時，保留原始視頻中其他所有區(qū)域的內(nèi)容。通過 Copy & Paste 等合成數(shù)據(jù)，模型被訓(xùn)練以傳播首幀中的各種變化，同時還可以預(yù)測每幀中被編輯區(qū)域的位置。

如圖所示，訓(xùn)練過程中，僅需放開 Selective Content Encoder 和 Mask Decoder 的參數(shù)。合成數(shù)據(jù)只作為 Selective Content Encoder 的輸入，用于監(jiān)督的模型輸出數(shù)據(jù)均采用原始視頻，從而保證了模型輸出的視頻質(zhì)量不會被降低。這也意味著，原始視頻的 caption 可以直接送入 text encoder。

具體來說，文章對實例分割數(shù)據(jù)采用了多種數(shù)據(jù)制造技術(shù)，針對不同的傳播子任務(wù)進(jìn)行了設(shè)計：

(1) Copy-and-Paste：從一個視頻中隨機分割物體并粘貼到另一個視頻中，模擬物體移除；

(2) Mask-and-Fill：對遮罩區(qū)域進(jìn)行圖像修復(fù)，模擬選定區(qū)域內(nèi)的編輯效果；

(3) Color Fill：用特定顏色填充遮罩區(qū)域，代表基本的物體跟蹤場景。

Copy & Paste 合成數(shù)據(jù)如圖所示（Video1 和 Video2 是隨機采樣的視頻）：

可以看出，GenProp 的數(shù)據(jù)對并無涵蓋所有的應(yīng)用場景，但數(shù)據(jù)量很大。通過有限的構(gòu)造數(shù)據(jù)，SCE 和 I2V 的分工得到了充分訓(xùn)練，實現(xiàn)了 “無限” 應(yīng)用，如特效編輯、outpainting 等。

除此之外，GenProp 提出了區(qū)域感知損失（Region-Aware Loss）。該 loss 通過限制梯度的方式，削弱了 SCE 對于編輯區(qū)域的影響，幫助模型將編輯區(qū)域與原始內(nèi)容區(qū)分開來。

可以觀察到，在注意力圖可視化過程中，注意力圖逐漸聚焦于要移除的區(qū)域（左邊的天鵝），引導(dǎo) I2V 模型在這些區(qū)域內(nèi)生成新內(nèi)容，符合訓(xùn)練的預(yù)期：

總結(jié)

本文搭建了一個通用的框架，把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆Ｐ?GenProp，可將一幀的修改傳播到整個視頻。對于去除任務(wù)，模型可去除物體的 side effects（如影子、反射）。對于修改任務(wù)，模型可修改物體的一小部分，也可進(jìn)行較大形變的修改。對于背景修改，模型能夠生成物體和新背景的相互作用。對于物體插入，模型能夠允許物體獨立的運動。對于物體追蹤，模型能夠同時追蹤 side effects（如影子、反射）。此外，模型還涌現(xiàn)出了如 outpainting 等新能力。

責(zé)任編輯：張燕妮來源：機器之心

模型框架視頻

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈佳亞團隊聯(lián)合Adobe提出GenProp，物體追蹤移除特效樣樣在行

化繁為簡：通用框架與通用數(shù)據(jù)對

總結(jié)