成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

賈佳亞團隊聯(lián)合Adobe提出GenProp,物體追蹤移除特效樣樣在行

人工智能 新聞
本文搭建了一個通用的框架,把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆P?GenProp,可將一幀的修改傳播到整個視頻。

論文一作劉少騰,Adobe Research實習(xí)生,香港中文大學(xué)博士生(DV Lab),師從賈佳亞教授。主要研究方向是多模態(tài)大模型和生成模型,包含圖像視頻的生成、理解與編輯。作者Tianyu Wang、Soo Ye Kim等均為Adobe Research Scientist。

圖片

  • 論文地址:https://arxiv.org/pdf/2412.19761
  • 項目地址:https://genprop.github.io/
  • 視頻地址:https://www.youtube.com/watch?v=GC8qfWzZG1M

Text-to-Video 模型已展現(xiàn)出世界模擬器的潛力,這種潛力能革新傳統(tǒng)視覺任務(wù)嗎?

近日,賈佳亞團隊聯(lián)手 Adobe 團隊,用 GenProp(Generative Video Propagation)來給出答案。

GenProp 可以完成幾乎所有 “傳播”( Propagation)任務(wù),即便是更接近感知任務(wù)的實例追蹤(Instance Tracking)

在人們的印象里,追蹤(Tracking)問題已經(jīng)得到了很好的解決。SOTA 方法 SAM 在大規(guī)模分割數(shù)據(jù)上經(jīng)過了專門的訓(xùn)練,精度很高。然而,傳統(tǒng)感知方法的數(shù)據(jù)標(biāo)注很難覆蓋 “千變?nèi)f化” 的影子,強如 SAM 也會在這類問題上犯錯。

圖片


相比于 SAM v2.1,GenProp 展現(xiàn)出了生成模型特有的優(yōu)勢:得益于 video generation 的基礎(chǔ)能力,模型可以完整地追蹤物體的 side effects,如狗和人的影子、反射等。

這給我們帶來了一些啟發(fā):

  • 能夠生成的視覺現(xiàn)象,是否都能夠被感知?
  • 生成式的大規(guī)模預(yù)訓(xùn)練,可能會彌補感知模型的一些缺陷。

GenProp 并不追求在某個問題上成為定量的 SOTA,而是希望能夠發(fā)揮生成模型的作用,拓展每個問題的邊界,展現(xiàn)之前方法做不到的事情。接下來,我們會看到 GenProp 對物體移除、視頻補全、物體替換、背景替換、物體插入、視頻外繪等問題的革新。

對于物體移除,傳統(tǒng)方法只能移除物體本身。和追蹤問題類似,GenProp 也可以同時移除物體產(chǎn)生的 side effects,如反射、影子。這對于傳統(tǒng)方法很困難,因為數(shù)據(jù)多變、難以收集,需要模型對物理規(guī)律有理解。

圖片

對于物體插入,GenProp 不僅能插入靜止物體,還可以產(chǎn)生合理的獨立運動,如行駛的賽車、掉落的檸檬(符合物理規(guī)律)。

圖片

圖片

對于物體替換,GenProp 不止能編輯外觀(appearance editing),還能大幅改變替換物體的形狀,例如熊變成羊,人變成石臺。而依靠 attention map 的傳統(tǒng)視頻編輯方法,如 Video-P2P,都無法大幅改變形狀。

圖片

圖片

GenProp 還可以編輯特效,如使釣魚竿著火!須知,現(xiàn)階段的編輯算法大多圍繞物體和場景,對于特效的編輯能力都較弱。

圖片

圖片

對于背景替換,GenProp 能使生成物體和新背景的相互作用,適應(yīng)協(xié)調(diào):

圖片

圖片

除此之外,GenProp 在沒有 outpainting 數(shù)據(jù) pair 訓(xùn)練的情況下,涌現(xiàn)出了 outpainting 的能力,可以補全大面積運動的區(qū)域,體現(xiàn)了模型的通用能力:

圖片

圖片

化繁為簡:通用框架與通用數(shù)據(jù)對

GenProp 允許用戶在初始幀上做任意修改,并據(jù)此生成后續(xù)變化的內(nèi)容。

在推理過程中,GenProp 的框架通過選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)接收原始視頻作為輸入,以保留未改變區(qū)域的內(nèi)容。首幀所做的更改會通過 Image-to-Video(I2V)模型在整個視頻中傳播,而其他區(qū)域則保持不變。

圖片


如圖所示,Selective Content Encoder 負(fù)責(zé)重建原始視頻的信息,Image-to-Video 模型負(fù)責(zé)生產(chǎn)新的視頻信息。通過調(diào)整 Injection Weight,可以控制生成和重建的比例。

GenProp 的框架在 I2V 生成模型的基礎(chǔ)上集成了選擇性內(nèi)容編碼器(Selective Content Encoder,SCE)和掩碼預(yù)測解碼器(Mask Decoder),強制模型傳播編輯區(qū)域的同時,保留原始視頻中其他所有區(qū)域的內(nèi)容。通過 Copy & Paste 等合成數(shù)據(jù),模型被訓(xùn)練以傳播首幀中的各種變化,同時還可以預(yù)測每幀中被編輯區(qū)域的位置。

圖片

如圖所示,訓(xùn)練過程中,僅需放開 Selective Content Encoder 和 Mask Decoder 的參數(shù)。合成數(shù)據(jù)只作為 Selective Content Encoder 的輸入,用于監(jiān)督的模型輸出數(shù)據(jù)均采用原始視頻,從而保證了模型輸出的視頻質(zhì)量不會被降低。這也意味著,原始視頻的 caption 可以直接送入 text encoder。

具體來說,文章對實例分割數(shù)據(jù)采用了多種數(shù)據(jù)制造技術(shù),針對不同的傳播子任務(wù)進(jìn)行了設(shè)計:

(1) Copy-and-Paste:從一個視頻中隨機分割物體并粘貼到另一個視頻中,模擬物體移除;

(2) Mask-and-Fill:對遮罩區(qū)域進(jìn)行圖像修復(fù),模擬選定區(qū)域內(nèi)的編輯效果;

(3) Color Fill:用特定顏色填充遮罩區(qū)域,代表基本的物體跟蹤場景。

Copy & Paste 合成數(shù)據(jù)如圖所示(Video1 和 Video2 是隨機采樣的視頻):

圖片

可以看出,GenProp 的數(shù)據(jù)對并無涵蓋所有的應(yīng)用場景,但數(shù)據(jù)量很大。通過有限的構(gòu)造數(shù)據(jù),SCE 和 I2V 的分工得到了充分訓(xùn)練,實現(xiàn)了 “無限” 應(yīng)用,如特效編輯、outpainting 等。

除此之外,GenProp 提出了區(qū)域感知損失(Region-Aware Loss)。該 loss 通過限制梯度的方式,削弱了 SCE 對于編輯區(qū)域的影響,幫助模型將編輯區(qū)域與原始內(nèi)容區(qū)分開來。

圖片

可以觀察到,在注意力圖可視化過程中,注意力圖逐漸聚焦于要移除的區(qū)域(左邊的天鵝),引導(dǎo) I2V 模型在這些區(qū)域內(nèi)生成新內(nèi)容,符合訓(xùn)練的預(yù)期:

圖片

總結(jié)

本文搭建了一個通用的框架,把視頻生成模型轉(zhuǎn)變?yōu)榫庉嬆P?GenProp,可將一幀的修改傳播到整個視頻。對于去除任務(wù),模型可去除物體的 side effects(如影子、反射)。對于修改任務(wù),模型可修改物體的一小部分,也可進(jìn)行較大形變的修改。對于背景修改,模型能夠生成物體和新背景的相互作用。對于物體插入,模型能夠允許物體獨立的運動。對于物體追蹤,模型能夠同時追蹤 side effects(如影子、反射)。此外,模型還涌現(xiàn)出了如 outpainting 等新能力。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-08-09 17:38:47

模型AI

2023-10-04 10:38:38

模型方法

2025-04-03 11:16:10

2024-07-18 12:56:29

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2024-07-08 08:38:00

模型推理

2024-04-15 12:28:00

AI模型

2024-04-15 12:54:39

2021-07-19 14:48:55

人工智能AI無人機

2023-12-10 15:05:47

AI模型

2023-10-09 14:17:00

AI模型

2025-05-23 11:07:54

2024-05-06 12:24:00

模型訓(xùn)練

2019-05-22 13:28:59

騰訊優(yōu)圖AI人工智能

2020-01-27 23:25:17

亞信安全火神山醫(yī)院網(wǎng)絡(luò)安全

2022-08-29 09:22:42

AI論文

2010-02-06 09:36:46

gPadChrome

2023-11-10 12:58:00

模型數(shù)據(jù)

2023-09-01 14:49:09

AI微軟
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲一区二区三区四区五区午夜 | 国产伦精品一区二区三区视频金莲 | 久久免费观看视频 | 黄色片网此 | 国产精品亚洲综合 | 成人免费在线小视频 | 日韩欧美天堂 | 91久色 | 中文字幕一区二区在线观看 | 日韩免费一区二区 | 国产精品美女久久久久久免费 | 国产aaaaav久久久一区二区 | 欧美日韩一区精品 | 国产精成人 | 亚洲精品在线免费 | 欧美成人a | 国产精品一区免费 | 国产日韩欧美 | 国产午夜一级 | 亚洲www| 免费黄色录像视频 | 久久久久久久久久久一区二区 | 欧美激情一区 | 精品在线视频播放 | yiren22综合网成人 | 国产清纯白嫩初高生在线播放视频 | 久久久精品一区二区三区四季av | 日韩1区 | 久久中文字幕在线 | 日韩二区 | 国产精品免费福利 | 99久久精品免费看国产四区 | 欧美日韩国产精品 | 狼人伊人影院 | 毛片一级网站 | 交专区videossex农村 | 免费观看一级毛片 | 永久免费在线观看 | 亚洲高清视频在线观看 | 国产精品视频观看 | 国产1区2区在线观看 |