港科大&快手提出統(tǒng)一上下文視頻編輯框架 UNIC,各種視頻編輯任務(wù)一網(wǎng)打盡,還可進(jìn)行多項(xiàng)任務(wù)組合!
由香港科技大學(xué)、快手科技提出的UNIC(統(tǒng)一上下文視頻編輯)是一個(gè)簡(jiǎn)單而有效的框架,它以上下文的方式統(tǒng)一單個(gè)模型中的各種視頻編輯任務(wù)。從此,視頻編輯用著一個(gè)工具就夠了!
ID插入
ID交換
刪除ID
相機(jī)控制
風(fēng)格化
第一幀傳播
緊急任務(wù)組合
UNIC 還表現(xiàn)出了新興任務(wù)組合能力。
重新拍攝+風(fēng)格化
ID+風(fēng)格化
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2506.04216
- 主頁(yè):https://zixuan-ye.github.io/UNIC
論文介紹
UNIC:框架和設(shè)計(jì)
動(dòng)機(jī)
- 基于DDIM反轉(zhuǎn)的方法(例如Video-P2P、FLATTEN):性能欠佳。 附加階段,使推理步驟和總體成本加倍。
- 基于適配器的方法:需要修改模型架構(gòu)。通過(guò)添加適配器模塊引入?yún)?shù)冗余。
它們通常是針對(duì)特定任務(wù)的,需要針對(duì)每個(gè)不同的條件信號(hào)訓(xùn)練單獨(dú)的模塊。這嚴(yán)重阻礙了任務(wù)的可擴(kuò)展性和各種編輯功能的統(tǒng)一。
統(tǒng)一上下文框架
UNIC 通過(guò)將所有輸入(含噪視頻潛伏信號(hào)、參考視頻標(biāo)記以及各種多模態(tài)條件標(biāo)記)處理為一個(gè)組合序列來(lái)統(tǒng)一視頻編輯。這使得擴(kuò)散變換器 (DiT) 的原生注意力機(jī)制能夠“在上下文中”學(xué)習(xí)復(fù)雜的編輯任務(wù),從而提供靈活性和簡(jiǎn)便性。
- 針對(duì)不同任務(wù)的統(tǒng)一模型。
- 將輸入標(biāo)記定義為三種類型。
- 沒(méi)有特定任務(wù)的適配器模塊。
任務(wù)感知 RoPE
根據(jù)任務(wù)類型和視頻長(zhǎng)度動(dòng)態(tài)分配唯一的旋轉(zhuǎn)位置嵌入 (RoPE) 幀索引。這確保了在不同條件下對(duì)時(shí)間的理解和正確對(duì)齊。
條件偏差
為條件標(biāo)記添加特定于任務(wù)的可學(xué)習(xí)嵌入。這有助于模型在模態(tài)重疊時(shí)區(qū)分目標(biāo)任務(wù),從而有效解決歧義。
結(jié)論
論文提出的統(tǒng)一的上下文內(nèi)視頻編輯UNIC是一個(gè)簡(jiǎn)單而有效的框架,它以上下文內(nèi)的方式將不同的視頻編輯任務(wù)統(tǒng)一到一個(gè)模型中。為此,我們將不同視頻編輯任務(wù)的輸入表示為三種類型的標(biāo)記,并將它們集成為一個(gè)統(tǒng)一的標(biāo)記序列,并與擴(kuò)散變換器 (Diffusion Transformer) 的原始全注意力機(jī)制聯(lián)合建模。憑借設(shè)計(jì)的任務(wù)感知 RoPE 和條件偏差,該方法可以靈活地執(zhí)行不同的編輯任務(wù)并支持它們的組合。為了便于評(píng)估,論文還構(gòu)建了一個(gè)統(tǒng)一的視頻編輯基準(zhǔn)。在六個(gè)代表性視頻編輯任務(wù)上進(jìn)行的大量實(shí)驗(yàn)表明,該模型在每項(xiàng)任務(wù)上都表現(xiàn)出卓越的性能,并展現(xiàn)出新興的任務(wù)組合能力。
本文轉(zhuǎn)載自???????AIGC Studio???????,作者:AIGC Studio
