在線教程丨北大施柏鑫團(tuán)隊聯(lián)合貝式計算提出視頻實例重繪方法 VIRES,多項性能指標(biāo)達(dá) SOTA 原創(chuàng)
視頻也能 P 了?
眾所周知,視頻編輯難度極高,若想要調(diào)整或替換主體,變換場景、色彩或是移除一個物體,往往意味著無數(shù)幀的手動標(biāo)注、遮罩繪制和精細(xì)調(diào)色。即使是經(jīng)驗豐富的后期團(tuán)隊,也很難在復(fù)雜場景中保持編輯內(nèi)容的時間一致性。近年來,隨著生成式 AI 的快速發(fā)展,諸如「一鍵消除」等功能逐漸出現(xiàn)在各類剪輯軟件中,令人們看到了 AI 在視頻編輯方面的巨大潛力。
誠然,在實際應(yīng)用中,除了「一刀切」的消除功能外,更高頻使用且難度更大的往往在于替換、增加主體等需求,在技術(shù)方面涉及更加精準(zhǔn)的目標(biāo)識別、分割,以及視頻生成。而當(dāng)前的 AI 方法在復(fù)雜場景中處理這一類視頻重繪任務(wù)時仍存在挑戰(zhàn),例如,當(dāng)前很多零樣本方法在處理連續(xù)視頻幀時容易造成畫面閃爍;對于背景復(fù)雜或多目標(biāo)場景,可能會出現(xiàn)錯位、模糊或語義偏差。
針對于此,北京大學(xué)相機(jī)智能實驗室(施柏鑫團(tuán)隊)聯(lián)合 OpenBayes貝式計算,以及北京郵電大學(xué)人工智能學(xué)院模式識別實驗室李思副教授團(tuán)隊,共同提出了一種結(jié)合草圖與文本引導(dǎo)的視頻實例重繪方法 VIRES,支持對視頻主體的重繪、替換、生成與移除等多種編輯操作。
該方法利用文本生成視頻模型的先驗知識,確保時間上的一致性,同時還提出了帶有標(biāo)準(zhǔn)化自適應(yīng)縮放機(jī)制的 Sequential ControlNet,能夠有效提取結(jié)構(gòu)布局并自適應(yīng)捕捉高對比度的草圖細(xì)節(jié)。更進(jìn)一步地,研究團(tuán)隊在 DiT(diffusion transformer) backbone 中引入草圖注意力機(jī)制,以解讀并注入細(xì)顆粒度的草圖語義。實驗結(jié)果表明,VIRES 在視頻質(zhì)量、時間一致性、條件對齊和用戶評分等多方面均優(yōu)于現(xiàn)有 SOTA 模型。
VIRES 與 5 種現(xiàn)有方法在不同數(shù)據(jù)集上的多類指標(biāo)得分
相關(guān)研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」為題,已入選 CVPR 2025。
目前,「VIRES:草圖與文本雙引導(dǎo)的視頻重繪」已上線至 HyperAI超神經(jīng)官網(wǎng)(hyper.ai)的教程板塊,一鍵部署即可在線體驗高質(zhì)量視頻編輯功能。筆者以定制實例生成為例,在戶外雪地中增加了一只奔跑的柯基,栩栩如生毫無違和感 ??
教程鏈接:??https://go.hyper.ai/49koQ??
我們還為新注冊用戶準(zhǔn)備了驚喜福利,使用邀請碼「
VIRES」注冊 OpenBayes 平臺,即可獲得 4 小時 RTX A6000 免費使用時長(資源有效期為 1 個月),數(shù)量有限,先到先得!
Demo 運行
1.進(jìn)入 hyper.ai 首頁后,選擇「教程」頁面,并選擇「VIRES:草圖與文本雙引導(dǎo)的視頻重繪」,點擊「在線運行此教程」。
2.頁面跳轉(zhuǎn)后,點擊右上角「克隆」,將該教程克隆至自己的容器中。
3.選擇「NVIDIA RTX A6000」以及「PyTorch」鏡像,OpenBayes 平臺提供了 4 種計費方式,大家可以按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續(xù)執(zhí)行」。新用戶使用下方邀請鏈接注冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
HyperAI超神經(jīng)專屬邀請鏈接(直接復(fù)制到瀏覽器打開):
??https://openbayes.com/console/signup?r=Ada0322_NR0n??
4.等待分配資源,首次克隆需等待 2 分鐘左右的時間。當(dāng)狀態(tài)變?yōu)椤高\行中」后,點擊「API 地址」旁邊的跳轉(zhuǎn)箭頭,即可跳轉(zhuǎn)至 Demo 頁面。由于模型較大,需等待約 3 分鐘顯示 WebUI 界面,否則將顯示「Bad Gateway」。請注意,用戶需在實名認(rèn)證后才能使用 API 地址訪問功能。
效果演示
點擊 API 地址即可直接體驗該模型,如下圖所示。我們已經(jīng)在教程中為大家準(zhǔn)備了多個示例,歡迎體驗!
筆者以「定制實例生成」為例,在在戶外雪地中增加了一只奔跑的柯基,栩栩如生毫無違和感!
??原視頻可在「HyperAI超神經(jīng)」公眾號同名文章觀看~??
* prompt:
The video showcases a delightful scene of a corgi dog joyfully running back and forth in a snowy park. The park is adorned with trees and a playground in the background, setting a picturesque winter atmosphere. The corgi, with its orange and white fur and expressive eyes, repeatedly runs towards and away from the camera, kicking up snow with its paws and displaying a playful demeanor. The dog's fur appears glossy and silky, and its tail is energetically wagging throughout the video, highlighting its excitement and energy. The video captures the corgi's movements in detail, focusing on its bright eyes, muscular legs, and agile form as it frolics in the snow. The creator likely intended to share a heartwarming and visually appealing moment that showcases the joy and liveliness of a beloved pet in a beautiful snowy setting.
以上就是 HyperAI超神經(jīng)本期推薦的教程,歡迎大家前來體驗!
教程鏈接:??https://go.hyper.ai/49koQ??
