視頻版PS!0樣本視頻編輯模型,普通人秒變鋼鐵俠
巴黎礦業大學、以色列理工學院的研究人員聯合推出了一款創新視頻模型——Slicedit。
Slicedit主要通過結合文生圖像的擴散模型以及對視頻時空切片的預處理,在不影響背景的情況下對視頻主體進行修改。例如,將一名沖浪的男人變成鋼鐵俠,將一名轉球的男孩變成NBA巨星庫里,將貓的樣子變成豹等。
雖然更改的視頻質量并不是很理想,會出現模糊、扭曲的情況。但這種方式對于不會使用AE專業視頻編輯軟件的業余人員來說幫助巨大,可以快速完成視頻內容修改,相當于視頻版的PS。用來做鬼畜、抖音、快手類的搞笑視頻非常方便。
論文地址:https://arxiv.org/abs/2405.12211
把一名沖浪男人輕松變成鋼鐵俠,背景沒有發生任何改變。
文生圖領域涌現出了DALL·E 3 、Midjourney、Stable Difusion等一大批優秀的產品,但是將其應用在視頻編輯卻很難,經常出現時間不連貫、動作不一致、背景變動大等問題。而Slicedit通過空間時間切片、擴展注意力、DDPM反演等克服了這些難題。
空間時間切片
?
在視頻處理領域,空間時間切片是從視頻的三維空間中提取的二維平面。這些切片可以是固定時間點上的視頻幀(即空間切片),或者是在特定方向上跨越時間的連續幀的組合。
在Slicedit模型中,通過空間時間切片使得模型能夠處理視頻中的動態元素,如運動和變形,還能夠在編輯過程中保持背景和其他非目標區域的穩定和完整性。
例如,在將視頻中的人物替換為機器人,空間時間切片模塊能夠確保在替換過程中,背景和其他非人物區域保持不變,從而生成自然且連貫的視頻輸出。
此外,在空間時間切片的幫助下,Slicedit還能在零樣本條件下無需針對特定視頻內容進行微調,就能進行視頻編輯。模型的靈活、擴展性以及生成效率也得到了增強。
擴展注意力
?
在傳統的注意力機制中,ChatGPT等模型通過自注意力來處理數據,使模型在處理圖像或文本時,識別出不同部分之間的關聯。
但這種機制在處理視頻時存在局限性,因為不能很好地處理時間序列數據。為了解決這個難題,研究人員提出了擴展注意力。
將普通轉球男人變成NBA巨星庫里
擴展注意力的核心思想是將注意力機制擴展到多個時間步。這意味著模型在處理當前幀時,不僅考慮當前幀的信息,還會考慮與之相鄰的幀。通過這種方式,模型能夠捕捉到視頻幀之間的動態變化,從而生成更加連貫的視頻內容。
Slicedit模型中的擴展注意力是,通過修改U-Net網絡中的自注意力模塊來實現的,在每個Transformer塊中引入了擴展注意力機制。
這種機制允許模型在處理視頻幀時,同時考慮多個幀的信息。為了實現這一點,模型使用了一組關鍵幀(Key-Frames),這些關鍵幀被用來與當前幀進行比較和關聯。
首先模型為每個幀生成Query、Key和Value。然后,模型計算當前幀與關鍵幀之間的注意力分數并通過softmax函數進行歸一化。
最后,模型根據這些注意力分數對關鍵幀的特征進行加權求和,以生成當前視頻幀的輸出。
DDPM反演
?
常規的文生圖、文生視頻都是一種去噪過程,通常會從一個隨機噪聲向量開始,該向量遵循高斯分布。再通過迭代的方式逐步引入噪聲,直至生成高質量的圖像或視頻。
Slicedit則反推了這個過程,從目標數據例如,從一個視頻幀開始,目標是找到一組噪聲向量,這些向量在經過DDPM的生成過程后能夠重建原始數據。這一過程就是反演,即從數據中提取出噪聲,而不是從噪聲中生成數據。
Slicedit模型需要將輸入的視頻幀轉換為噪聲空間。這涉及到對視頻幀進行逆向處理,以提取出在DDPM的生成過程中用于重建這些幀的噪聲向量。
在提取出噪聲空間后,接下來需要進行條件去噪,將條件信息例如,文本提示納入到評估范圍,以指導去噪過程,確保生成的視頻內容符合用戶的二次編輯標準。
研究人員表示,將會很快開源Slicedit模型,幫助更多的開發人員構建自己的視頻編輯器。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
