成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!

發布于 2024-8-26 10:04
瀏覽
0收藏

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

論文鏈接:https://arxiv.org/pdf/2407.21475

github鏈接:https://densechen.github.io/zss/

亮點直擊

  • 本文提出了一種新穎的zero-shot視頻采樣算法,該算法能夠直接從預訓練的圖像擴散模型中采樣高質量的視頻片段。
  • 本文提出了一個依賴噪聲模型和時間動量注意力機制,首次能夠靈活地控制生成視頻中的時間變化。
  • 通過廣泛的應用展示了本文方法的有效性,包括條件和專門的視頻生成,以及由文本指令引導的視頻編輯。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

將時間維度引入預訓練的圖像擴散模型中用于視頻生成是一種常見的方法。然而,這種方法計算量大,并且需要大規模的視頻數據集。更為關鍵的是,圖像和視頻數據集之間的異質性常常導致圖像專業知識的災難性遺忘。最近,直接從圖像擴散模型中提取視頻片段的嘗試在一定程度上緩解了這些問題。然而,這些方法只能生成帶有簡單運動的短視頻片段,無法捕捉細粒度的運動或非網格變形。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

依賴噪聲模型

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

在訓練視頻擴散模型時使用混合和漸進噪聲模型已證明是有效的,如[11]所示。這種方法使得在訓練過程中能夠有效地學習幀之間的動畫過渡。

依賴噪聲模型

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

如下面算法1所示,本文提出了一種兩階段噪聲搜索算法,這與傳統的解析解方法有所不同。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

從而最小化公式1。

時間動量注意力

為了利用跨幀注意力的潛力,并使用預訓練的圖像擴散模型而無需重新訓練,FateZero將每個自注意力層替換為跨幀注意力。在這種設置中,每一幀的注意力主要集中在初始幀。類似的結構也在 [19] 中采用。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

跨幀注意力的應用有助于將外觀、結構以及物體和背景的身份從第一幀傳遞到后續幀。然而,這種方法缺乏相鄰幀之間的連接,這可能導致生成的視頻序列中出現顯著的變化,如下圖3所示。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

時間動量注意力

本文的觀察表明,自注意力由于缺乏幀間上下文,會導致采樣特征的多樣性更高。另一方面,跨幀注意力僅依賴于初始幀的信息。這雖然保證了采樣結果的一致性,但也導致了多樣性的減少。


為了在自注意力和跨幀注意力的不同效果之間取得平衡,本文引入了時間動量注意力(Temporal Momentum Attention, TMA)。TMA的數學表示如下:

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

其中,

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

Zero-Shot 視頻采樣算法

通過結合依賴噪聲模型和時間動量注意力,本文成功地利用現有的 DDIM 算法從圖像擴散模型中采樣出高質量的視頻。這個過程在上面的算法 1 中進行了概述。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

實驗

文本與視頻任務的綜合比較

在本研究中,本文從定量和定性兩個方面對本文的方法和另一個zero-shot視頻合成方法 Text2Video-Zero 進行了廣泛的比較。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

從定性角度來看, 本文在上圖3中提供了一些生成視頻片段的可視化。本文方法生成的視頻片段明顯表現出更優越的連續性,顯著減少了突兀的幀。與[19]中的簡單上下物體運動相比,本文的依賴噪聲模型采樣的噪聲可以擴散出更具體、復雜的運動,并在不同的擴散模型中很好地泛化,如下圖2所示。結合時間動量注意力,本文的方法可以為更具挑戰性的對象生成更復雜的運動,例如流體的非剛性變形、復雜的煙霧擴散效果,甚至是微妙的面部微表情,如下圖1所示。

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

擴展

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區

結論

超越Text2Video-Zero|無需額外訓練,條件生成、專門生成和指令引導的視頻編輯全搞定!-AI.x社區


本文轉自AI生成未來,作者:Dengsheng Chen等


原文鏈接:??https://mp.weixin.qq.com/s/gVJD7uMLxmGrqmepp2hsQg?poc_token=HCDgy2ajRdlE1q4u81WYfSWxRlbctni_ZZk5f1B4??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产亚洲二区 | 欧美日韩电影免费观看 | 毛片1| 亚洲免费视频在线观看 | 国产精品影视在线观看 | 亚洲大片一区 | 久久国产精品-久久精品 | 一区二区三区免费 | 欧美视频一区 | 久久成人一区 | 亚洲精品电影网在线观看 | 91在线一区二区 | www.色.com| 犬夜叉在线观看 | 国产激情一区二区三区 | 国产精品久久久久久久久污网站 | 中文字幕精品一区 | 亚洲一区视频在线 | 久久男人天堂 | www.久久久久久久久 | 国产精品二区三区在线观看 | 久久久久久久久久性 | 欧美日韩一区二区在线 | 成人性视频在线 | 中文字幕四虎 | 日本在线精品视频 | 国产一级在线观看 | 91一区二区在线观看 | 男女羞羞视频在线看 | 国产一区二区三区四区区 | 黄色三级免费网站 | www日韩 | 亚洲精品视频在线 | 人人操日日干 | 精品久久香蕉国产线看观看亚洲 | 中文字幕视频一区二区 | 亚洲高清一区二区三区 | 免费一区二区 | 国产成人一区二区三区精 | 日韩成人在线观看 | 欧美三级成人理伦 |