成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

即插即用,完美兼容:SD社區的圖生視頻插件I2V-Adapter來了

人工智能 新聞
近期,由快手主導的一項新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發布,該研究引入了一個創新的圖像到視頻轉換方法,提出了一種輕量級適配器模塊,即 I2V-Adapter。

圖像到視頻生成(I2V)任務旨在將靜態圖像轉化為動態視頻,這是計算機視覺領域的一大挑戰。其難點在于從單張圖像中提取并生成時間維度的動態信息,同時確保圖像內容的真實性和視覺上的連貫性。大多數現有的 I2V 方法依賴于復雜的模型架構和大量的訓練數據來實現這一目標。

近期,由快手主導的一項新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》發布,該研究引入了一個創新的圖像到視頻轉換方法,提出了一種輕量級適配器模塊,即 I2V-Adapter,它能夠在不需要改變現有文本到視頻生成(T2V)模型原始結構和預訓練參數的情況下,將靜態圖像轉換成動態視頻。


  • 論文地址:https://arxiv.org/pdf/2312.16693.pdf
  • 項目主頁:https://i2v-adapter.github.io/index.html
  • 代碼地址:https://github.com/I2V-Adapter/I2V-Adapter-repo

相比于現有方法,I2V-Adapter 大幅減少了可訓練參數(最低可達 22M,為主流方案例如 Stable Video Diffusion [1] 的 1%),同時具備與 Stable Diffusion [2] 社區開發的定制化 T2I 模型(DreamBooth [3]、Lora [4])與控制工具(ControlNet [5])的兼容性。通過實驗,研究者證明了 I2V-Adapter 在生成高質量視頻內容方面的有效性,為 I2V 領域的創意應用開辟了新的可能性。

圖片

方法介紹

Temporal modeling with Stable Diffusion

相較于圖像生成,視頻生成的獨特挑戰在于建模視頻幀間的時序連貫性。現有大多數方案都基于預訓練的 T2I 模型(例如 Stable Diffusion 和 SDXL [6])加入時序模塊對視頻中的時序信息進行建模。受到 AnimateDiff [7] 的啟發,這是一個最初為定制化 T2V 任務而設計的模型,它通過引入與 T2I 模型解耦的時序模塊建模了時序信息并且保留了原始 T2I 模型的能力,能夠結合定制化 T2I 模型生成流暢的視頻。于是,研究者相信預訓練時序模塊可以看作是通用時序表征并能夠應用于其他視頻生成場景,例如 I2V 生成,且無需任何微調。因此,研究者直接利用預訓練 AnimateDiff 的時序模塊并保持其參數固定。

Adapter for attention layers

I2V 任務的另一難點在于保持輸入圖像的 ID 信息,現有方案大多使用一個預訓練的圖像編碼器對輸入圖像進行編碼,并將此編碼后的特征通過 cross attention 注入至模型中引導去噪的過程;或在輸入端將圖像與 noised input 在 channel 維度拼接后一并輸入給后續的網絡。前者由于圖像編碼器難以捕獲底層信息會導致生成視頻的 ID 變化,而后者往往需要改變 T2I 模型的結構與參數,訓練代價大且兼容性較差。

為了解決上述問題,研究者提出了 I2V-Adapter。具體來說,研究者將輸入圖像與 noised input 并行輸入給網絡,在模型的 spatial block 中,所有幀都會額外查詢一次首幀信息,即 key,value 特征都來自于不加噪的首幀,輸出結果與原始模型的 self attention 相加。此模塊中的輸出映射矩陣使用零初始化并且只訓練輸出映射矩陣與 query 映射矩陣。為了進一步加強模型對輸入圖像語義信息的理解,研究者引入了預訓練的 content adapter(本文使用的是 IP-Adapter [8])注入圖像的語義特征。

圖片

Frame Similarity Prior

為了進一步增強生成結果的穩定性,研究者提出了幀間相似性先驗,用于在生成視頻的穩定性和運動強度之間取得平衡。其關鍵假設是,在相對較低的高斯噪聲水平上,帶噪聲的第一幀和帶噪聲的后續幀足夠接近,如下圖所示:

圖片

于是,研究者假設所有幀結構相似,并在加入一定量的高斯噪聲后變得難以區分,因此可以把加噪后的輸入圖像作為后續幀的先驗輸入。為了排除高頻信息的誤導,研究者還使用了高斯模糊算子和隨機掩碼混合。具體來說,運算由下式給出:

圖片

實驗結果

定量結果

本文計算了四種定量指標分別是 DoverVQA (美學評分)、CLIPTemp (首幀一致性)、FlowScore (運動幅度) 以及 WarppingError (運動誤差) 用于評價生成視頻的質量。表 1 顯示 I2V-Adapter 得到了最高的美學評分,在首幀一致性上也超過了所有對比方案。此外,I2V-Adapter 生成的視頻有著最大的運動幅度,并且相對較低的運動誤差,表明此模型的能夠生成更加動態的視頻并且同時保持時序運動的準確性。

圖片

定性結果

Image Animation(左為輸入,右為輸出):

圖片

圖片

圖片

圖片

w/ Personalized T2Is(左為輸入,右為輸出):

圖片

圖片

圖片

圖片

w/ ControlNet(左為輸入,右為輸出):

圖片

圖片

圖片

總結

本文提出了 I2V-Adapter,一種即插即用的輕量級模塊,用于圖像到視頻生成任務。該方法保留原始 T2V 模型的 spatial block 與 motion block 結構與參數固定,并行輸入不加噪的第一幀與加噪的后續幀,通過注意力機制允許所有幀與無噪聲的第一幀交互,從而產生時序連貫且與首幀一致的視頻。研究者們通過定量與定性實驗證明了該方法在 I2V 任務上的有效性。此外,其解耦設計使得該方案能夠直接結合 DreamBooth、Lora 與 ControlNet 等模塊,證明了該方案的兼容性,也促進了定制化與可控圖像到視頻生成的研究。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-06-30 19:12:16

云計算SOAIT

2024-12-26 00:51:38

2022-06-10 10:38:07

數據中心模塊化設計服務器

2019-09-23 16:06:50

物聯網大數據IOT

2023-03-13 15:51:53

代碼開發

2009-08-19 16:59:51

美國西蒙光纜結構綜合布線

2011-11-11 16:29:00

斐訊電力貓FH2001

2010-08-05 17:00:04

RIP V2協議

2024-07-17 09:38:26

2023-11-23 13:24:38

2017-09-19 10:11:57

德國電信

2024-11-12 10:20:00

模型數據

2025-03-07 09:02:00

生成AI視頻

2025-04-03 10:29:06

2013-02-26 12:14:17

華為解決方案電調天線

2021-08-30 15:27:05

AI 數據人工智能

2023-02-23 17:25:37

ChatGPT微軟

2010-06-02 15:09:37

IPv6網絡地址

2014-05-09 11:14:51

電調天線
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久一区二区三区 | 国产99热| 一区二区三区av | 视频一二三区 | 久久91 | 亚洲精品视频二区 | 亚洲一区 | 精品久久99| 天堂视频中文在线 | 亚洲欧美视频一区二区 | 国产在线a | 射久久| 欧美xxxx色视频在线观看免费 | 超碰人人人人 | 亚洲欧美在线视频 | 国产传媒 | 国产精品久久久久久一区二区三区 | 久久久精品一区二区 | 亚洲视频在线一区 | 欧美久久久久久久久中文字幕 | 欧美亚洲视频在线观看 | 久久久久九九九女人毛片 | 欧美国产精品一区二区三区 | 日韩成人在线观看 | 国产一区二区三区在线视频 | 久久88| 久久精品视频免费看 | 91久久精品一区二区二区 | 日韩资源 | 在线91| 在线视频一区二区 | 欧美成人一区二区三区 | 欧美极品在线 | 欧美激情一区二区三区 | 亚洲精彩视频 | 中文字幕精品一区久久久久 | xxx.在线观看 | 国产剧情一区 | 国产日韩精品一区 | 国产精品1区 | 成人网av |