長動畫上色質量再創新高!首個基于參考線稿的動畫上色視頻擴散框架LVCD發布
文章鏈接:https://arxiv.org/pdf/2409.12960
項目鏈接:https://luckyhzt.github.io/lvcd
今天和大家分享的工作是香港城市大學、微信團隊、香港大學的研究人員提出的,首個基于參考線稿的動畫上色視頻擴散框架,效果非常好,往下有demo視頻展示。
亮點直擊
- 第一個基于參考的線稿動畫著色視頻擴散框架,利用預訓練視頻擴散模型的能力生成高質量、長時間一致的動畫。
- 引入了用于SVD的參考注意力,增強了模型生成快速運動動畫的能力。
- 設計了一種新穎的序列采樣機制,包括重疊混合模塊和前參考注意力,擴展模型以生成具有長期時間一致性的長動畫。
解決的問題
現有的視頻上色技術主要依賴圖像生成模型逐幀對線稿進行上色,導致時間一致性差和對大幅運動處理能力不足。
提出的方案
- 提出了第一個基于參考線稿的視頻擴散框架,用于線稿視頻的著色。
- 引入了Sketch-guided ControlNet,增強圖像到視頻擴散模型的可控性,實現基于線稿的動畫視頻生成。
- 采用Reference Attention技術,幫助在快速和廣泛運動的情況下,從參考幀向其他幀轉移顏色。
應用的技術
- 大規模預訓練的視頻擴散模型,用于生成彩色動畫視頻。
- Sequential Sampling的新方案,結合Overlapped Blending Module和Prev-Reference Attention,克服視頻擴散模型固定長度的限制,實現長視頻著色。
達到的效果
- 通過定性和定量結果驗證,該方法在幀質量、視頻質量和時間一致性方面顯著優于現有技術。
- 能夠生成高質量、長時間一致的動畫視頻,并有效處理大幅運動,這是以往技術無法實現的。
方法論
旨在設計一個用于參考線稿視頻著色的視頻擴散框架,能夠生成時間一致的大運動長序列動畫。首先,討論模型架構,包括草圖引導的ControlNet和參考注意力,使得模型能夠根據線稿草圖生成快速和擴展運動的動畫。在修改模型架構后,使用動畫視頻對其進行微調,以執行我們的任務。在推理過程中,擴展原始的SVD,通過序列采樣生成長時間一致的動畫,結合重疊混合模塊和前參考注意力。
模型架構
本框架的概述如圖2所示。
草圖引導的 ControlNet
除了參考圖像,另一個關鍵條件是線稿草圖,這在原始 SVD 中并不支持。如圖 2 所示,借鑒了 ControlNet的設計,將草圖作為附加條件進行整合。首先,復制原始 U-Net 的編碼器,克隆所有層,包括時間注意力和 3D 卷積層,以及它們的權重。其次,引入幾個零初始化的卷積層來編碼線稿草圖,并將其拼接到克隆編碼器的輸入中。最后,將 ControlNet 每層的輸出添加到原始 U-Net 解碼器的跳躍連接中。在訓練過程中,ControlNet 中的所有層都被微調,以生成基于參考圖像和線稿草圖的動畫序列。
參考注意力
最后,使用公式 (1) 中的損失對修改后的網絡進行微調,結合草圖引導的 ControlNet 和參考注意力。我們更新 ControlNet 中的所有層,以及 U-Net 中的空間和時間自注意力層,如圖 2 所示。
長動畫的序列采樣
重疊混合模塊
其次,通過參考注意力進一步插入先前生成幀的內容。如圖 3-B 所示,我們首先將所有先前生成的重疊幀結果(在橙色塊中)作為參考輸入送入參考路徑,以捕獲來自這些輸入的完整信息。然后,重疊幀的空間參考注意力定義為:
Prev-Reference Attention
為了有效地將重疊幀的內容傳播到遠處的幀,進一步提出在空間自注意力層內增強時間傳播。如圖 3-B 所示,我們將非重疊幀的原始自注意力向左移動三幀。
通過使非重疊幀能夠查詢來自重疊幀的信息,這些重疊幀的內容通過重疊混合模塊恢復為先前生成的結果,有效地保持了連續段之間的內容一致性。
實驗結果
實驗設置
測試數據集。 選擇了四部宮崎駿執導的電影,分別是《哈爾的移動城堡》、《紅豬》、《幽靈公主》和《千與千尋》,作為我們的測試集,標記為“相似測試集”,這些電影展現了相似的藝術風格,但內容與訓練數據集不同。此外,為了評估我們模型在不同動畫風格和內容上的泛化能力,我們選擇了三部其他導演制作的電影,包括《大魚海棠》、《喵小咪》和《羅小黑》,標記為“通用測試集”。將視頻分割成片段,并使用與訓練數據集相同的方法提取線條草圖。對于每個測試集,均勻選擇1,000個視頻片段進行評估,平均長度為59幀。使用分辨率為256 × 256的光流來測量兩個測試集的平均運動,其中排除了靜止位置。發現55%的片段的平均運動超過5個像素,28%的片段超過10個像素。
評估指標。 通過四個方面評估彩色動畫的質量:
- 幀和視頻質量:我們使用FID和 FVD 分別評估生成視頻的幀和視頻質量。
- 幀相似度:由于動畫是基于線條草圖和第一幀參考圖像生成的,這兩者均來自原始動畫,我們使用PSNR、LPIPS和SSIM測量生成幀與原始動畫幀之間的相似度。
- 草圖對齊:為了評估生成幀是否與輸入線條草圖的結構對齊,提取生成幀的草圖并計算歐幾里得距離圖(ED圖),該圖測量每個像素到其最近草圖的距離。隨后,計算歐幾里得距離圖差異(EDMD),以均方根誤差(RMSE)表示,相對于輸入草圖的平均像素偏移量。
- 時間一致性:將時間一致性(TC)定義為
在這里,( I_{tg} ) 是生成視頻中的第 ( t ) 幀,( I_t ) 表示原始幀,而 ( I_{t \to t+1} ) 代表從幀 ( t ) 到幀 ( t + 1 ) 的扭曲幀。這里,利用RAFT [Teed and Deng 2020] 從原始動畫中預測的光流用于原始幀和生成幀的扭曲。對于所有指標,將幀大小調整為 ( 256 \times 256 ),并將像素值歸一化到 ([0.0, 1.0]) 進行計算。
基于參考的工作比較
將所提方法與兩個現有的基于參考的線條視頻上色框架進行比較:ACOF (一種基于光流的方法)和TCVC(一種圖像到圖像框架),這兩者都是基于GAN的圖像模型。由于沒有廣泛接受的線條視頻上色基準數據集,為確保公平比較,利用我們的數據集生成幀對,以訓練ACOF和TCVC,使用它們的官方代碼。
對于這兩種方法,評估兩個版本:原始版本Prev Sample將參考幀更新為先前生成的幀,而修改版本First Sample始終使用第一幀作為參考??紤]到我們的任務中沒有基于擴散的框架,我們采用了圖像ControlNet ,與AnythingV3一起使用,從Stable Image Diffusion卡通圖像和線條控制中微調而來。此外,在采樣過程中使用Reference-only提供參考幀作為指導。進一步選擇了一項動畫插值工作EISAI和一項基于擴散的視頻插值工作SEINE進行比較。由于這兩種方法在固定間隔內插值顏色化的參考關鍵幀,首先應用ControlNet + Reference-only方法為每13幀顏色化關鍵幀,然后應用EISAI和SEINE插值剩余幀。
定性比較。
在圖4中,展示了三段動畫片段的上色幀。在第一個示例中,ACOF和TCVC在使用原始版本Prev Sample時表現出嚴重的累積偽影。在第二個和第三個示例中,即使使用First Sample,這兩種方法在生成與參考幀相比有顯著運動的幀時仍然面臨困難,導致移動位置出現重影效應。因此,無論是Prev還是First Sample,這兩種方法都容易產生某些偽影。這表明,先前基于CNN的方法在有效地對具有大量運動的長序列線條草圖進行上色方面存在困難。關于圖像ControlNet加上Reference-only的方法,它們僅在運動范圍有限時才能成功生成幀。Reference-only技術在推理期間單獨應用,而不是與模型一起訓練,當對象位移過大時,可能會錯誤解釋參考幀的對應關系,如第一個示例中女孩的紅發和第三個示例中幀60和70中的扭曲老人所示。實驗突顯了圖像擴散模型在完成我們的任務中的局限性。對于插值方法,EISAI表現出重影效應,而SEINE產生顯著噪聲,導致幀模糊(建議放大圖像以注意偽影)。這表明,即使提供由ControlNet + Refonly方法生成的關鍵幀,這兩種方法也無法適應我們的任務。
本文方案利用具有長范圍空間匹配的基于視頻的擴散模型,通過參考注意力,能夠生成具有大運動的長期時間一致的動畫。例如,在所有示例中,當精靈和角色改變位置時,我們的方法能夠準確找到正確的對應關系并有效地對其進行上色。此外,通過結合重疊混合和前參考注意力的順序采樣,我們的方法能夠保持長期時間一致性。正如第二個示例中精靈的尾部和第一個示例中生成的頭部(不在參考幀中)所證明的,相似的顏色在整個動畫中得以保留。總體而言,方法成功地實現了對長序列線條的上色,這是以往工作(包括基于CNN和基于擴散的框架)無法實現的。
定量比較。在這一部分,在幀和視頻質量、幀相似性、草圖與真實動畫的對齊以及時間一致性等方面對我們的方法與其他方法進行了比較。表1顯示,我們的方法在所有方面都顯著優于其他方法,尤其在視頻質量(FVD)和時間一致性(TC)方面表現突出。這些結果表明,我們的方法能夠生成長時間一致的高質量動畫,超越以往的工作。此外,我們的方法在訓練數據集中能夠很好地泛化到不同風格的動畫,產生可比的定量結果。總體而言,我們引入了新的度量標準(EDMD和TC),有效評估生成動畫的草圖對齊和時間一致性,為基于參考的線條視頻上色設定了新的標準。
用戶研究
進行了一項用戶研究,以進一步評估我們方法的性能。在30個動畫(15個來自相似測試集,15個來自一般測試集)中,參與者首先看到真實動畫和線條草圖作為參考,然后是隨機順序生成的動畫,包括ACOF、TCVC、CNet+Refonly、EISAI、SEINE和我們的方法。
每位用戶需從隨機選擇的10個問題中選擇最佳動畫,考慮以下三個方面:
- 與原始動畫的相似性
- 與線條的對齊
- 整體質量
在113名參與者中,20名在計算機圖形學和計算機視覺(CG & CV)領域工作或學習,49名從事藝術與設計,44名來自其他領域。如圖5所示,我們的方法獲得了58.3%的最高偏好率,其中CG & CV、藝術與設計和其他領域的用戶偏好率分別為62.0%、52.4%和63.2%。
消融研究
模型架構消融。 為了研究方法的效果,我們進行了消融研究,通過去除參考注意力層并使用相同的超參數重新訓練網絡。表2中的定量結果表明,各項指標均出現下降,顯示模型處理大運動動畫的能力減弱。從視覺效果來看,如圖6所示,缺少參考注意力會導致顯著運動區域的不一致和不正確上色,例如右側示例中的黑色領子,以及左側示例中鹿的顏色不一致。這些發現突顯了參考注意力在增強模型生成高質量大運動動畫能力方面的重要作用。
序列采樣方案的消融研究。 在表2中,我們將我們的方法與兩個變體進行了比較。首先,去除了前面中提到的所有采樣方案,僅使用第一個參考幀進行動畫采樣。對于“Prev Sample”,進一步將參考切換到前一段生成的幀。定量結果顯示,去除采樣方案會導致時間一致性降低(TC增高),而其他指標保持相似。對于“Prev Sample”,由于使用先前生成的幀作為參考導致的累積誤差,所有指標均有所下降。
在圖6所示的定性結果中,我們的采樣方案表現出優越的時間一致性保持能力。例如,左側示例中的鹿的顏色和右側示例中的領子保持了一致,而沒有采樣方案的結果則出現了不一致。此外,左側示例中(在綠色框內放大)的“小盤子”逐漸顯露出更多區域,我們的方法能夠保持與參考圖像相似的一致紅色。與“Prev Sample”相比,我們的采樣方案有效減輕了累積偽影。例如,左側示例中的藍天上出現黃色區域,而右側示例中的墻面在“Prev Sample”下變成了紅色??傊覀兊牟蓸臃桨改軌蛟鰪婇L期時間一致性,同時有效解決累積偽影的問題。
在圖7中,分析了兩種序列采樣方案的效果,即重疊混合(Overlapped Blending)和前參考注意力(Prev-Reference Attention)。我們展示了在?? = 25 → 0時的中間去噪輸出,其中第一段的幀14與第二段的幀14重疊。對于沒有這兩個模塊的結果,我們注意到幀14中的內容(即紅色袖子)無法從第一段傳播到第二段,導致新采樣的幀14出現不一致的棕色袖子。在整合重疊混合后,第一段幀14中的紅色袖子能夠被繼承到第二段。最終,結合前參考注意力后,袖子的紅色成功傳播到幀24,形成了時間一致的動畫。
重疊幀數量的消融研究。 將視頻序列劃分為帶有??個重疊幀的段,以進行序列采樣。在表3中,分析了不同數量的重疊幀。觀察到,將??從2增加到4顯著改善了視頻質量(FVD)和時間一致性(TC),而其他圖像質量指標幾乎保持不變。然而,進一步增加重疊幀的數量并未帶來顯著的改善,甚至在?? = 6和?? = 8時導致FVD下降,同時減慢推理速度。因此,為了平衡推理質量和速度,設置?? = 4個重疊幀是最佳選擇。
不同線條提取方法的影響
為了評估不同線條提取方法的影響,將訓練使用提取的線條的模型應用于使用多種提取方法生成的線條上,包括Anime2Sketch、SketchKeras、HED(使用來自所有層的組合特征)以及我們訓練數據集中使用的方法。如圖8所示,盡管與我們訓練中使用的線條在風格和細節上存在差異,我們的模型仍能為Anime2Sketch和SketchKeras提取的線條生成類似質量的結果,展示了我們方法的通用性。然而,當應用于線條過于粗厚的HED提取線條時,我們的模型傾向于生成粗糙且模糊的動畫。這個問題可以通過用不同厚度的線條增強訓練數據來解決。
應用于手繪線條
為了驗證我們方法的實際適用性,邀請了專注于繪畫的學生使用繪圖板創作手繪線條草圖。然后,利用我們的方法對這些手繪線條進行上色。如圖9所示,模型最初是用自動生成的草圖訓練的,能夠無縫地適應手繪線條草圖。
局限性
盡管本文方法有效,但存在兩個局限性。首先,由于VAE的重建損失和輸入草圖的粗糙性,我們的方法在細節上可能會出現偽影。如圖10所示,由于重建損失,第一行女孩臉部的細節丟失,而第二行老人的臉由于草圖粗糙而模糊。對原始VAE進行微調以適應卡通圖像領域以及我們框架中使用的分辨率,并對訓練草圖進行數據增強,可以緩解這個問題。另一個局限性是對部分可見新對象的上色可能不準確。如第三行所示,當新角色的部分身體進入場景時,其身體被錯誤地上色為附近花瓣的顏色。只有當角色的全身可見時,上色才會準確。修改我們的視頻剪輯算法以包括更多涉及新對象場景變化的案例,可能會幫助我們的模型處理這種情況。
結論
本文提出了第一個基于參考的線條視頻上色的擴散框架,解決了先前方法的局限性。方法通過利用預訓練的視頻擴散模型,能夠生成長時間一致且高質量的動畫。為了將預訓練的SVD適應我們的任務,引入了草圖引導的ControlNet進行可控視頻生成,并通過Reference Attention使模型能夠處理大范圍的運動。此外,新型序列采樣,包括重疊混合和前參考注意力,擴展了模型生成長動畫的能力,同時保持了時間一致性。我們的實驗驗證了我們方法的有效性,展示了其在處理大運動時生成高質量動畫的能力,這是以往工作所無法實現的。由于本框架是通用的,可以應用于其他模態,例如邊緣、深度和法線圖。在未來的工作中,可能會將方法擴展到由其他模態或甚至多模態指導生成現實視頻。通過使用大規?,F實視頻數據集并利用SVD在類似視頻上進行預訓練的事實,現實視頻生成的性能可以進一步提高。
本文轉自 AI生成未來 ,作者:ZHITONG HUANG等
