有效提高視頻編輯一致性,美圖&國科大提出基于文生圖模型新方法EI2
背景
作為當前炙手可熱的前沿技術之一,生成式 AI 被廣泛應用于各類視覺合成任務,尤其是在圖像生成和編輯領域獲得了令人贊嘆的生成效果。對比靜態圖像,視頻擁有更豐富的動態變化和語義信息,而現有的視覺生成任務主要基于變分自編碼器(VAE)和生成對抗網絡(GAN),但通常會受限于特定場景和數據,很難提供普適的解決方案。因此,近年來基于擴散模型(Diffusion Models)在分布式學習上表現出的卓越能力,擴散模型也開始被拓展到視頻領域,并在視頻生成與編輯領域展現出了巨大的潛力。
在研究初期,基于擴散模型的視頻生成和編輯任務利用文本 - 視頻數據集直接訓練文生視頻模型以達到目標。然而,由于缺少高質量的視頻數據,這類工作泛化能力通常較差,此外,它們也需要耗費大量的計算資源。為避免上述問題,近期工作更傾向于將基于大規模數據集上預訓練的文生圖模型拓展到視頻領域。此類任務通過引入可學習的時序模塊使文生圖模型具備視頻生成和編輯能力,從而減少對視頻數據的需求以及計算量,并提供了簡單易用的方案。因此,這類任務在近期引起了廣泛的關注。然而,以上基于文生圖模型的視頻生成方案也面臨著兩個關鍵問題:一是時序不一致問題,即生成視頻幀間內容的不一致,例如閃爍和主體變化等;二是語義不一致問題,即生成視頻未能按照給定文本進行修改。解決上述兩個核心問題將極大地推動基于文本的視頻編輯與生成技術在實際場景中的應用和落地。
美圖影像研究院(MT Lab)與中國科學院大學在 NeurIPS 2023 上共同提出一種基于文生圖模型的視頻編輯方法 EI2, 從理論上分析和論證了現有方案出現不一致的原因,并提出了有效的解決方案。
論文鏈接:https://arxiv.org/abs/2208.02646
EI2:基于文生圖模型的視頻一致性編輯解決方案
EI2 首先對語義不一致問題進行了分析,發現該問題不是由微調策略或過擬合現象出現所導致的,而是由新引入的時序模塊造成的。這些模塊雖然能提升文生圖模型的時序連續性,但會減弱甚至消除其原有的生成和編輯能力。
EI2 方案將這一現象的出現歸因于生成特征空間出現協變量偏移:由于時序模塊只在目標視頻上進行訓練,其輸出特征的分布與源模型的分布存在差異。此外,現有空間注意力機制為減小計算量,通常會忽略特定元素進行局部計算,從而導致次優解的出現。因此,高效地融合全局上的空間和時序注意力信息也是取得時序一致性編輯的關鍵。
圖 1 本文提出的 EI2 方案與已有方案在視頻編輯任務上的結果對比
基于上述分析,EI2 設計了更為合理的時序模塊并將其與文生圖模型相結合,用于增強生成能力,以更好地解決視頻編輯任務。具體而言,EI2 采用一次微調框架(One-shot Tuning),從理論和實踐兩方面對現有方法進行了改進。
首先,EI2 設計了偏移控制時序注意力模塊,用于解決視頻編輯過程中出現的語義不一致問題。EI2 從理論上證明了在特定假設下,協變量偏移與微調無關,是由時序注意力機制新引入的參數造成,這為解決語義不一致問題提供了有價值的指導。
通過上述論證,EI2 定位層歸一化(Layer Norm)模塊是協變量偏移出現的重要原因。為了解決這一問題,EI2 提出了簡單有效的實例中心化模塊以控制分布偏移。此外,EI2 也對原時序注意力模塊中的權值進行歸一化,從而限制方差的偏移。其次,EI2 設計了粗細力度幀間注意力模塊來緩解視頻編輯過程中出現的時序不一致問題。EI2 創新性地提出了一種粗細力度交互機制,用于更為有效地建立時空注意力機制,從而使得低成本的視頻全局信息交互成為可能。與現有丟棄空間信息的方案相比,EI2 在空間維度上進行采樣,這不僅保持了時空數據的整體結構,也減少了需要考慮的數據規模。
具體而言,粗細力度幀間注意力模塊對于當前幀保留細粒度信息,而對于其他幀則進行下采樣以獲得粗粒度信息來做交互。這種方式使得 EI2 在有效學習時序信息的同時,保證了與現有時空交互方案接近的計算量?;谝陨显O計,實驗結果表明 EI2 可以有效地解決視頻編輯過程中出現的語義不一致問題并保證時序上的一致性,取得了超越現有方案的視頻編輯效果。
圖 2 EI2 的訓練和推理流程
實驗結果
表 1 與基線方法的量化對比
圖 3 與基線方法的可視化對比
圖 4 協變量偏移控制的消融實驗
圖 5 時空注意力機制的消融實驗
總結
該論文創新性地提出了基于文生圖模型的視頻編輯新方案 EI2,有效地解決了現有方案遇到的語義和時序不一致問題。其中,EI2 從理論上證明了語義不一致問題由引入的時序模塊產生的協變量偏移造成,并設計了偏移控制時序注意力進行改進。另外,EI2 提出了粗細力度幀間注意力模塊,在提升視頻編輯效果的同時也保證了較低的計算復雜度。與現有方案相比,EI2 在量化和可視化的分析中都表現出了明顯的優勢。
研究團隊
本論文由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出。
美圖影像研究院成立于 2010 年,致力于計算機視覺、深度學習、計算機圖形學等人工智能(AI)相關領域的研發。曾先后參與 CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,并斬獲 ISIC Challenge 2018 皮膚癌病灶分割賽道冠軍,ECCV 2018 圖像增強技術比賽冠軍,CVPR-NTIRE2019 圖像增強比賽冠軍,ICCV2019 服飾關鍵點估計比賽冠軍等十余項冠亞軍,在 AAAI、CVPR、ICCV、ECCV、NIPS 等國際頂級會議及期刊上累計發表 48 篇學術論文。
在美圖影像研究院(MT Lab)的支持下,美圖公司擁有豐富的 AIGC 場景落地經驗。2010 年開始人工智能領域的相關探索,2013 年開始布局深度學習,2016 年推出 AIGC 雛形產品 “手繪自拍”,2022 年 AIGC 產品全面進入爆發期,2023年6月發布自研AI視覺大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI設計與AI視頻。