成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

有效提高視頻編輯一致性,美圖&國科大提出基于文生圖模型新方法EI2

人工智能 新聞
美圖影像研究院(MT Lab)與中國科學院大學突破性地提出了基于文生圖模型的視頻生成新方法 EI2,用于提高視頻編輯過程中的語義和內容兩方面的一致性。該論文從理論角度分析和論證視頻編輯過程中出現的不一致的問題,主要由引入的時序信息學習模塊使特征空間出現協變量偏移造成,并針對性地設計了新的網絡模塊進行解決以生成高質量的編輯結果。目前,該論文已被機器學習頂會之一 NeurIPS 2023 接收。

背景

作為當前炙手可熱的前沿技術之一,生成式 AI 被廣泛應用于各類視覺合成任務,尤其是在圖像生成和編輯領域獲得了令人贊嘆的生成效果。對比靜態圖像,視頻擁有更豐富的動態變化和語義信息,而現有的視覺生成任務主要基于變分自編碼器(VAE)和生成對抗網絡(GAN),但通常會受限于特定場景和數據,很難提供普適的解決方案。因此,近年來基于擴散模型(Diffusion Models)在分布式學習上表現出的卓越能力,擴散模型也開始被拓展到視頻領域,并在視頻生成與編輯領域展現出了巨大的潛力。

在研究初期,基于擴散模型的視頻生成和編輯任務利用文本 - 視頻數據集直接訓練文生視頻模型以達到目標。然而,由于缺少高質量的視頻數據,這類工作泛化能力通常較差,此外,它們也需要耗費大量的計算資源。為避免上述問題,近期工作更傾向于將基于大規模數據集上預訓練的文生圖模型拓展到視頻領域。此類任務通過引入可學習的時序模塊使文生圖模型具備視頻生成和編輯能力,從而減少對視頻數據的需求以及計算量,并提供了簡單易用的方案。因此,這類任務在近期引起了廣泛的關注。然而,以上基于文生圖模型的視頻生成方案也面臨著兩個關鍵問題:一是時序不一致問題,即生成視頻幀間內容的不一致,例如閃爍和主體變化等;二是語義不一致問題,即生成視頻未能按照給定文本進行修改。解決上述兩個核心問題將極大地推動基于文本的視頻編輯與生成技術在實際場景中的應用和落地。

美圖影像研究院(MT Lab)與中國科學院大學在 NeurIPS 2023 上共同提出一種基于文生圖模型的視頻編輯方法 EI2, 從理論上分析和論證了現有方案出現不一致的原因,并提出了有效的解決方案。

圖片

論文鏈接:https://arxiv.org/abs/2208.02646

EI2:基于文生圖模型的視頻一致性編輯解決方案

EI2 首先對語義不一致問題進行了分析,發現該問題不是由微調策略或過擬合現象出現所導致的,而是由新引入的時序模塊造成的。這些模塊雖然能提升文生圖模型的時序連續性,但會減弱甚至消除其原有的生成和編輯能力。

EI2 方案將這一現象的出現歸因于生成特征空間出現協變量偏移:由于時序模塊只在目標視頻上進行訓練,其輸出特征的分布與源模型的分布存在差異。此外,現有空間注意力機制為減小計算量,通常會忽略特定元素進行局部計算,從而導致次優解的出現。因此,高效地融合全局上的空間和時序注意力信息也是取得時序一致性編輯的關鍵。

圖片

圖 1 本文提出的 EI2 方案與已有方案在視頻編輯任務上的結果對比

基于上述分析,EI2 設計了更為合理的時序模塊并將其與文生圖模型相結合,用于增強生成能力,以更好地解決視頻編輯任務。具體而言,EI2 采用一次微調框架(One-shot Tuning),從理論和實踐兩方面對現有方法進行了改進。

首先,EI2 設計了偏移控制時序注意力模塊,用于解決視頻編輯過程中出現的語義不一致問題。EI2 從理論上證明了在特定假設下,協變量偏移與微調無關,是由時序注意力機制新引入的參數造成,這為解決語義不一致問題提供了有價值的指導。

通過上述論證,EI2 定位層歸一化(Layer Norm)模塊是協變量偏移出現的重要原因。為了解決這一問題,EI2 提出了簡單有效的實例中心化模塊以控制分布偏移。此外,EI2 也對原時序注意力模塊中的權值進行歸一化,從而限制方差的偏移。其次,EI2 設計了粗細力度幀間注意力模塊來緩解視頻編輯過程中出現的時序不一致問題。EI2 創新性地提出了一種粗細力度交互機制,用于更為有效地建立時空注意力機制,從而使得低成本的視頻全局信息交互成為可能。與現有丟棄空間信息的方案相比,EI2 在空間維度上進行采樣,這不僅保持了時空數據的整體結構,也減少了需要考慮的數據規模。

具體而言,粗細力度幀間注意力模塊對于當前幀保留細粒度信息,而對于其他幀則進行下采樣以獲得粗粒度信息來做交互。這種方式使得 EI2 在有效學習時序信息的同時,保證了與現有時空交互方案接近的計算量?;谝陨显O計,實驗結果表明 EI2 可以有效地解決視頻編輯過程中出現的語義不一致問題并保證時序上的一致性,取得了超越現有方案的視頻編輯效果。

圖片

圖 2 EI2 的訓練和推理流程

實驗結果

圖片

表 1 與基線方法的量化對比

圖片

圖 3 與基線方法的可視化對比

圖片

圖 4 協變量偏移控制的消融實驗

圖片

圖 5 時空注意力機制的消融實驗

總結

該論文創新性地提出了基于文生圖模型的視頻編輯新方案 EI2,有效地解決了現有方案遇到的語義和時序不一致問題。其中,EI2 從理論上證明了語義不一致問題由引入的時序模塊產生的協變量偏移造成,并設計了偏移控制時序注意力進行改進。另外,EI2 提出了粗細力度幀間注意力模塊,在提升視頻編輯效果的同時也保證了較低的計算復雜度。與現有方案相比,EI2 在量化和可視化的分析中都表現出了明顯的優勢。

研究團隊

本論文由美圖影像研究院(MT Lab)和中國科學院大學的研究者們共同提出。

美圖影像研究院成立于 2010 年,致力于計算機視覺、深度學習、計算機圖形學等人工智能(AI)相關領域的研發。曾先后參與 CVPR、ICCV、ECCV 等計算機視覺國際頂級會議,并斬獲 ISIC Challenge 2018 皮膚癌病灶分割賽道冠軍,ECCV 2018 圖像增強技術比賽冠軍,CVPR-NTIRE2019 圖像增強比賽冠軍,ICCV2019 服飾關鍵點估計比賽冠軍等十余項冠亞軍,在 AAAI、CVPR、ICCV、ECCV、NIPS 等國際頂級會議及期刊上累計發表 48 篇學術論文。

在美圖影像研究院(MT Lab)的支持下,美圖公司擁有豐富的 AIGC 場景落地經驗。2010 年開始人工智能領域的相關探索,2013 年開始布局深度學習,2016 年推出 AIGC 雛形產品 “手繪自拍”,2022 年 AIGC 產品全面進入爆發期,2023年6月發布自研AI視覺大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI設計與AI視頻。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-07-25 14:38:56

數據庫一致性非鎖定讀一致性鎖定讀

2020-10-14 10:16:12

CIOIT技術

2021-07-26 06:33:42

CRDT數據CAP

2022-12-14 08:23:30

2024-09-29 10:40:00

數據模型

2025-04-01 09:32:00

模型訓練AI

2021-02-05 08:00:48

哈希算法?機器

2021-02-02 12:40:50

哈希算法數據

2024-04-23 08:22:58

Meta緩存系統

2021-11-12 08:38:26

一致性哈希算法數據結構

2021-07-28 08:39:25

分布式架構系統

2019-10-24 10:42:00

CPU內存存儲器

2021-11-26 18:37:39

技術人工智能計算機

2023-08-25 13:21:56

論文模型

2020-11-24 09:03:41

一致性MySQLMVCC

2020-05-12 10:43:22

Redis緩存數據庫

2021-06-30 21:13:49

CPUCache數據

2022-10-19 12:22:53

并發扣款一致性

2022-03-22 09:54:22

Hash算法

2025-03-05 09:10:00

session開發Web
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 五月综合色啪 | 亚卅毛片 | 黄免费观看视频 | www.性色 | 精品美女 | 亚洲欧美在线视频 | 久久精品中文 | 婷婷久久网 | 精品伊人| 欧美精品一二三 | 国产精品一区视频 | 亚洲品质自拍视频网站 | 欧美日韩综合一区 | 欧美 日本 国产 | 91精品91久久久 | 蜜臀久久99精品久久久久久宅男 | www.99热| 欧美一区免费 | 日本三级全黄三级三级三级口周 | 国产免费福利 | 久久久久久国产精品免费免费狐狸 | 黑人巨大精品欧美一区二区一视频 | 免费一区二区三区 | 亚洲夜射 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 欧美亚洲在线 | 一级黄色片网站 | 欧美在线亚洲 | 一二三四av| 在线免费观看毛片 | 亚洲精品1区 | 国产免费一二三区 | 亚洲精品免费看 | 精品视频在线观看 | 欧美日韩电影免费观看 | 国产精品永久久久久久久www | 18av在线播放| 欧美精品91爱爱 | 国产精品美女久久久久aⅴ国产馆 | 久久成人av电影 | av毛片在线|