成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率! 精華

發布于 2024-12-16 13:41
瀏覽
0收藏

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

文章鏈接:https://arxiv.org/pdf/2412.09626
項目鏈接:http://haonanqiu.com/projects/FreeScale.html

亮點直擊

  • 提出了FreeScale,一種無需微調的推理范式,通過融合不同尺度的信息,使預訓練的擴散模型能夠生成生動的高分辨率結果。
  • 在文本生成圖像模型和文本生成視頻模型上對該方法進行了實證評估,證明了其有效性。
  • 首次實現了8K分辨率圖像的生成。與其他最新的無需微調方法相比,FreeScale 以更少的推理時間獲得了更高質量的視覺效果。

總結速覽

解決的問題

當前的視覺擴散模型由于高分辨率數據缺乏和計算資源限制,僅能在有限分辨率下訓練,難以生成高保真圖像或視頻。在生成高于訓練分辨率的內容時,模型容易引入高頻信息,導致重復模式和低質量內容。

提出的方案

FreeScale 是一種無需微調(tuning-free)的推理范式,通過尺度融合(scale fusion)實現高分辨率視覺內容生成。它通過處理不同感受野尺度的信息,并提取所需的頻率成分進行融合,從而克服高頻信息引發的重復模式問題。

應用的技術

  • 多尺度信息處理:對不同感受的尺度信息進行提取和處理。
  • 頻率成分提取與融合:提取并融合目標頻率成分,優化高分辨率生成質量。

達到的效果

  • 在圖像和視頻生成任務中顯著擴展了高分辨率生成的能力。
  • 首次實現了8K分辨率圖像的生成,相較于現有最優方法表現更優。
  • 通過無調參方式解決了高分辨率生成中的重復模式問題,提升了生成內容的質量與保真度。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

8K效果

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

方法

定制化的自級聯超分辨率

直接生成高分辨率結果容易導致重復對象的出現,破壞原本良好的視覺結構。為了解決這一問題,采用了來自先前研究[13, 14]的自級聯超分辨率框架,該框架通過逐步增加生成結果的分辨率來實現高質量的視覺輸出。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

細節級別的靈活控制

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

受約束的膨脹卷積

ScaleCrafter 發現,導致對象重復問題的主要原因是卷積感受野的限制,并提出使用膨脹卷積來解決該問題。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

為了避免災難性的質量下降,ScaleCrafter僅將膨脹卷積應用于 UNet 的部分層,仍保留了多個上采樣塊(up-blocks)。然而,在上采樣塊的層中使用膨脹卷積會導致生成許多混亂的紋理。因此,與以往的工作不同,僅在下采樣塊(down-blocks)和中間塊(mid-blocks)的層中應用膨脹卷積。此外,在最后幾個時間步中,結果的細節被渲染,而視覺結構幾乎固定。因此,在最后幾個時間步中使用原始卷積。

尺度融合

雖然定制化的自級聯超分辨率和受約束的膨脹卷積能夠保持粗略的視覺結構,并有效生成4X分辨率的圖像,但生成16X分辨率的圖像仍會出現偽影,例如局部重復(如額外的眼睛或鼻子)。這一問題的根源在于膨脹卷積削弱了對局部特征的關注。DemoFusion通過使用局部塊操作增強局部關注解決了這個問題。然而,盡管局部塊操作緩解了局部重復問題,卻在全局范圍內引入了小對象的重復。

為結合兩種策略的優勢,本文設計了尺度融合(Scale Fusion),通過融合不同感受野尺度的信息,實現局部和全局細節的平衡增強。

對于全局信息的提取,采用了全局自注意力特征。原因在于,自注意力層基于相似性增強了塊信息,使后續的交叉注意力層更容易將語義聚合成完整的對象。這可以表述為:

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

關于局部信息的提取

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

實驗

實驗設置

實驗條件

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區


在 LAION-5B 數據集中隨機抽取 1024 條描述語句來評估圖像生成性能。為了更貼近人類的審美偏好,我們從 LAION-Aesthetics-V2-6.5plus 數據集中隨機選擇提示語進行圖像生成評估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一個子集,包含高視覺質量的圖像,這些圖像在美學預測模型中的評分達到 6.5 或更高。
在視頻生成評估中,從 WebVid-10M 數據集中隨機抽取 512 條描述語句。

評價指標
由于高分辨率推理方法旨在保持原始分辨率輸出的質量,我們計算了原始低分辨率圖像/視頻與對應高分辨率輸出之間的所有指標。

  • 圖像質量評估:我們報告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比較之前需要將圖像調整到299x299的尺寸,這一操作可能會導致高分辨率圖像的質量損失。因此,受前人研究 [8] 啟發,我們使用裁剪的局部區域計算這些指標,稱為FIDcKIDc。
  • 視頻質量評估:我們使用Frechet Video Distance (FVD)來評估視頻生成的質量。
  • 動態性和美學質量:從VBench中測試了動態程度和美學質量,用以評估視頻的動態性和視覺吸引力。

高分辨率圖像生成

將 FreeScale 與其他高分辨率圖像生成方法進行了對比,包括:

  1. SDXL直接推理 (SDXL-DI)
  2. ScaleCrafter
  3. DemoFusion
  4. FouriScale

若兼容,采用 FreeU 作為后處理方法。

定性比較

定性比較結果如下圖 3 所示。觀察到以下現象:

  • 直接生成(SDXL-DI)通常會導致多個重復對象,并且原始視覺結構丟失。
  • ScaleCrafter容易產生局部重復現象。
  • DemoFusion生成的畫面中常伴有孤立的小物體。
  • FouriScale對于某些描述,會大幅改變生成圖像的風格。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

相比之下,FreeScale 能夠生成高質量圖像,避免任何意外的重復現象。

定量比較

定量結果進一步證實了 FreeScale 的優越性。如下表 1 所示:

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

  • SDXL-DIFIDcKIDc指標上表現最佳。這是因為 SDXL-DI 傾向于生成多個重復對象,并且裁剪區域可能更接近參考圖像。然而,這種行為會犧牲視覺結構的完整性,因此在分辨率為  的場景下,SDXL-DI 在FIDKID指標上表現最差。
  • 總體上,FreeScale在所有與質量相關的指標上都取得了最佳或次優成績,并且額外的時間成本可以忽略不計。

靈活細節控制

此外,FreeScale 提供了對生成結果中細節級別的靈活控制。下圖 4 展示了對不同語義區域調整細節級別的示例。


在獲得放大后的 1× 結果后,我們可以輕松計算語義mask,并在公式 4 中為每個區域分配不同的  值。如下圖 4 所示,在 Griffons 區域增加權重系數,而在其他區域降低權重系數時,生成結果會更加優異。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

高分辨率視頻生成

將 FreeScale 與其他無需調優的高分辨率視頻生成方法進行了對比,包括:

  1. VideoCrafter2直接推理 (VC2-DI)
  2. ScaleCrafter
  3. DemoFusion

由于 FouriScale 結合的 FreeU 在視頻生成中表現不佳,因此未進行評估。

如下圖 5 所示,VC2-DI 和 ScaleCrafter 的行為與它們在圖像生成中的表現相似,分別傾向于生成重復的完整對象和局部部分。然而,DemoFusion 在視頻生成中表現完全不可預期。其 Dilated Sampling 機制導致所有幀中出現奇怪的圖案,而 Skip Residual 操作則使整個視頻模糊不清。相比之下,FreeScale 能有效生成高分辨率的視頻,且保真度高。下表 3 顯示,我們的方法在推理時間較短的情況下取得了最佳的 FVD 分數。更多定量評估可以參考補充材料。

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

消融實驗

FreeScale 主要由三個組件組成:

  1. 定制自級聯上采樣
  2. 限制性膨脹卷積
  3. 尺度融合

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率!-AI.x社區

結論

FreeScale,一種無需調優的推理范式,旨在增強預訓練擴散模型在高分辨率生成中的能力。通過利用多尺度融合和選擇性頻率提取,FreeScale 有效解決了高分辨率生成中常見的問題,如重復模式和質量退化。實驗結果表明,FreeScale 在圖像和視頻生成中都表現出色,超越了現有方法的視覺質量,同時在推理時間上也具有顯著優勢。與以前的方法相比,FreeScale 不僅消除了各種形式的視覺重復,而且確保了生成圖像中的細節清晰和結構一致性。最終,FreeScale 實現了前所未有的8k 分辨率圖像生成。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/s6bI7joHzfECP14fRsueNQ??

標簽
1
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费观看成人av | 毛色毛片免费看 | 国产精品国产三级国产aⅴ中文 | 亚洲欧美综合精品久久成人 | 免费激情网站 | 日韩精品一区二区三区高清免费 | 国产精品99久久久精品免费观看 | 国产成人在线一区二区 | 精品日韩在线 | 国产精品永久久久久 | 日韩精品久久久久 | 国产成人精品久久二区二区 | 成人免费区一区二区三区 | 中文字幕日韩一区 | 久久er99热精品一区二区 | 成人午夜视频在线观看 | 国产乱精品一区二区三区 | 亚洲精品乱码久久久久久按摩观 | 久久亚洲视频 | 日韩成人免费视频 | 亚洲欧美激情精品一区二区 | 97人人澡人人爽91综合色 | 99久久99 | 一区二区三区国产 | 国产精品福利网 | 精品亚洲一区二区 | 免费一区| 国产一区 | 日日夜夜精品免费视频 | 日韩在线免费视频 | 成人中文字幕在线观看 | 国产一区二区在线免费 | 日本天天操 | 色屁屁在线观看 | 国产农村一级片 | 一区二区三区在线免费观看 | 欧美日韩在线一区二区 | 91精品国产91久久综合桃花 | 男人天堂视频在线观看 | 日本成人在线网址 | 欧美成人一区二免费视频软件 |