首次實現8K圖像生成!FreeScale讓擴散模型解鎖更高分辨率! 精華
文章鏈接:https://arxiv.org/pdf/2412.09626
項目鏈接:http://haonanqiu.com/projects/FreeScale.html
亮點直擊
- 提出了FreeScale,一種無需微調的推理范式,通過融合不同尺度的信息,使預訓練的擴散模型能夠生成生動的高分辨率結果。
- 在文本生成圖像模型和文本生成視頻模型上對該方法進行了實證評估,證明了其有效性。
- 首次實現了8K分辨率圖像的生成。與其他最新的無需微調方法相比,FreeScale 以更少的推理時間獲得了更高質量的視覺效果。
總結速覽
解決的問題
當前的視覺擴散模型由于高分辨率數據缺乏和計算資源限制,僅能在有限分辨率下訓練,難以生成高保真圖像或視頻。在生成高于訓練分辨率的內容時,模型容易引入高頻信息,導致重復模式和低質量內容。
提出的方案
FreeScale 是一種無需微調(tuning-free)的推理范式,通過尺度融合(scale fusion)實現高分辨率視覺內容生成。它通過處理不同感受野尺度的信息,并提取所需的頻率成分進行融合,從而克服高頻信息引發的重復模式問題。
應用的技術
- 多尺度信息處理:對不同感受的尺度信息進行提取和處理。
- 頻率成分提取與融合:提取并融合目標頻率成分,優化高分辨率生成質量。
達到的效果
- 在圖像和視頻生成任務中顯著擴展了高分辨率生成的能力。
- 首次實現了8K分辨率圖像的生成,相較于現有最優方法表現更優。
- 通過無調參方式解決了高分辨率生成中的重復模式問題,提升了生成內容的質量與保真度。
8K效果
方法
定制化的自級聯超分辨率
直接生成高分辨率結果容易導致重復對象的出現,破壞原本良好的視覺結構。為了解決這一問題,采用了來自先前研究[13, 14]的自級聯超分辨率框架,該框架通過逐步增加生成結果的分辨率來實現高質量的視覺輸出。
細節級別的靈活控制
受約束的膨脹卷積
ScaleCrafter 發現,導致對象重復問題的主要原因是卷積感受野的限制,并提出使用膨脹卷積來解決該問題。
為了避免災難性的質量下降,ScaleCrafter僅將膨脹卷積應用于 UNet 的部分層,仍保留了多個上采樣塊(up-blocks)。然而,在上采樣塊的層中使用膨脹卷積會導致生成許多混亂的紋理。因此,與以往的工作不同,僅在下采樣塊(down-blocks)和中間塊(mid-blocks)的層中應用膨脹卷積。此外,在最后幾個時間步中,結果的細節被渲染,而視覺結構幾乎固定。因此,在最后幾個時間步中使用原始卷積。
尺度融合
雖然定制化的自級聯超分辨率和受約束的膨脹卷積能夠保持粗略的視覺結構,并有效生成4X分辨率的圖像,但生成16X分辨率的圖像仍會出現偽影,例如局部重復(如額外的眼睛或鼻子)。這一問題的根源在于膨脹卷積削弱了對局部特征的關注。DemoFusion通過使用局部塊操作增強局部關注解決了這個問題。然而,盡管局部塊操作緩解了局部重復問題,卻在全局范圍內引入了小對象的重復。
為結合兩種策略的優勢,本文設計了尺度融合(Scale Fusion),通過融合不同感受野尺度的信息,實現局部和全局細節的平衡增強。
對于全局信息的提取,采用了全局自注意力特征。原因在于,自注意力層基于相似性增強了塊信息,使后續的交叉注意力層更容易將語義聚合成完整的對象。這可以表述為:
關于局部信息的提取
實驗
實驗設置
實驗條件
在 LAION-5B 數據集中隨機抽取 1024 條描述語句來評估圖像生成性能。為了更貼近人類的審美偏好,我們從 LAION-Aesthetics-V2-6.5plus 數據集中隨機選擇提示語進行圖像生成評估。LAION-Aesthetics-V2-6.5plus 是 LAION-5B 的一個子集,包含高視覺質量的圖像,這些圖像在美學預測模型中的評分達到 6.5 或更高。
在視頻生成評估中,從 WebVid-10M 數據集中隨機抽取 512 條描述語句。
評價指標
由于高分辨率推理方法旨在保持原始分辨率輸出的質量,我們計算了原始低分辨率圖像/視頻與對應高分辨率輸出之間的所有指標。
- 圖像質量評估:我們報告了 **Frechet Image Distance (FID)**和 **Kernel Image Distance (KID)**。FID 和 KID 在比較之前需要將圖像調整到299x299的尺寸,這一操作可能會導致高分辨率圖像的質量損失。因此,受前人研究 [8] 啟發,我們使用裁剪的局部區域計算這些指標,稱為FIDc和KIDc。
- 視頻質量評估:我們使用Frechet Video Distance (FVD)來評估視頻生成的質量。
- 動態性和美學質量:從VBench中測試了動態程度和美學質量,用以評估視頻的動態性和視覺吸引力。
高分辨率圖像生成
將 FreeScale 與其他高分辨率圖像生成方法進行了對比,包括:
- SDXL直接推理 (SDXL-DI)
- ScaleCrafter
- DemoFusion
- FouriScale
若兼容,采用 FreeU 作為后處理方法。
定性比較
定性比較結果如下圖 3 所示。觀察到以下現象:
- 直接生成(SDXL-DI)通常會導致多個重復對象,并且原始視覺結構丟失。
- ScaleCrafter容易產生局部重復現象。
- DemoFusion生成的畫面中常伴有孤立的小物體。
- FouriScale對于某些描述,會大幅改變生成圖像的風格。
相比之下,FreeScale 能夠生成高質量圖像,避免任何意外的重復現象。
定量比較
定量結果進一步證實了 FreeScale 的優越性。如下表 1 所示:
- SDXL-DI在FIDc和KIDc指標上表現最佳。這是因為 SDXL-DI 傾向于生成多個重復對象,并且裁剪區域可能更接近參考圖像。然而,這種行為會犧牲視覺結構的完整性,因此在分辨率為 的場景下,SDXL-DI 在FID和KID指標上表現最差。
- 總體上,FreeScale在所有與質量相關的指標上都取得了最佳或次優成績,并且額外的時間成本可以忽略不計。
靈活細節控制
此外,FreeScale 提供了對生成結果中細節級別的靈活控制。下圖 4 展示了對不同語義區域調整細節級別的示例。
在獲得放大后的 1× 結果后,我們可以輕松計算語義mask,并在公式 4 中為每個區域分配不同的 值。如下圖 4 所示,在 Griffons 區域增加權重系數,而在其他區域降低權重系數時,生成結果會更加優異。
高分辨率視頻生成
將 FreeScale 與其他無需調優的高分辨率視頻生成方法進行了對比,包括:
- VideoCrafter2直接推理 (VC2-DI)
- ScaleCrafter
- DemoFusion
由于 FouriScale 結合的 FreeU 在視頻生成中表現不佳,因此未進行評估。
如下圖 5 所示,VC2-DI 和 ScaleCrafter 的行為與它們在圖像生成中的表現相似,分別傾向于生成重復的完整對象和局部部分。然而,DemoFusion 在視頻生成中表現完全不可預期。其 Dilated Sampling 機制導致所有幀中出現奇怪的圖案,而 Skip Residual 操作則使整個視頻模糊不清。相比之下,FreeScale 能有效生成高分辨率的視頻,且保真度高。下表 3 顯示,我們的方法在推理時間較短的情況下取得了最佳的 FVD 分數。更多定量評估可以參考補充材料。
消融實驗
FreeScale 主要由三個組件組成:
- 定制自級聯上采樣
- 限制性膨脹卷積
- 尺度融合
結論
FreeScale,一種無需調優的推理范式,旨在增強預訓練擴散模型在高分辨率生成中的能力。通過利用多尺度融合和選擇性頻率提取,FreeScale 有效解決了高分辨率生成中常見的問題,如重復模式和質量退化。實驗結果表明,FreeScale 在圖像和視頻生成中都表現出色,超越了現有方法的視覺質量,同時在推理時間上也具有顯著優勢。與以前的方法相比,FreeScale 不僅消除了各種形式的視覺重復,而且確保了生成圖像中的細節清晰和結構一致性。最終,FreeScale 實現了前所未有的8k 分辨率圖像生成。
本文轉自AI生成未來 ,作者:AI生成未來
