成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由

發布于 2024-4-8 12:48
瀏覽
0收藏

近期,擴散模型憑借其出色的性能已超越 GAN 和自回歸模型,成為生成式模型的主流選擇。基于擴散模型的文本到圖像生成模型(如 SD、SDXL、Midjourney 和 Imagen)展現了生成高質量圖像的驚人能力。通常,這些模型在特定分辨率下進行訓練,以確保在現有硬件上實現高效處理和穩定的模型訓練。


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

圖 1 : 采用不同方法在 SDXL 1.0 下生成 2048×2048 圖像的對比。[1]


然而,當這些預訓練的擴散模型在超出訓練分辨率時生成圖像,通常會出現模式重復和嚴重的人工偽影(artifacts)問題,如圖 1 最左側所示。


為了解決這一問題,來自香港中文大學 - 商湯科技聯合實驗室等機構的研究者們在一篇論文中深入研究了擴散模型中常用的 UNet 結構的卷積層,并從頻域分析的角度提出了 FouriScale, 如圖 2 所示。


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

圖 2 FouriScale 的流程(橙色線)示意圖,目的是保證跨分辨率的一致性。


FouriScale 通過引入空洞卷積操作和低通濾波操作來替換預訓練擴散模型中的原始卷積層,旨在實現不同分辨率下的結構和尺度一致性。配合「填充然后裁剪」策略,該方法能夠靈活生成不同尺寸和長寬比的圖像。此外,借助 FouriScale 作為指導,該方法在生成任意尺寸的高分辨率圖像時,能夠保證完整的圖像結構和卓越的圖像質量。FouriScale 無需任何離線預計算,具有良好的兼容性和可擴展性。


定量和定性實驗結果表明,FouriScale 在利用預訓練擴散模型生成高分辨率圖像方面取得了顯著提升。


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區


  • 論文地址:https://arxiv.org/abs/2403.12963
  • 開源代碼:https://github.com/LeonHLJ/FouriScale
  • 論文標題:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis

方法介紹

1、空洞卷積保證跨分辨率下的結構一致性


擴散模型的去噪網絡通常是在特定分辨率的圖像或潛在空間上訓練的,這個網絡通常采用 U-Net 結構。作者的目標是在推理階段使用去噪網絡的參數生成分辨率更高的圖像,而無需重新訓練。為了避免推理分辨率下的結構失真,作者嘗試在默認分辨率和高分辨率之間建立結構一致性。對于 U-Net 中的卷積層,結構一致性可表述為:

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

其中 k 是原本的卷積核,k' 是為更大分辨率定制的新卷積核。根據空間下采樣的頻域表示,如下:

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

可以將公式(3)寫為:

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區


這個公式表明了理想卷積核 k' 的傅里葉頻譜應該是由 s×s 個卷積核 k 的傅里葉頻譜拼接而成的。換句話說,k' 的傅里葉頻譜應該有周期性重復,這個重復模式是 k 的傅里葉頻譜。


廣泛使用的空洞卷積正好滿足這個要求。空洞卷積的頻域周期性可以通過下式表示:

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

當利用預訓練擴散模型(訓練分辨率為(h,w))生成 (H,W) 的高分辨率圖像時,空洞卷積的參數使用原始卷積核,擴張因子為 (H/h, W/w),是理想的卷積核 k'。


2、低通濾波保證跨分辨率下的尺度一致性


然而,只利用空洞卷積無法完美地解決問題,如圖 3 左上角所示,只使用空洞卷積仍然在細節上存在模式重復的現象。作者認為這是因為空間下采樣的頻率混疊現象改變了頻域分量,導致了不同分辨率下頻域分布的差異。為了保證跨分辨率下的尺度一致性,他們引入了低通濾波來過濾掉高頻分量,以去除空間下采樣后的頻率混疊問題。從圖 3 右側對比曲線可以看到,在使用低通濾波后,高低分辨率下的頻率分布更加接近,從而保證了尺度一致。從圖 3 左下角圖看到,在使用低通濾波后,細節的模式重復現象有明顯地改善。


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

圖 3 (a) 是否采用低通濾波的視覺對比。(b)不采用低通濾波的傅立葉相對對數幅值曲線。(c) 采用低通濾波的傅立葉相對對數幅值曲線。


3、適應于任意尺寸的圖像生成


以上的方式只能適應于生成分辨率與默認推理分辨率的長寬比一致時,為了使 FouriScale 適應于任意尺寸的圖像生成,作者采用了一種「填充然后裁剪」的方式,方法 1 中展示了結合了該策略的 FouriScale 的偽代碼.


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

4、FouriScale 引導


由于 FouriScale 中的頻域操作,不可避免的使生成的圖像出現了細節缺失與不期望的偽影問題。為了解決這一問題,如圖 4,作者提出了將 FouriScale 作為引導的方式。具體來說,在原本的條件生成估計以及無條件生成估計的基礎上,他們引入一個額外的條件生成估計。這個額外的條件生成估計的生成過程同樣采用空洞卷積,但是使用更加溫和的低通濾波,從而保證細節不丟失。同時他們將利用 FouriScale 輸出的條件生成估計中的注意力分數替換掉這一額外的條件生成估計中的注意力分數,由于注意力分數包含著生成圖像中的結構信息,這一操作將 FouriScale 中正確的圖像結構信息引入,同時保證了圖像質量。


無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

圖 4 (a) FouriScale 引導示意圖。(b)不采用 FouriScale 作為引導的生成圖像,有明顯的偽影和細節錯誤。(c) 采用 FouriScale 作為引導的生成圖像。

實驗


1. 定量試驗結果


作者遵循 [1] 的方法,測試了三個文生圖模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四種更高分辨率的圖像。測試的分辨率是它們各自訓練分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素數量。在 Laion-5B 上隨機采樣 30000/10000 個圖文對測試的結果如表 1 所示:

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

表 1 不同的無需訓練方法的定量結果對比


他們的方法在各個預訓練模型,不同分辨率下都獲得了最優的結果。


2. 定性試驗結果


如圖 5 所示,他們的方法在各個預訓練模型,不同分辨率下都能夠保證圖像生成質量與一致的結構。

無需訓練,這個新方法實現了生成圖像尺寸、分辨率自由-AI.x社區

圖 5 不同的無需訓練方法的生成圖像對比

結論

本文提出了 FouriScale 用于增強預訓練擴散模型生成高分辨率圖像的能力。FouriScale 從頻域分析出來,通過空洞卷積和低通濾波操作改善了不同分辨率下的結構和尺度一致性,解決了重復模式和結構失真等關鍵挑戰。采用「填充然后裁剪」策略并利用 FouriScale 作為指導,增強了文本到圖像生成的靈活性和生成質量,同時適應了不同的長寬比生成。定量和定性的實驗對比表明,FouriScale 能夠在不同預訓練模型,不同分辨率下都能夠保證更高的圖像生成質量。


本文轉自機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/FgqN-f-PKGhNmTMaNSc1yw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久草免费福利 | 亚洲一区视频在线 | 国产一区二区三区免费观看视频 | 性欧美xxxx | 一区二区三区在线电影 | 亚洲一区视频在线 | 国产高清在线观看 | 激情五月综合网 | 在线观看视频福利 | 久久久久9999亚洲精品 | 国产ts人妖系列高潮 | 精品丝袜在线 | 欧美久久电影 | 日韩1区 | 色综合色综合色综合 | 欧美一区二区三区在线观看 | 亚洲精品一区中文字幕乱码 | 玖玖综合网 | 欧美精品久久 | 91欧美激情一区二区三区成人 | 日韩毛片在线观看 | 日韩在线不卡 | 四虎永久在线精品免费一区二 | 亚洲高清视频在线 | 狠狠的干狠狠的操 | 欧美aⅴ| 久久成人一区 | 欧美 日韩 在线播放 | 国产综合在线视频 | 艹逼网| 超碰3 | 久久这里只有精品首页 | 四虎在线观看 | 亚洲成人www | 中文字幕不卡 | 欧美看片 | 一本岛道一二三不卡区 | 黄色片视频网站 | 亚洲免费精品 | 岛国一区 | 亚洲 欧美 精品 |