成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法

發布于 2024-8-22 09:16
瀏覽
0收藏

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

文章鏈接:https://arxiv.org/pdf/2408.11001
項目鏈接:https://haoningwu3639.github.io/MegaFusion/

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

亮點直擊

  • 提出了一種無需調優的方法——MegaFusion,通過截斷與傳遞策略,以粗到細的方式高效生成百萬像素的高質量、高分辨率圖像;
  • 結合了膨脹卷積和噪聲重新調度技術,進一步優化了預訓練擴散模型對高分辨率的適應性;
  • 證明了該方法在潛空間和像素空間擴散模型及其擴展模型中的適用性,使其能夠在大約原始計算成本的40%下生成具有多種縱橫比的高分辨率圖像;
  • 大量實驗驗證了本文所提方法在效率、圖像質量和語義準確性方面的有效性和優越性;


擴散模型憑借其卓越的能力,已成為文本生成圖像領域的領先者。然而,由于訓練過程中圖像分辨率的固定性,導致其在生成高分辨率圖像時面臨諸如語義不準確和物體復制等挑戰。本文介紹了一種名為MegaFusion的全新方法,該方法在無需額外微調或額外適配的情況下,擴展了現有基于擴散的文本生成圖像模型,實現了高效的高分辨率生成。具體而言,采用了一種創新的截斷與傳遞策略,跨不同分辨率連接去噪過程,從而以粗到細的方式生成高分辨率圖像。此外,通過集成膨脹卷積和噪聲重新調度,進一步調整了模型的先驗知識,以適應更高的分辨率。MegaFusion的通用性和高效性使其可以普遍應用于潛空間和像素空間的擴散模型以及其他衍生模型。大量實驗結果證實,MegaFusion在僅需原始計算成本約40%的情況下,顯著提升了現有模型生成百萬像素及不同縱橫比圖像的能力。

方法

本節首先詳細闡述了無需調優的MegaFusion方法中的截斷與傳遞策略。接著,結合膨脹卷積和噪聲重新調度,以進一步調整模型的先驗知識,以實現更高的分辨率。最后,詳細說明了該方法在潛空間和像素空間擴散模型及其擴展模型中的應用。

截斷與傳遞策略

為了清晰起見,將以潛空間擴散模型為例來解釋本文的方法。對于像素空間的擴散模型,本文的方法可以更直接和方便地應用。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

MegaFusion++

基于截斷與傳遞策略的MegaFusion,可以進一步與現有技術,如膨脹卷積和噪聲重新調度,進行正交結合,以使模型的先驗知識適應更高的分辨率。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

其背后的見解是:希望在瓶頸處擴大感受野以聚合全局信息,同時在更高分辨率下保留原有先驗,采樣附近特征以增強細節。


噪聲重新調度。類似于在簡單擴散和傳遞擴散中的發現,觀察到相同的噪聲水平在不同分辨率下對圖像的影響不同,如前面圖2(c)所示,這導致在相同時間步長下不同的信噪比 (SNR)。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

在其他模型上的進一步應用

像素空間擴散模型。與潛空間模型類似,MegaFusion同樣適用于像素空間擴散模型,例如Floyd。主要區別在于直接在像素空間執行截斷和傳遞操作。這意味著方程2、3和4可以調整為如下形式:

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

實驗

本節首先概述了實驗設置。隨后,通過定量指標和人工評估對現有模型進行比較。接著,展示了應用我們方法到各種擴散模型的定性結果。最后呈現了消融研究,以驗證我們提出的組件的有效性。

實驗設置

實現細節。在潛空間(SDM 1.5 和 SDXL)和像素空間(Floyd)中評估文本生成圖像擴散模型。除非另有明確說明,所有模型使用DDIM 進行50步的采樣。由于SDM是在固定分辨率512 × 512下訓練的,選擇生成1024 × 1024的高分辨率圖像以進行定量比較。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

評估數據集。在MS-COCO數據集上評估了本文的方法和基準模型,該數據集總共有大約12萬張圖像,每張圖像配有5個字幕。由于高分辨率生成的計算成本,從MS-COCO中隨機抽取了1萬張圖像,并為每張圖像分配了固定的字幕作為輸入。為了確保比較的一致性,對不同方法中的每張圖像使用相同的隨機種子,從而消除隨機性。對于定性人工評估,使用來自互聯網的常用提示作為文本條件,并使用原始代碼庫提供的條件圖像作為IP-Adapter和ControlNet的額外輸入。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

為了評估生成內容的語義準確性,采用MiniGPT-v2 對圖像進行字幕生成,并計算這些字幕與原始輸入文本之間的幾個語言學指標。具體而言,報告了常用的CIDEr、Meteor 和ROUGE 。此外,還詳細介紹了在單個A40 GPU上測量的GFlops和推理時間,以進行效率比較。

定量結果

客觀指標。在MS-COCO數據集上比較了通過MegaFusion提升的潛空間和像素空間擴散模型的性能與其基線模型。這里,[model-MegaFusion] 指代采用截斷和傳遞策略以跨多分辨率生成圖像的模型,而 [model-MegaFusion++] 則表示結合了膨脹卷積和噪聲重新調度的高級模型。還與幾種現有的最先進方法進行了比較,如帶有StableSR的SDM、ScaleCrafter 和DemoFusion,這些方法僅限于特定的潛空間模型且效率較低。


下表1的結果顯示,MegaFusion在所有指標上均顯著提升,包括圖像質量、語義準確性,特別是計算效率。這表明MegaFusion有效地擴展了現有擴散模型的生成能力,使其能夠合成具有正確語義和細節的高分辨率圖像,同時計算成本僅為原來的40%左右。此外,結合膨脹卷積和噪聲重新調度進一步提升了如FID_r、KID_r、CLIP-T和ROUGE等指標的性能,反映了生成多樣性和與真實圖像及文本條件的一致性有了改進。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

人工評估。為了補充客觀分析,進行了一項以人為中心的評估,重點關注圖像質量和語義完整性。具體而言,利用相同的文本和隨機種子作為輸入,通過標準模型(SDM和Floyd)和其MegaFusion增強版本合成高分辨率圖像。參與者被要求根據圖像質量和語義準確性為輸出打分,范圍從1到5(分數越高表示越好)。此外,他們還需要從選項中選擇他們最喜歡的圖像進行偏好評分。


下表2的結果確認了我們的MegaFusion顯著提高了高分辨率圖像生成的圖像質量和語義準確性。此外,高級MegaFusion++顯示出更大改進的潛力。這些證據突顯了MegaFusion提升預訓練模型的能力,使其能夠生成質量更高且語義準確的高分辨率圖像。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

定性結果

文本到圖像基礎模型的比較。下圖3展示了在潛空間和像素空間中高分辨率圖像生成的可視化結果。這些結果確認,MegaFusion可以與現有的擴散模型無縫集成,生成具有準確語義的百萬像素圖像,而以前的基線模型未能做到這一點。此外,結合膨脹卷積和噪聲重新調度進一步提升了圖像細節。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

具有額外條件的模型比較。進一步將MegaFusion應用于配有額外輸入條件的擴散模型,如IP-Adapter和ControlNet,如下圖4所示。MegaFusion展現了普遍適用性,顯著擴展了各種擴散模型合成高質量高分辨率圖像的能力,這些圖像不僅符合輸入條件,還保持了語義完整性。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

消融研究

提出的策略與模塊。為了評估本文提出的策略和組件的有效性,在潛空間和像素空間中評估了幾種模型變體。在這里,“T&R”、“D”和“R”分別表示截斷和傳遞策略、膨脹卷積和噪聲重新調度。下表3的結果顯示,本文的策略和模塊顯著提升了基礎生成模型如SDM(1024 × 1024)和Floyd(128 × 128)生成內容的質量和多樣性,特別是改善了與真實圖像的質量和一致性。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

結論

本文介紹了MegaFusion,這是一種無調優的方法,旨在解決合成高分辨率圖像所面臨的挑戰,有效地解決了語義不準確和物體復制的問題。我們的方法采用了一種創新的截斷和傳遞策略,優雅地連接了不同分辨率之間的生成過程,以高效的粗到細方式合成高質量的高分辨率圖像,適用于各種長寬比。通過結合正交的膨脹卷積和噪聲重新調度,進一步將模型先驗適應到更高的分辨率。MegaFusion的多功能性和有效性使其能夠普遍適用于潛空間和像素空間的擴散模型及其帶有額外條件的擴展。大量實驗驗證了MegaFusion的優越性,展示了它能夠在僅使用原始計算成本約40%的情況下生成高分辨率圖像的能力。

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

全面提升!上海交大等聯合發布MegaFusion:無須微調的高效高分辨率圖像生成方法-AI.x社區

本文轉自AI生成未來 ,作者:Haoning Wu等


原文鏈接:??https://mp.weixin.qq.com/s/u8q4t2FAZFJX-wq5D5918w??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美成人免费在线 | 久久综合久 | 国产1区| 久久这里只有精品首页 | 日韩成人在线观看 | 日韩精品二区 | 国产一在线 | 国产在线一区二区三区 | 欧美一区二区三区在线观看 | 日韩高清国产一区在线 | 日本一区二区三区视频在线 | 在线色 | 97精品久久 | 狠狠色综合欧美激情 | 日韩av成人 | 久久久国产精品 | 91精品国产综合久久久亚洲 | 久久久精 | 性国产丰满麻豆videosex | 国产精品久久久久久中文字 | 毛片毛片毛片毛片毛片 | 久久一区视频 | 欧美一区二区三区在线观看 | 国产精品久久久久久久免费大片 | 成人午夜激情 | 四虎永久免费黄色影片 | 九色综合网 | 国产精品观看 | 日本黄色大片免费看 | 国产韩国精品一区二区三区 | 欧美日韩在线一区二区三区 | 久久大陆| 久久精品一 | 99国内精品久久久久久久 | 中文字幕成人av | 日本一区二区视频 | 亚洲精品国产一区 | 国产精品毛片久久久久久 | 中文字幕精品一区二区三区精品 | 久久久精品一区二区三区 | 欧美在线观看一区 |