CVPR2025｜不改U-Net也能提升生成力！MaskUNet用掩碼玩轉(zhuǎn)擴散模型

作者：萍哥學AI 2025-06-05 11:52:27

當前擴散模型在不同時間步使用相同U-Net參數(shù)生成結(jié)構(gòu)和紋理信息，限制了模型的表達靈活性。該研究聚焦于：如何在不更改預(yù)訓練U-Net的參數(shù)下，提升其對不同時間步和樣本的適應(yīng)性，以生成更高質(zhì)量的圖像？

1. 一眼概覽

MaskUNet 提出了一種基于可學習掩碼的參數(shù)篩選機制，在不更新預(yù)訓練U-Net參數(shù)的前提下，有效提升了擴散模型的圖像生成質(zhì)量和下游泛化能力。

2. 核心問題

當前擴散模型在不同時間步使用相同U-Net參數(shù)生成結(jié)構(gòu)和紋理信息，限制了模型的表達靈活性。該研究聚焦于：如何在不更改預(yù)訓練U-Net的參數(shù)下，提升其對不同時間步和樣本的適應(yīng)性，以生成更高質(zhì)量的圖像？

3. 技術(shù)亮點

參數(shù)掩碼機制：提出可學習的二值掩碼，對預(yù)訓練U-Net的參數(shù)進行篩選，使其在不同時間步與樣本中發(fā)揮最大效能；
雙重優(yōu)化策略：設(shè)計基于訓練（使用擴散損失）與免訓練（使用獎勵模型）的兩種掩碼優(yōu)化方法，適應(yīng)不同場景需求；
廣泛驗證：在COCO及多個下游任務(wù)（圖像定制、關(guān)系反轉(zhuǎn)、文本轉(zhuǎn)視頻）中驗證，展示優(yōu)越性能和強泛化能力。

4. 方法框架

圖片

MaskUNet方法如下圖流程所示：

引入掩碼機制：對預(yù)訓練U-Net參數(shù)施加時間步和樣本相關(guān)的二值掩碼，實現(xiàn)參數(shù)選擇性激活；
訓練方式一：帶監(jiān)督學習：通過MLP生成掩碼，聯(lián)合時間嵌入與樣本特征進行訓練，目標函數(shù)為擴散損失；
訓練方式二：免訓練優(yōu)化：借助獎勵模型（如ImageReward與HPSv2）指導掩碼更新，無需額外訓練掩碼生成器。

該機制不修改原U-Net參數(shù)結(jié)構(gòu)，而是通過靈活的掩碼動態(tài)激活權(quán)重，從而提升模型表達能力。

5. 實驗結(jié)果速覽

圖片

在COCO 2014和COCO 2017兩個文本到圖像的零樣本生成任務(wù)中，MaskUNet相較于原始的Stable Diffusion 1.5與LoRA方法，在圖像質(zhì)量指標（FID）上均有顯著提升。例如，在COCO 2014數(shù)據(jù)集上，MaskUNet將FID分數(shù)從12.85降低至11.72，COCO 2017上則從23.39降至21.88，表現(xiàn)出更強的生成能力。同時，在圖文一致性方面（CLIP分數(shù)）與其他方法持平，說明MaskUNet在不影響語義對齊的前提下，顯著增強了圖像質(zhì)量。

在多個下游任務(wù)如DreamBooth圖像定制、Textual Inversion新概念學習、ReVersion關(guān)系圖像生成以及Text2Video-Zero文本轉(zhuǎn)視頻中，MaskUNet均展現(xiàn)出更強的個性化表達能力與細節(jié)還原能力，進一步驗證了其作為通用增強組件的實用價值。

6. 實用價值與應(yīng)用

MaskUNet方法適用于文本生成圖像、視頻生成、圖像定制、關(guān)系表達等任務(wù)，尤其在無需大規(guī)模參數(shù)更新的資源受限場景下表現(xiàn)出色，適合作為輕量級增強模塊嵌入現(xiàn)有擴散框架中。

7. 開放問題

? 掩碼機制在跨模態(tài)生成（如音頻到圖像）任務(wù)中是否同樣有效？

? MaskUNet是否可以與LoRA等參數(shù)高效微調(diào)方法協(xié)同工作以實現(xiàn)更強性能？

? 如何進一步壓縮掩碼生成模塊的計算量，使其適用于移動端或邊緣設(shè)備？

責任編輯：武曉燕來源：萍哥學AI

U-Net 擴散模型掩碼

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看