成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

擴散模型獎勵微調新突破:Nabla-GFlowNet讓多樣性與效率兼得

人工智能 新聞
我們利用生成流網絡(GFlowNet)的框架,嚴謹地得到一個可以更好保持多樣性和先驗的高效的擴散模型獎勵微調方法,并且在 Stable Diffusion 這一常用的文生圖擴散模型上顯示出相較于其他方法的優勢。

本文作者劉圳是香港中文大學(深圳)數據科學學院的助理教授,肖鎮中是德國馬克思普朗克-智能系統研究所和圖賓根大學的博士生,劉威楊是德國馬克思普朗克-智能系統研究所的研究員,Yoshua Bengio 是蒙特利爾大學和加拿大 Mila 研究所的教授,張鼎懷是微軟研究院的研究員。此論文已收錄于 ICLR 2025。

在視覺生成領域,擴散模型(Diffusion Models)已經成為生成高質量圖像、視頻甚至文本的利器。然而,生成結果往往離我們所偏好的不一致:結果不美觀,圖文不符,等等。

雖然我們可以像大語言模型中的 RLHF(基于人類反饋的強化學習)一樣直接用傳統強化學習來微調擴散模型,但收斂速度往往慢;而基于可微計算圖直接最大化獎勵函數的方法又往往陷入過擬合和多樣性缺失的問題。

有沒有一種方法,既能保留生成樣本的多樣性,又能快速完成微調?我們基于生成流網絡(Generative Flow Network,GFlowNet)提出的 Nabla-GFlowNet 實現了這一速度和質量間的平衡。

圖片

圖片

利用 Nabla-GFlowNet 在 Aesthetic Score 獎勵函數(一個美學指標)上高效微調 Stable Diffusion 模型。

擴散過程的流平衡視角

圖片

生成流網絡 GFlowNet 示意圖。初始節點中的「流」通過向下游的轉移概率流經不同節點,最后匯聚到終端節點。每個終端節點所對應的流應匹配該終端節點對應的獎勵。

在生成流網絡(Generative Flow Network, GFlowNet)的框架下,擴散模型的生成過程可以視為一個「水流從源頭流向終點」的動態系統:

  • 從標準高斯分布采樣的噪聲圖像圖片作為初始狀態,其「流量」為圖片;
  • 去噪過程圖片 如同分配水流的管道網絡,把每一個圖片節點的水流分配給下游每一個圖片節點;
  • 而加噪過程圖片則可以回溯每一個圖片的水流來自哪里;
  • 最終生成的圖像圖片將累積總流量圖片

圖片

擴散模型示意圖

流梯度平衡條件

在 GFlowNet 框架下,前后向水流需要滿足一定的平衡條件。我們通過推導提出我們稱為 Nabla-DB 的平衡條件:

圖片

其中圖片是殘差去噪過程,圖片圖片分別是微調模型和預訓練模型的去噪過程。圖片是這個殘差過程對應的對數流函數。

這個殘差去噪過程應該滿足圖片,其中 β 控制微調模型在獎勵函數和預訓練模型之間的平衡。如果 β 為零,那么殘差過程為零,也就是微調網絡等于預訓練網絡。

稍作變換,就可以得到我們提出的 Nabla-GFlowNet 對應的損失函數 Residual Nabla-DB(其中 sg 為 stop-gradient 操作):

前向匹配損失:

圖片

后向匹配損失:

圖片

終端匹配損失:

圖片

對數流梯度參數化設計

上述損失函數需要用一個額外的網絡估計圖片,但我們觀察到:如果我們對圖片 做單步預測得到不準確的去噪結果圖片,那么圖片是一個很好的估計,其中圖片是一個權重常數。因此,我們提出如下參數化:

圖片

其中圖片是用 U-Net 參數化的殘差梯度,而單步去噪估計為圖片圖片是擴散模型ε-預測參數化的網絡)。

圖片

方法示意圖。每條采樣路徑的每個轉移對圖片中每張圖的上下兩個「力」需要相互平衡。

直觀解釋

如果我們只計算圖片這一轉移對的前向匹配損失對擴散模型參數的梯度,我們有:

圖片

其中第一項是基于內積的匹配度函數(殘差擴散模型與獎勵梯度估計之間的匹配),第二項是讓微調模型趨近于預訓練模型的正則化。

偽代碼實現

圖片

實驗結果

我們分別用以下獎勵函數微調 Stable Diffusion 網絡:

  • Aesthetic Score,一個在 Laion Aesthetic 數據集上訓練的美學評估獎勵函數;
  • HPSv2 和 ImageReward,衡量指令跟隨能力的獎勵函數。

定性實驗結果表明,通過 Nabla-GFlowNet 微調,我們可以快速得到獎勵更高但避免過擬合的生成圖像。

ReFL 和 DRaFT 等直接獎勵優化的方法雖然收斂速度快,但很快會陷入過擬合;而 DDPO 這一基于傳統策略梯度的強化學習微調方法由于沒有理由梯度信息,微調速度顯著劣于其他方法。

同時,我們的定量實驗表明,我們的 Nabla-GFlowNet 可以更好保持生成樣本的多樣性。

圖片

Aesthetic Score 獎勵函數上的微調結果(微調 200 步,取圖片質量不坍塌的最好模型)。Nabla-GFlowNet(對應 Residual Nabla-DB 損失函數)方法微調的網絡可以生成平均獎勵更高且不失自然的生成圖片。

圖片

相較于 ReFL,DRaFT 等直接獎勵優化的方法,Nabla-GFlowNet 更難陷入過擬合。

圖片

Aesthetic Score 獎勵函數上的定量結果 Nabla-GFlowNet 在獎勵收斂快的同時,保持更高的 DreamSim 多樣性指標(越高代表多樣性越好)和更低的 FID 分數(越低代表越符合預訓練模型的先驗)。

圖片

HPSv2 獎勵函數上的微調結果

圖片

ImageReward 獎勵函數上的微調結果

結語

我們利用生成流網絡(GFlowNet)的框架,嚴謹地得到一個可以更好保持多樣性和先驗的高效的擴散模型獎勵微調方法,并且在 Stable Diffusion 這一常用的文生圖擴散模型上顯示出相較于其他方法的優勢。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-24 14:15:00

模型訓練AI

2009-12-22 09:56:36

2022-05-29 07:31:14

加密密碼數據安全

2020-03-09 20:52:43

數據多模型數據庫數據庫

2013-08-22 13:44:30

Linux桌面GNOME桌面

2022-05-13 09:52:52

Google膚色研究開源

2020-08-11 23:19:08

人工智能生物多樣性A

2025-05-30 02:00:00

獎勵模型RRMAI

2020-11-04 10:29:42

數據分析工作多樣性大數據

2014-04-16 13:24:42

2021-04-26 09:41:41

數字化

2015-07-13 13:35:01

2025-03-14 09:59:54

2020-03-12 10:24:37

大數據技術人工智能

2014-07-08 09:14:54

Hadoop局限性

2021-03-12 10:06:58

人工智能機器學習技術

2020-07-15 07:33:18

物聯網大數據IOT

2017-03-16 13:28:25

VR人工智能 API
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久亚洲精品 | 五月激情婷婷六月 | 天堂一区二区三区四区 | hsck成人网 | 在线视频一区二区三区 | 久久99久久99 | 日韩中文在线视频 | 麻豆久久久久 | 欧美一a | 精品毛片 | 久久亚洲一区二区三区四区 | 亚洲欧美日韩精品久久亚洲区 | 激情婷婷成人 | 国产在线精品一区二区三区 | 欧美日韩精品亚洲 | 亚洲午夜精品视频 | 中文字幕一区在线观看视频 | 国产成人精品a视频一区www | 亚洲精品精品 | 日日夜夜精品视频 | 久久四虎 | 欧美一级免费 | 日本成人在线网址 | 高清一区二区 | 中文字幕精品一区二区三区精品 | 91精品国产乱码久久久久久久 | 欧美一区二区三区 | 国产农村妇女毛片精品久久麻豆 | 国产97在线视频 | 中文字幕免费视频 | 国产精品视频一区二区三区不卡 | 国产精品久久久久久久久久久免费看 | 亚洲精品68久久久一区 | 久草色播 | 五月激情六月婷婷 | av资源中文在线天堂 | 欧美日韩在线综合 | 国产婷婷精品av在线 | 性生生活大片免费看视频 | 黄色片大全在线观看 | 日本一区二区影视 |