DiffusionReward:通過獎勵反饋學習增強盲臉修復 原創
摘要
獎勵反饋學習(ReFL)最近在各種生成任務中展現出了巨大的潛力,能夠使模型輸出與人類偏好保持一致。在這項工作中,我們首次將ReFL框架引入盲臉修復任務,稱之為DiffusionReward。DiffusionReward有效地克服了基于擴散的方法的局限性,這些方法通常無法生成逼真的面部細節,并且身份一致性較差。我們框架的核心是面部獎勵模型(FRM),它使用精心注釋的數據進行訓練。FRM提供反饋信號,在指導修復網絡的優化過程中起著關鍵作用。特別是,我們的ReFL框架將梯度流納入現成的面部修復方法的去噪過程中,以指導模型參數的更新。指導梯度由三個方面共同決定:(i)確保修復后面部感知質量的FRM;(ii)作為保障以保持生成多樣性的正則化項;(iii)維持面部保真度的結構一致性約束。此外,FRM在整個過程中進行動態優化。它不僅確保修復網絡與真實面部流形精確對齊,還有效防止了獎勵破解。在合成數據集和真實數據集上的實驗表明,我們的方法優于最先進的方法,顯著提高了身份一致性和面部細節。源代碼、數據和模型可在https://github.com/01NeuralNinja/DiffusionReward獲取。
圖1:基于擴散的人臉恢復方法存在的問題示例。經過ReFL增強后,基礎模型中的問題得到顯著緩解。左側展示原始擴散方法的缺陷,右側展示經過Reward Feedback Learning優化后的改進結果。
引言
真實場景中捕獲的人臉圖像常遭受復雜多樣的退化,如模糊、壓縮偽影、噪聲和低分辨率。盲人臉恢復(BFR)旨在從這些退化輸入中恢復高質量(HQ)圖像。由于低質量(LQ)輸入存在大量信息丟失且退化過程通常未知,BFR本質上是一個高度不適定問題。因此,對于任何給定的LQ人臉,理論上存在包含無限可能高質量解的空間。從這個廣闊解空間中準確重建HQ人臉圖像仍是一個未解決的挑戰,特別是在照片真實感、自然度和身份保持方面。
擴散模型憑借其卓越的生成能力已成為BFR的強大范式。這些模型利用訓練期間獲取的豐富視覺先驗,以LQ圖像作為條件輸入,通過迭代去噪逐步重建高保真人臉。然而,這些預訓練擴散模型通常在通用領域圖像上訓練,缺乏足夠的人臉特定先驗知識,導致恢復的面部圖像常缺乏細節特征(如圖1左)。面部先驗的缺失不僅削弱了細節恢復質量,還加劇了映射模糊性(圖1中)。此外,Stable Diffusion模型主要針對文本到圖像生成任務訓練,而非需要嚴格保真度的圖像恢復任務,可能導致恢復過程中偏離原始身份特征(圖1右)。
獎勵反饋學習(ReFL)是一種已在文本到圖像生成等領域驗證的優化范式。它利用基于人類偏好訓練的獎勵模型來指導潛在擴散模型的微調,提升生成輸出的質量、真實感和用戶對齊度。本工作將ReFL應用于BFR任務以解決上述擴散基人臉恢復方法的局限。對于現成的擴散基人臉恢復方法,ReFL框架創新性地將其潛在擴散去噪過程重新解釋為參數化迭代生成器。通過這種參數化,ReFL能夠應用額外的優化約束,從而對預訓練人臉恢復模型的參數進行細粒度調整。
我們精心構建的人臉獎勵模型(FRM)是評估恢復人臉質量的關鍵組件。針對ReFL訓練中常見的獎勵作弊問題(即恢復模型利用獎勵模型的"漏洞"而非真正提升圖像感知質量),我們提出了FRM的動態更新策略。此外,我們還引入兩個約束來進一步提升恢復性能:結構一致性約束確保恢復圖像的面部結構與原始身份緊密對齊;權重正則化項限制當前參數與初始值的偏離程度,保持基礎模型的生成能力。
主要貢獻:
● 首次將ReFL引入BFR領域,為擴散基人臉恢復模型定制優化機制
● 設計數據標注流程構建能準確評估人臉圖像感知質量的FRM,并提出動態更新策略防止獎勵作弊
● 引入結構一致性約束和權重正則化兩項約束
● 所提DiffusionReward框架顯著提升基礎模型的人臉恢復質量,達到最先進性能
解決問題
論文主要解決的是"盲人臉恢復"任務中的一個關鍵問題:如何讓AI修復的模糊或低質量人臉照片看起來更真實自然,同時保持人物身份特征不變。
當手機拍的人臉照片因為光線差、鏡頭抖動或壓縮變得模糊、有噪點時,傳統修復方法要么修出來的臉太假(像塑料娃娃),要么把張三的臉修成李四的樣子。這篇論文提出的"DiffusionReward"系統,核心是讓AI在修復過程中像學生考試一樣,有個"評分老師"(人臉獎勵模型FRM)實時打分:
1.真實性評分:比如修復的皮膚紋理不能像橡皮泥,毛孔、皺紋等細節要自然(如圖1左,傳統方法修復的臉部像打了過度磨皮,而新方法能保留真實膚質)
2.身份一致性監督:修復后必須還是同一個人。例如輸入一張模糊的周杰倫照片,不能修成陳奕迅的樣子(如圖1右,傳統方法可能改變五官比例)
3.防作弊機制:防止AI為了刷高分走捷徑(比如給所有人臉加上同樣的虛假雀斑或高光,雖然能騙過評分系統但實際很假)
例如:
·老照片修復:一張20年前褪色的畢業照,AI修復后既能看清每個人的五官細節,又不會把班長修成副班長的模樣
·監控視頻增強:便利店攝像頭拍到的模糊嫌疑人臉,修復后既能還原真實面部特征(如疤痕、胡須),又不會扭曲原本的面部結構
·直播美顏優化:避免直播美顏過度導致所有主播變成"網紅臉",而是保留個人特色的自然美化
本質上,這項技術讓AI在"修圖"時兼顧"修得清晰"和"修得對",就像一個有藝術修養的修圖師,既懂技術又理解什么是"真實的美麗"。
方法
研究人員發現,當前最好的人臉修復AI(基于擴散模型)雖然能大致修復模糊或損壞的人臉照片,但存在三個明顯問題:修復后的皮膚紋理不夠真實自然、有時會產生奇怪的偽影、最嚴重的是可能會改變原來的人臉身份特征。這就好比一個修圖師雖然能修復老照片,但修完后可能把爺爺的照片修得像鄰居大叔。
為了解決這些問題,研究人員設計了一套"獎勵反饋"學習系統。這個系統的核心思想是模仿人類教學中的"表揚-糾正"機制。首先,他們訓練了一個專門評判人臉質量的AI模型(FRM),這個模型就像一位嚴格的美術老師,能判斷修復后的人臉是否真實自然。然后,在原有修復AI工作時,這個"老師"會實時給出評分,并通過特殊的算法不斷調整修復AI的參數,讓它朝著更真實、更保持原貌的方向改進。
具體實現上,研究人員做了幾個關鍵設計:第一是構建了一個包含近2萬張人臉的大數據集,并采用人工標注+AI輔助的方式,為每張修復效果圖打上質量評分;第二是在優化過程中設置了多重保障機制,既鼓勵AI追求高質量修復,又防止它為了得高分而投機取巧(比如產生不自然的統一紋理);第三是加入了人臉結構一致性檢查,確保修復過程不會改變原本的眼睛、鼻子等關鍵特征的位置關系。
這種方法最大的創新點是讓修復AI在保持原有強大生成能力的同時,學會更符合人類審美的修復方式。就像教畫家在保持個人風格的基礎上,畫出更符合解剖學的人像。實驗證明,經過這種訓練后的AI,其修復效果在真實感和身份保持度上都明顯提升,特別是在處理嚴重模糊或損壞的照片時優勢更加明顯。
圖2:面部獎勵模型的訓練框架。我們首先訓練一個支持向量機(SVM)[6]分類器用于自動標注。該分類器使用度量向量(v1, v2)和已標注的監督信號進行訓練(左圖)。面部獎勵模型基于CLIP[32]架構(右圖),其中圖像編碼器EI的最后20層和文本編碼器Et的最后11層是可訓練的,其余參數則被凍結。s1和s2表示分數,由圖像嵌入和文本嵌入之間的相似度推導而來(例如,)。
DiffusionReward框架的核心原理可以通過圖2和圖3的協同作用來深入理解。整個系統建立在獎勵反饋學習(ReFL)機制上,通過精心設計的人臉獎勵模型(FRM)與擴散模型的深度交互,實現對盲人臉恢復過程的精準調控。
圖2展示了人臉獎勵模型的訓練流程,這是整個系統的質量評估中樞。研究人員首先構建了一個包含近2萬張多樣化人臉的數據集,通過LLaVA模型為每張圖像生成文本描述,形成圖文配對。隨后采用三種不同的盲恢復方法生成退化圖像的恢復版本,最終構建包含原始高質量圖像和恢復圖像的偏好數據集。在標注階段,創新性地采用人工標注與自動化標注結合的混合策略:人工標注3600對圖像后,訓練SVM分類器自動標注剩余數據。這個分類器通過分析SSIM、PSNR等六種圖像質量指標的組合特征來預測人類偏好。基于這些標注數據,框架對CLIP架構的HPSv2模型進行微調,通過調整圖像編碼器最后20層和文本編碼器最后11層的參數,使模型能夠準確評估恢復人臉與文本描述的匹配度。這種設計使得FRM不僅能判斷圖像質量,還能理解面部特征與語義描述的對應關系。
圖3則揭示了ReFL訓練框架如何將FRM的反饋轉化為對擴散模型的優化力量。該系統將現有人臉恢復模型的去噪過程重新參數化為可微分的生成模塊,在最后一個去噪步驟施加多重約束。FRM提供的獎勵信號通過反向傳播形成梯度,引導模型生成更符合人類偏好的面部細節。為防止模型過度迎合獎勵分數而產生虛假特征(即獎勵作弊),框架引入了三重保護機制:結構一致性約束通過LPIPS度量和小波變換的低頻成分保持,確保恢復圖像與輸入圖像的身份特征對齊;權重正則化約束則像"錨點"一樣限制參數更新幅度,保留預訓練模型的生成多樣性優勢。最具創新性的是動態更新策略——每經過10次生成器訓練,就用當前模型輸出的恢復圖像更新FRM,形成兩者相互促進的協同進化。這種設計使得FRM能持續適應生成模型的變化,始終將優化方向約束在真實人臉流形空間內。
圖3:我們的ReFL訓練框架。(左圖)我們引入多個約束條件以優化生成模塊gθ,包括Lreward、Lreg和Lstruct(詳見3.3節)。(右圖)為提高訓練效率,這些約束條件僅應用于最后一個去噪步驟。
兩個模塊的協同工作形成了閉環優化系統:FRM作為"質量評判官"不斷提供改進方向,擴散模型作為"畫家"根據反饋調整筆觸,而動態更新機制則確保這種互動不會陷入自我欺騙的怪圈。在實際應用中,這種機制顯著改善了擴散模型在面部紋理細節恢復上的不足。例如對皮膚毛孔、眉毛毛發等高頻細節的還原更加逼真,同時避免了常見的人工平滑效應。對于身份特征的保護也更為可靠,即使在大姿態或遮擋情況下,恢復結果仍能保持與原始身份的連貫性。這種技術突破使得基于擴散模型的人臉恢復從"大致相似"提升到了"細節精確"的新層次,為實際應用提供了更可靠的解決方案。
實驗結果
本研究首先在合成數據集CelebA-Test上進行了全面量化評估,共采用11項指標衡量不同方法的性能表現。如表1所示,當將DiffusionReward框架應用于兩種基礎模型(OSEDiff和DiffBIR)時,括號內的數值變化清晰表明該方法在幾乎所有指標上均實現了性能提升。與當前最先進方法相比,經過我們框架增強的OSEDiff(+ours)和DiffBIR(+ours)在Degradation評分、唇部運動距離(LMD)、美學評分及FaceReward等核心指標上均占據領先地位,這證實了ReFL框架不僅能提升人臉的感知質量,還能有效保持身份一致性。視覺對比結果(圖4)進一步顯示,我們的方法在身份一致性保持和皮膚紋理細節還原方面具有顯著優勢,恢復的面部特征更貼近真實人臉的復雜紋理分布。
針對真實場景數據集的測試結果(表2)表明,在LFW-Test和WebPhoto-Test這兩個具有挑戰性的真實退化數據集上,DiffusionReward框架對基礎模型的美學評分和圖像質量指標MUSIQ均有明顯提升。特別值得注意的是,OSEDiff(+ours)在兩個數據集的所有對比方法中均取得最佳性能。圖5展示的定性對比中可以看到,基礎模型在處理真實世界退化時經常產生面部細節過度平滑的問題,而我們的方法成功克服了這一缺陷,生成的人臉不僅具有更豐富的細節,還保持了自然的視覺效果。這種改進在復雜光照條件和重度壓縮偽影的場景中尤為明顯。
消融研究部分通過系統性的組件分析揭示了ReFL框架各要素的作用機制。如表3所示,當使用原始HPSv2獎勵模型替代我們專門設計的FRM時,FRM在人工標注測試集上的偏好預測準確率顯著高出24.73%(87.78% vs 63.05%),這直接轉化為生成質量的明顯優勢。表4的消融實驗將框架分解為四個關鍵組件:結構一致性約束(SC)、權重正則化(WR)、獎勵反饋(Rwd)和獎勵模型更新(RU)。結果顯示僅使用SC和WR的Variant 1雖然改善了身份保持(LMD指標提升),但導致感知質量(MUSIQ)下降,生成的面部存在過度平滑現象。加入Rwd形成的Variant 2在感知質量上獲得顯著改進,恢復了更精細的面部細節。而移除WR的Variant 3則出現生成能力退化,表現為頭發細節丟失等問題。圖6(c)的視覺示例清晰展示了獎勵作弊現象——Variant 2生成的面部出現痤瘡樣偽影,而引入RU機制的完整框架成功消除了這類異常模式。
在討論獎勵作弊現象時,圖13通過兩種典型模式展示了人臉恢復任務中的這一特殊問題。Style 1表現為嚴重的風格化傾向,生成人臉呈現統一的"繪畫感"外觀;Style 2則顯示為持續存在的非自然瑕疵,如重復皮膚紋理。右圖的流形空間示意圖形象化地解釋了這一現象:紅色原點代表初始狀態,橙色獎勵作弊點雖然獲得高分但偏離真實人臉流形,綠色理想點則實現了質量提升與流形保持的平衡。這種分析為動態更新策略的必要性提供了理論依據,說明固定獎勵模型會導致優化過程陷入局部最優。
值得注意的是,該方法目前主要針對擴散模型架構驗證,在GAN或Transformer等架構上的適用性仍有待探索。盡管ReFL原則具有普適性,但將其擴展到其他架構可能需要調整獎勵反饋的整合方式,這也是未來研究的重要方向。所有實驗均在NVIDIA L20 GPU環境下完成,訓練采用Adam優化器,基礎模型分別選擇代表單步推理(OSEDiff)和多步推理(DiffBIR)的兩種擴散范式,確保了方法在不同類型擴散模型上的泛化能力。
本文轉載自??AIRoobt?? ,作者:AIRoobt
