只需微調,大幅提升人臉生成質量!上交聯合OPPO發布新標準和新方法
文章鏈接:https://arxiv.org/pdf/2406.17100
今天和大家一起學習的是對現實生活中生成的人臉細節進行優化的工作。擴散模型(DMs)在根據文本描述生成想象力豐富的圖像方面取得了顯著的成功。然而,在處理現實生活中復雜細節的場景時,它們很可能會表現不佳。文本到圖像生成中低質量、不真實的人臉是其中最突出的問題之一,這限制了DMs在實際應用中的廣泛應用。為了解決這一問題,本文首先通過人類標注者評估了幾種流行預訓練DM生成的人臉質量,然后評估了現有度量方法(如ImageReward、人類偏好分數、美學評分預測器和人臉質量評估)與人類判斷之間的一致性。觀察到現有度量方法可能無法令人滿意地量化人臉質量,開發了一種名為Face Score(FS)的新度量方法,通過在DM生成的(好、壞)人臉對數據集上便宜地應用修復流程來對ImageReward進行微調。廣泛的研究表明,FS與人類評估具有較高的一致性。
另一方面,FS為改進DM生成人臉開辟了新的可能性。為了實現這一目標,在Stable Diffusion V1.5和Realistic Vision V5.1等預訓練DM上引入了一個指導損失,用于在前述人臉對的去噪軌跡上進行微調。直觀地說,這種損失將壞的人臉的軌跡推向好的人臉的軌跡。全面的實驗驗證了本文方法在提高人臉質量的同時保持了通用能力的有效性。
更多的隨機人臉圖像和相應的人臉得分遞增。我們可以觀察到這樣一個趨勢: 分數越高表示面部生成的質量越好:
主要貢獻:
- 首次對DMs的不良人臉問題進行了調查,并系統評估了一系列圖像質量度量方法來量化人臉質量。
- 提出了Face Score來更好地量化生成的人臉質量,并顯示其在比現有度量方法更高的優勢。
- 提出了指導損失,用于微調DMs以生成更高質量的人臉,并在SD1.5和RV5.1上驗證了其有效性。
人類對生成的人臉圖像的偏好
本節首先暴露現有DMs存在的不良人臉問題,并測試現有的圖像度量方法在量化合成圖像的人臉質量方面的效果。然后,開發了Face Score(FS)作為一種更合格的度量方法,用于評估生成的人臉圖像的合理性和美學吸引力。
不良的人臉問題
DMs在生成復雜細節,尤其是逼真的人臉和手部時遇到的困難已經不再新鮮。如下圖1所示,由RV5.1和SDXL生成的圖像通常包含扭曲的人臉。這個問題可能源于模型訓練中人臉數據的稀缺,或者是人臉區域相對于整個圖像來說很小,但需要包含復雜的細節。通常情況下,為了生成帶有人臉的圖像,常見做法是基于無分類器引導(CFG)技術引入負面提示,以增加生成高質量人臉的可能性。
下圖2顯示了與此相關的結果,可以看到負面提示確實有助于提高人臉質量,但生成的人臉仍然不令人滿意。實踐者可以通過基于DMs的修補技術專門重新生成人臉區域,但由于現有DMs在生成人臉方面的基本問題,生成的人臉仍可能質量較低。
現有DMs的評估
接下來,對三種流行的DMs進行了詳細的人臉生成質量手動評估:SD1.5,RV5.1和SDXL。采用以下流程進行評估:
- 從MS-COCO 2017 5K驗證數據集中選擇與人類主體相關的1k提示,其中包括室內外人物中心場景和單人/多人場景的描述;
- 對于每個提示,使用這三種DMs生成一個圖像三元組(見下圖3),如果任何圖像中沒有有效的人臉,則丟棄該三元組;
- 引入五名人類標注者,分別基于人臉質量對每個提示的圖像三元組進行排名;最佳圖像得分為3分,最差圖像得分為1分;
- 根據多數投票整合標注結果。
為了確定五名標注者的偏好一致性并使標注結果更具說服力,研究者們計算了在五名標注者中超過三名選擇相同標簽的頻率,以量化標注者的一致性,得到了93.3%的一致性。整合標注結果進一步有助于減少個體偏見的影響,并與人群偏好達成一致。上圖3展示了一個帶標注的圖像三元組示例,下表1顯示了對三種DMs的人類偏好統計數據。如圖所示,盡管RV5.1的人臉質量還不夠好(見上圖2),但仍略優于體積更大的SDXL,這加強了對現有DMs不良人臉問題的關注。另一方面,SD1.5明顯落后于另外兩種DMs。
現有度量方法的評估
一個好的度量方法可以實現對生成物的人臉質量的自動、可擴展評估,避免人工標注的昂貴和耗時過程,并為新模型的開發鋪平道路。因此,研究者們進一步調查了現有的圖像度量方法在生成的人臉上與人類偏好的一致性。關注了ImageReward(IR)、Human Preference Score(HPS)、Aesthetic Score Predictor(ASP)和Face Quality Assessment(FQA),這些方法在文本到圖像生成中評估人類偏好或美學質量方面非常流行。直觀上,HPS和IR側重于全局圖像而非局部區域,因此它們不適合評估生成的人臉質量。因此,還開發了它們的變體,即LocalHPS和LocalIR,其中使用檢測器檢測局部人臉區域,并將其送入帶有默認提示“一個人臉”的原始評分流程中,以進行特定人臉評估。
研究者們主要關注度量方法在不同圖像上的相對關系而非絕對數值。因此,構建了一個包含大約3k個帶標注的圖像三元組的小數據集,每個三元組形成兩個成對比較。對于度量方法的評估,計算了基于數據對比中的度量方法排名與人類排名的二元排名準確率。將結果列在下表2中。可以觀察到,IR和ASP的表現不佳,可能是因為它們更加關注全局圖像特征,而LocalIR表現稍好一些。FQA的表現也很差,因為它被用來評估人臉圖像的識別適用性,因此在評估生成的人臉的人類偏好時可能存在偏差。HPS和LocalHPS在度量方法中表現最好。然而,高達75.31%的準確率仍然有很大的提升空間。
人工合成人臉圖像的新度量指標:Face Score
根據以上發現,旨在開發一種新的度量方法,用于量化合成人臉圖像的質量/人類偏好。將這種度量稱為Face Score(FS),并期望它能夠與生成的人臉的合理性和美學吸引力相關聯。為了實現這一目標,自動化和可擴展地構建了一組關于人臉圖像的偏好數據集,并基于此進行模型微調來獲得FS。
數據集構建雖然開源的人類偏好數據集可以用于訓練涉及度量的評估模型,但它們并非專門用于人臉。另一方面,由于標注過程既昂貴又耗時,而收集的人類標注數量有限,因此生成的數據主要用于評估而非模型訓練。為了解決這些問題,本文提出了一個基于現成預訓練DMs修補能力的人臉偏好數據集收集pipeline。具體而言
- 在LAION數據集中包含人臉的自然圖像中,使用檢測器檢測人臉區域,獲得人臉masks M;
- 使用圖像修復pipeline對人臉區域進行重繪。
下圖6的中間列中繪制了該過程。
定量比較首先,報告了FS在表2中對人類標注圖像進行排名的準確率。發現與現有的度量方法相比,FS獲得了最佳的準確率,因此可以作為評估合成圖像中人臉的更好的度量方法在下圖5展示了一些隨機選擇的人臉圖像及其對應的FS,這表明人臉的合理性和美學吸引力與FS呈正相關。為了展示評估人臉質量的普適性,在下表中報告了不同開源和封閉源文本到圖像擴散模型的FS。這些模型以與測試集相同的方式生成圖像。觀察到PGV2.5獲得了最佳的FS。這是有道理的,因為其作者聲稱其圖像質量優于MJ。還得出結論,模型的人臉生成質量與整體生成質量呈正相關。
改進DMs生成人臉質量的微調方法
本節詳細闡述了提出的指導損失以微調DMs,以及一些關鍵的優化策略。
然后,最小化以下的指導損失:
除了指導損失,還提供了關于模型優化的兩個關鍵因素的見解如下。
- 時間步長。圖7中可視化了采樣過程中人臉圖像的演變,并注意到在采樣的早期階段,布局和顏色被渲染出來,但細節尚未顯現。隨著采樣過程的進行,細節逐漸恢復和完善。這啟示保持前向時間步t相對較小,以避免在過于嘈雜的狀態上浪費優化努力。從圖7中可以觀察到,更細致的細節大約在推理過程中部分中期出現,因此經驗性地取t~U[1,0.5T]來微調DMs,其中U[a,b]表示區間[a,b]上的均勻分布。
自注意層。直覺上,DMs中的交叉注意力層捕捉圖像和文本之間的關聯,而自注意力層處理圖像內部的相互依賴關系。基于此,特別優化DMs中U-Net的自注意力層參數,以提升人臉質量。
結果與分析
消融實驗
之前討論過時間步長和自注意層對于細節生成以及人臉生成的重要性。使用RV5.1和DINO特征距離度量進行了以下消融研究。
時間步長。為了證明選擇相對較小時間步長進行微調的有效性,在保持其他條件不變的情況下,額外進行了從所有時間步長中隨機選擇的微調DMs的實驗。從下表6中可以看出,在人臉質量比較中,僅考慮相對較小的時間步長更為有效。這是因為隨著時間步長的減小并接近零,細節生成過程開始,專注于這些細節有助于更好地生成細節和人臉。關于時間步長的更多消融研究將包含在補充材料中。
自注意力層。理論上,自注意力層對人臉生成具有更大的影響。為了在實驗中證明這一點,將Ours-DINO與全面微調進行了比較。從上表6中可以看出,具有自注意力微調的Ours-DINO優于全面微調,證明了自注意力在生成細節方面起著重要作用。自注意力不僅增強了圖像質量,還促進了更精細細節的生成。
結論
本文關注了擴散模型中出現的不良人臉生成問題,并討論了可能的原因及緩解方法。評估了流行的擴散模型在人臉生成質量上的表現,并評估了現有基于圖像的度量標準在評估合成圖像質量時的有效性,但在人臉評估方面遇到了不理想的結果。為了填補這一領域的空白,本文提出了一個由人類評估標注的排名數據集,以及一個大規模的(好、壞)人臉對數據集,后者是在沒有標注的情況下隱式構建的。
除了數據集,還開發了一種名為Face Score的新指標,專門用于評估合成圖像中人臉的合理性和美觀程度,該指標是在人臉對數據集上訓練的。基于這樣的指標,還提出了一種通過修正軌跡實現更好人臉生成的微調方法。通過完整工作流程,幫助更好地使文本到圖像生成與人類對人臉生成的偏好相一致。
盡管該方法可以推廣到細節生成,但本文只關注人臉生成質量。未來的研究需要解決其他細節生成問題,如與手部質量相關的問題。此外,還可以探索更多的距離度量和指導損失的形式選擇,這些將留作未來的工作。
本文轉自 AI生成未來 ,作者:Zhenyi Liao等
