統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法

發布于 2024-8-15 10:31

瀏覽

0收藏

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

文章鏈接：https://arxiv.org/pdf/2408.05939
git鏈接：https://aigcdesigngroup.github.io/UniPortrait-Page/
demo鏈接：https://huggingface.co/spaces/Junjie96/UniPortrait

亮點直擊

本文提出了UniPortrait，一種創新的人像圖像個性化框架，統一了單ID和多ID的個性化，具有高面部保真度和可控性；
提出了一種新的ID embedding模塊，采用解耦策略，在嵌入詳細面部身份信息的同時保持良好的可編輯性；
引入了ID Routing機制，解決了多ID定制中的身份混合問題，同時不影響每個身份的完整性、生成圖像的多樣性以及提示設計的靈活性。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

本文介紹了UniPortrait，一種創新的人像圖像個性化框架，統一了單ID和多ID的定制，具有高面部保真度、廣泛的面部可編輯性、自由形式的輸入描述以及多樣化的布局生成。

UniPortrait僅由兩個即插即用的模塊組成：ID embedding模塊和ID routing模塊。ID embedding模塊采用解耦策略為每個ID提取多功能可編輯的面部特征，并將其嵌入擴散模型的上下文空間中。然后，ID routing模塊自適應地組合并分配這些嵌入到合成圖像的各自區域內，實現單ID和多ID的定制。通過精心設計的雙階段訓練方案，UniPortrait在單ID和多ID定制中都表現出卓越的性能。定量和定性實驗表明，UniPortrait相較于現有方法具有優勢，同時也具備良好的可擴展性，例如與現有生成控制工具的廣泛兼容性。

方法

本節詳細說明UniPortrait的兩個關鍵模塊。最后闡述了UniPortrait的訓練方案。框架概覽如下圖2所示。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

ID embedding

ID embedding模塊專門設計用于傳遞高保真度且可編輯的面部ID信息，從而引導擴散模型生成ID一致且可控的圖像。與大多數先前的方法利用面部識別骨干網絡的最終全局特征進行面部ID表示不同，本文使用了倒數第二層（即全連接層之前）的特征。此調整旨在保留與ID特征相關的更豐富的空間信息。由于面部識別骨干網絡通常在包含數百萬人ID的大型數據集上進行訓練，因此其特征預計對與ID無關的面部信息（如表情、姿勢和目光）不敏感，尤其是不敏感于面部形狀和紋理細節。這樣即使考慮到體重或年齡的波動會影響一個人的外貌，但并不會改變其身份。將這些識別特征稱為內在ID特征。

然而，用戶常常希望個性化ID圖像，使其與給定的面部參考更加匹配，即在內在ID特征之外保持一致的面部形狀和紋理細節。對此，一些先前的研究利用了從CLIP圖像編碼器中提取的局部特征作為面部結構條件。盡管面部相似性有所增強，但使用CLIP局部特征面臨兩個顯著挑戰。首先，CLIP是在弱對齊的圖像-文本對上進行訓練的，其特征在面部身份識別方面不夠區分性，主要以語義為主。其次，由于缺乏解耦，這些特征可能會與其他與ID無關的面部信息甚至與面部無關的表示（如背景光照）耦合在一起。鑒于個性化訓練數據通常稀少且缺乏多樣性——訓練參考和目標面部通常來自相同或相似的圖像——這些無關特征可能導致模型在非必要的面部細節上過擬合，進而使面部控制和編輯過程變得復雜。

為了解決這些問題，首先整合面部識別模型的淺層特征，以增強面部的結構表示。隨后，在結構特征分支上應用強大的dropout正則化，以使其與內在ID分支解耦。骨干網絡的淺層特征經驗上是低級的，包含更多的紋理細節，并且與ID相關性更高，從而幫助生成更高保真度的肖像。對面部結構分支的dropout正則化保持了內在ID特征和面部結構特征的獨立性，同時使模型更依賴于內在ID特征。這種策略允許在ID相似性和可編輯性之間進行更靈活的權衡，滿足用戶在保持身份的肖像生成中的不同需求。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

ID Routing

通過ID embedding模塊，可以為單個ID獲得多樣化的可編輯embeddings。對于多ID場景，利用ID embedding模塊將每個ID信息嵌入上下文空間。值得注意的是，這些嵌入的ID表示是位置無關的，因為沒有對它們施加任何位置約束。為避免身份混合，先前的方法要么將ID embedding集成到文本embeddings中，要么采用手工制作的布局masks以隔離不同ID的信息。前者需要遵循特定格式的文本描述（例如，主體的單一短語），并可能會降低文本和身份表示的保真度；后者則限制了生成圖像的多樣性。本工作在每個交叉注意力層中引入了一個逐位置ID routing模塊，以自適應地route并分配唯一的ID到潛在特征中的每個潛在面部區域，從而有效緩解身份混合的問題。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

然而，直接應用公式2會帶來兩個潛在問題。首先，它不能保證所有ID都會被routed。其次，相同的ID仍然有可能通過關注多個目標面部的部分區域而泄露。此外，公式2是不可微的。

為了解決這些問題，本文提出了routing正則化損失，并在訓練階段利用Gumbel Softmax技巧。這些措施有助于router的學習，增強其有效管理和分配ID表示的能力。

Routing正則化損失。具體而言，在訓練階段給定一個包含N個不同ID的目標圖像時，首先檢測圖像上所有面部的邊界框并將其轉換為二進制masks，其中1表示面部區域，0表示非面部區域。通過這種方式，得到N個面部區域masks。然后，routing正則化損失通過Router輸出與這些面部區域masks之間的L2損失計算如下：

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

Gumbel Softmax技巧。為了確保routing模塊的梯度在訓練過程中能夠正確反向傳播，引入了Gumbel Softmax技巧。具體而言，在訓練過程中，向router的輸出logits中添加Gumbel噪聲，以重新參數化router采樣過程。在推理階段，通常從router中選擇最佳的前1個身份進行前向傳播。最后，值得注意的是，在單ID的情況下，router變得無關緊要，基于routing的多ID生成退化為常見的單ID生成。

訓練

UniPortrait的整個訓練過程分為兩個階段：單ID訓練階段和多ID微調階段。完成這兩個階段的訓練后，UniPortrait可以用于單ID定制或多ID個性化。

階段 I：單ID訓練。在這個階段，僅引入ID embedding模塊；訓練僅限于具有單一ID的圖像，如前面圖2左側所示。首先裁剪并對齊圖像的面部區域，以此作為ID embedding模塊的輸入。如果面部具有關聯的ID標簽，例如來自CelebA數據集的圖像，則會以0.1的概率采樣同一ID的另一張裁剪并對齊的面部圖像，作為內在ID分支的輸入。相反，所有面部結構分支的輸入均來自目標圖像，這種方法旨在增強面部紋理和結構細節的學習。在整個訓練過程中，對面部結構分支應用了丟棄正則化，概率如下：以0.33的概率完全丟棄該分支；以0.33的概率保留分支但隨機丟棄面部結構token；以0.34的概率完全保留面部結構分支。為了更全面地提取面部信息，在U-Net架構中添加了低秩適應（LoRA ）。在此階段，僅對ID embedding模塊和U-Net的LoRA中的參數進行訓練。訓練損失與傳統擴散損失對齊，如公式1所示。

階段 II：多ID微調。完成階段I訓練后，引入了ID routing模塊。固定ID embedding模塊中的所有參數，僅微調ID Router和LoRA模塊的參數，LoRA模塊的學習率下降0.1。第二階段的損失函數包括原始擴散損失（公式1）和routing正則化損失（公式4）。其中，平衡參數λ設置為0.1。

實驗

設置

數據集。本工作使用的數據集包括四個主要部分：

(1) 從LAION中篩選出的24萬張單ID圖像；
(2) 從CelebA數據庫中篩選出的10萬張單ID肖像；
(3) 從互聯網收集的16萬張高質量單ID圖像；
(4) 從LAION中篩選出的12萬張高質量多ID肖像。

前三個子集用于階段I訓練，而最后一個子集用于階段II訓練。來自CelebA的數據和從互聯網獲取的數據使用Qwen-VL進行了標注，而LAION的數據則保留了其原始文本標注。值得注意的是，在所有這些數據中，只有CelebA圖像配有ID注釋。

實現細節。訓練從StableDiffusion v1-5模型開始。使用的面部識別骨干網絡是CurricularFace。對于CLIP圖像編碼器，使用的是OpenCLIP的clip-vit-huge-patch14。ID embedding模塊中的Q-Former有6層和16個可學習查詢。U-Net中的LoRA的秩設置為128。所有實驗均在8個V100 GPU上進行，使用AdamW優化器，批量大小為128，學習率為1e-5。第一階段訓練300k次迭代，第二階段訓練150k次迭代。為了方便無分類器引導采樣，在5%的圖像上訓練模型時不使用面部條件。在推理階段，使用20步DDIM 采樣，分類器guidance scale為7.5，并且為了實現更逼真的圖像生成，使用來自huggingface的Realistic Vision V4.0模型，參考了之前的工作 [67]。

評估指標。本文從身份保持、提示一致性、FID和LAION-Aesthetics (LAION-Aes)評分方面評估圖像生成質量。對于身份保持和提示一致性，遵循FastComposer制定的評估協議。具體而言，身份保持通過計算參考面孔和生成面孔之間的成對面部相似度來量化，使用FaceNet。對于多身份生成，檢測生成圖像中的所有面孔，并使用生成面孔與參考面孔之間的貪婪匹配程序。所有面孔之間的最低相似度評分衡量整體身份保持。提示一致性通過平均CLIP-L/14圖像-文本相似度進行評估。

結果

單ID個性化。首先評估了單ID定制的性能。遵循FastComposer的做法，使用了來自CelebA數據集的15個身份，這些身份在訓練數據集中被故意排除，每個主題分配了40個獨特的文本提示進行評估。這些文本提示涵蓋了廣泛的場景，如重新語境化、風格化、配飾化以及各種動作。為了公平比較，所有方法接受一個單一的參考面孔圖像，并每次生成4張圖像。定量結果如下表1所示。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

本文的方法在身份保持和提示一致性之間表現出良好的平衡，同時實現了最低的FID評分和第二高的LAION-Aesthetics評分，顯著超越了PortraitBooth、IP-Adapter-FaceID-PlusV2和FastComposer的性能指標。值得注意的是，InstantID記錄了最高的面部身份相似度；然而，其提示一致性和FID評分相對較低，這一限制歸因于其需要面部標志點的固定位置。PhotoMaker在提示一致性方面表現突出，但面部相似度結果一般。盡管FlashFace在面部相似度和提示一致性之間實現了相對的折衷，但較差的FID和LAION-Aes值表明其在生成圖像的質量和多樣性方面表現不佳。需要強調的是，在所有評估方法中，僅有FastComposer和本文的方法可以直接支持多人的個性化圖像生成。下圖3展示了利用不同方法應對一系列單ID個性化提示的定性結果，定性分析與定量指標的結論一致。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

多ID個性化。進一步評估了多ID圖像生成的性能。還使用了FastComposer的測試基準，其中包含上述CelebA數據集的15個ID和21個額外策劃的測試提示。這15個ID被策略性地配對，形成了總共105個多ID組合。下表2顯示了UniPortrait與FastComposer的定量比較。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

本文的方法在所有指標上均優于FastComposer，展現了增強的身份保持和提示一致性，同時生成圖像的質量和美學也得到了提升。下圖4展示了定性分析。UniPortrait保留了不同主體的獨特屬性。同時，UniPortrait對文本提示的忠實度有所提高，使得可以直接應用文本進行多人的風格化圖像定制。此外，由于ID Routing機制，本文的方法支持更大的提示輸入靈活性。這對于包含多個短語的輸入尤為有利，而在FastComposer的情況下，這需要轉換為由“和”連接的單一短語。圖5展示了本文的方法在生成多ID圖像時的多樣性，進一步證明了本文的方法在多ID圖像定制中的定性提升。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

消融研究

ID embedding模塊中的組件。下表3展示了ID embedding模塊中各組成部分的效果評估。使用來自面部識別模型倒數第二層的局部特征而非其最后的全局特征顯著提升了ID相似度。引入面部結構特征進一步增強了ID相似度，尤其是當結合了面部骨干的淺層特征時，這一效果尤為明顯。然而，觀察到面部結構特征的整合會導致生成圖像的多樣性（即FID）和與相關文本提示的一致性下降。這種下降可以通過在面部結構分支中應用DropToken和DropPath正則化來緩解。同時，這些正則化有助于減輕模型對不準確面部細節的過度依賴，從而最佳地增強ID相似度。盡管進行了這些調整，但必須承認，面部結構分支的包含在一定程度上必然會妥協提示一致性。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

Routing正則化損失。下表4驗證了Routing正則化損失的效果。結果表明，這種方法可以顯著提高ID相似度，同時在多ID定制中保持提示一致性。下圖6展示了在不同擴散步驟下從所有U-Net交叉注意力層中得出的平均routing maps。可以觀察到，采用routing正則化損失后，結果更加集中，表明不同ID信息的隔離有所改善。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

應用

UniPortrait在對齊ID、保持提示一致性以及提升生成圖像的多樣性和質量方面的優越性能，為多種潛在的下游應用鋪平了道路。其中，面部屬性修改尤為突出，包括年齡、性別和特定面部特征的改變，如下圖7(a)所示。此外，UniPortrait的靈活插件式設計確保了與一系列現有社區開發工具的兼容性，如ControlNet、LoRA和IP-Adapter。這種集成促使條件可控的ID保持生成成為可能。這些應用示例如圖7(b-e)所示。進一步地，UniPortrait在不同角色之間的身份插值能力也得到了探討，展示了其在平滑融合多個身份特征方面的能力，如圖7(f)所示。此外，還展示了UniPortrait生成具有一致ID的故事的潛力，如圖7(g)所示。

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法-AI.x社區

結論

本文介紹了UniPortrait，一個用于單和多ID圖像統一定制的模型。UniPortrait結合了先進的ID embedding模塊，確保了高保真度和可編輯的身份嵌入。此外，集成了一個模塊化的即插即用ID routing組件，以解決多ID生成過程中身份混合的問題。實證結果表明，UniPortrait在生成質量和多樣性方面超越了現有方法，同時提供了強大的可編輯性和身份保真度。希望UniPortrait能夠成為該領域的新基準，為所有研究機構提供一個可以遵循、復制和優化的標準。

本文轉自 AI生成未來，作者：Junjie He等

原文鏈接:??https://mp.weixin.qq.com/s/A3VFUyutGq-Vw9gqYcwqNA??

標簽

模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

統一單ID和多ID個性化框架！阿里發布UniPortrait:質量和多樣性超越現有方法

方法

ID embedding

ID Routing

訓練

實驗

設置

結果

消融研究

應用

結論

目錄