突破傳統“非此即彼”,真靈魂P圖!騰訊最新FlexIP黑科技:身份保持和個性化我都要!
文章鏈接:https://arxiv.org/pdf/2504.07405
項目鏈接:https://flexip-tech.github.io/flexip
亮點直擊
- 雙適配器解耦設計: 首次將身份保持(Preservation Adapter)和個性化編輯(Personalization Adapter)顯式分離,避免特征競爭,實現更精準的控制,優于現有SOTA。
- 動態權重門控機制: 通過連續可調參數動態平衡身份保持與編輯強度,支持從細微調整到大幅變形的靈活控制,突破傳統“非此即彼”的限制。
- 模態感知訓練策略: 根據數據特性(靜態圖像/視頻幀)自適應調整適配器權重,圖像數據強化身份鎖定,視頻數據優化時序變形,提升生成魯棒性。
上圖:FlexIP 展示了在個性化圖像生成中的多樣性與精確性。僅憑一張參考圖像(左列),它不僅生動還原了身份特征,還能靈活響應多樣的文本提示,生成既連貫又高度多樣化的編輯結果。下圖:FlexIP 采用的動態權重門控機制可在“強身份保持”與“個性化多樣性”之間平滑切換,顯著優于 IP-Adapter(后者在身份表現上容易突變,控制力也更僵硬)。這一點體現了 FlexIP 更出色的靈活性與用戶友好的可控性。
(動物域)SDXL上的個性化設置
人物個性化對比
(物體域)SDXL上的個性化對比
與Inpainting模型結合(SDXL Inpainting)展示
總結速覽
解決的問題
- 身份保持與編輯靈活性的固有矛盾:現有方法在生成模型中難以同時實現高保真身份保持和多樣化個性化編輯,通常需要在兩者之間做出權衡。
- 跨模態對齊不足:傳統零樣本方法依賴視覺-語言對齊模塊(如Q-former),導致圖像生成任務中視覺與文本信息未能有效協同,影響身份保持和編輯效果。
- 控制粒度不足:現有方法通過單一參數調整身份保持強度時,往往產生突變效果,缺乏連續、精細的控制能力。
提出的方案
- 雙適配器架構(Dual-Adapter):
- Preservation Adapter(保持適配器):專注于身份特征(高層語義和低層空間細節),通過跨注意力層鎖定關鍵身份信息。
- Personalization Adapter(個性化適配器):基于文本指令和高層語義實現多樣化編輯,避免特征競爭。
- 動態權重門控機制:在推理階段通過動態調整雙適配器的權重比例,實現身份保持與編輯靈活性的連續參數化控制。
- 模態感知訓練策略:
- 靜態圖像數據:偏向保持適配器,強制身份一致性。
- 視頻幀數據:偏向個性化適配器,利用時序變形能力實現連貫編輯。
應用的技術
- 解耦設計:通過“低耦合、高內聚”原則分離身份保持與編輯功能,避免傳統單一路徑的特征沖突。
- 跨注意力機制:保持適配器通過跨注意力捕獲多粒度視覺特征(如人臉細節),增強身份魯棒性。
- 動態插值:權重門控機制支持用戶實時調整適配器貢獻,形成連續的“控制曲面”。
- 多模態數據訓練:結合圖像和視頻數據,分別優化適配器的身份鎖定與變形能力。
達到的效果
- 突破性能限制:在身份保持準確性(如人臉、物體細節)和編輯多樣性(如風格、姿態變換)上均超越現有方法。
- 靈活可控性:用戶可通過參數連續調節生成效果,從細微修飾到大幅變形均保持身份一致性。
- 廣泛適用性:支持藝術創作、廣告設計等場景,兼顧高保真與創意自由度。
- 實驗驗證:定量與定性實驗表明,FlexIP在身份相似度(如CLIP-I得分)和編輯質量(如用戶偏好率)上達到SOTA水平。
關鍵創新點
- 顯式解耦:首次將身份保持與編輯分解為獨立可控維度。
- 動態門控:將傳統二元權衡轉化為連續控制,實現“參數化編輯”。
- 模態感知訓練:根據數據特性(圖像/視頻)自適應調整適配器權重,優化生成效果。
方法
本節首先提供文本到圖像擴散模型的基礎概述,包括其核心機制及其與本工作的相關性。在此基礎上,全面闡述所提出的 FlexIP 框架。首先闡明其開發動機的關鍵觀察與挑戰,隨后系統地分解其架構與工作流程,詳細說明其利用預訓練文本到圖像擴散模型實現主體保持與個性化的創新方法。
在圖像保持和文本保真兩個指標上與其他方法的比較表明,本文的方法在這兩個方面都優于以前的方法
保持適配器
確保身份保持的第一步是確定應使用哪些查詢和特征來檢索主體特定屬性。即,何種查詢能有效提取富含身份的信息?
可學習查詢的適應性
二者的互補性
保持細粒度與全局身份屬性常被視為簡單挑戰。可學習查詢擅長捕捉細粒度變化但缺乏全局一致性,而 CLIP [CLS] 嵌入提供全局身份一致性卻可能忽略細微主體細節。因此,我們采用“分而治之”策略,整合二者從 DINO 塊嵌入中同時檢索細粒度適應性與全局魯棒性(如下圖 3 左下圖所示),確保編輯時身份保持仍穩定。
通過 DINO 塊嵌入 的交叉注意力獨立重采樣可學習查詢 和 CLIP [CLS] 嵌入 :
其中 ⊕ 表示拼接操作。P 作為身份保持模塊,整合了細粒度局部細節(通過可學習查詢)和全局語義(通過 CLIP [CLS] 嵌入)。
個性化適配器
在個性化方面,Stable Diffusion 已經通過交叉注意力將 UNet 潛在空間與文本嵌入進行條件化。然而,這種條件化僅提供一般的語義指導,缺乏對主體特定視覺身份的顯式關聯。因此,僅依賴原始文本嵌入可能導致編輯意圖與主體外觀之間的錯位。
通過引入額外的個性化適配器來解決這一限制,其中文本嵌入顯式關注 CLIP [CLS] 嵌入。這一額外的重采樣步驟使文本嵌入能夠吸收有意義的視覺線索,將文本修改錨定在一致的視覺上下文中。因此,文本指令更具身份感知能力,從而引導既準確又與主體外觀一致的編輯。
個性化適配器的功能如下:
動態權重門控
為解決現有方法在保持能力與風格化自由度之間的固有權衡,提出一種新穎的動態權重門控(DWG)機制,用于圖像和視頻數據的聯合訓練。實證分析表明:
- 圖像數據能提升保持質量,但會導致復制粘貼偽影并削弱指令遵循性
- 視頻數據可促進時序多樣性,但會弱化保持強度
本文的框架通過動態調整兩個專用適配器的貢獻,實現兩種模態的優勢互補:
- 保持適配器 P經圖像數據優化,用于維持高保真細節和指令一致性
- 個性化適配器 S設計用于從視頻數據注入時序多樣性和風格化自由度
實驗
訓練數據集
理想訓練需要展示同一主體在不同場景或視角下的圖像對,但此類數據通常難以獲取。先前方法依賴簡單增強手段,無法表征真實姿態和視角變化。沿用前人工作,利用多視角和視頻數據集,這些數據天然提供同一主體的多幀畫面。
本文的數據集包含123萬張變化樣本和1100萬張不變圖像,涵蓋人臉圖像、自然場景、虛擬試穿、人類動作、顯著性和多視角物體。為平衡多樣性與泛化性,我們對視頻數據重采樣以保持變化與不變數據1:1比例,避免冗余。
此外,先前工作常對視頻幀使用簡單統一的文本提示,限制了模型遵循細致指令的能力。為提升文本條件化和編輯靈活性,使用Qwen2-VL為每幀生成高質量獨特描述。該方法增強了文本引導的多樣性和語義相關性,提高了模型遵循詳細編輯指令的能力。
評估數據集與指標
從DreamBench+和MSBench收集評估數據,包含187個獨特主體。每張圖像使用其對應的9組提示進行測試,每組提示生成10次,最終產生16,830張定制化圖像用于全面評估。
本文使用多項指標評估模型。對于身份保持,在應用分割去除背景干擾后,采用DINO-I和CLIP-I計算相似度分數。對于個性化,CLIP-T度量生成圖像與提示在CLIP文本-圖像嵌入空間中的語義對齊度。此外,使用CLIP-IQA和CLIP-Aesthetic評估圖像質量。本文還計算各方法在所有指標上的平均排名(mRank)以綜合反映其性能。
對比實驗
定量對比
本實驗從個性化、保持性、圖像質量和用戶研究四個維度對比了多種方法。如下表1所示,FlexIP在所有評估指標上均優于其他方法,尤其在綜合排名(mRank)、個性化(CLIP-T)、保持性(CLIP-I和DINO-I)和圖像質量(CLIP-IQA和Aesthetic)方面表現突出。
在個性化方面,FlexIP的CLIP-T得分為0.284,略低于λ-Eclipse方法。但需注意的是,λ-Eclipse是以犧牲主體保持能力為代價實現的這一分數。在保持性指標上,FlexIP的CLIP-I和DINO-I得分分別達到0.873和0.739,展現了其在保持圖像細節和語義一致性方面的優勢。圖像質量評估中,FlexIP的CLIP-IQA和Aesthetic分數分別為0.598和6.039,表明其生成的圖像具有更優的質量和美學價值。
為提供更符合人類感知的個性化評估,本文采用MLM-Filter進行測評。與傳統CLIP-T方法依賴全局對比特征不同,MLM-Filter利用先進的多模態大語言模型能力捕捉細微物體屬性和語義差異,可實現與人類判斷一致的情境感知評估。下表2顯示,FlexIP在圖像-文本匹配(I-T Match)、物體細節滿意度(Detail)和語義理解(Semantic)三個互補維度上均表現優異,這凸顯了其精準捕捉視覺細節并整合輔助信息的能力,與人類偏好高度吻合。
為驗證方法的實用性,進一步評估了不同方法在實際應用中的用戶滿意度,重點關注靈活性(Flex)和身份保持(ID-Pres)兩個指標。本研究共使用33個樣本進行評估,每次評估中向參與者展示各方法生成的圖像集合,由60名評估者根據兩個標準進行選擇:最符合文本語義的圖像和最佳保持主體的圖像。如表1所示,FlexIP在這兩項指標上均表現最優。
定性對比
為全面評估FlexIP的性能,選取每個主體三張不同圖像,與五種前沿方法進行可視化對比。如下圖4所示,相較于現有方法,FlexIP生成的圖像在保真度、可編輯性和身份一致性方面均有顯著提升。實驗結果表明,在相同文本指令下,FlexIP能跨參考圖像穩定保持主體特征與個性化效果,驗證了模型中顯式權衡機制的有效性。
消融實驗
為驗證動態權重門控機制在平衡身份保持與個性化編輯方面的效能,我們開展了系統的消融研究。圖5表明,通過調節保持適配器與個性化適配器的權重比例,本框架能在推理階段實現兩個目標的精細化權衡。所提出的門控機制在訓練階段解耦了兩個適配器的優化路徑,從而規避了聯合優化中隱式權衡導致的次優性能。
將模型擴展至零樣本風格遷移任務,重點測試指令跟隨與細節信息提取能力。如下圖6所示,本方法在該任務中表現優于其他方案,這得益于雙適配器架構既能提取細粒度信息,又能平衡細節保持與指令編輯的關系。
結論
FlexIP是一種面向圖像合成的靈活主體屬性編輯框架,通過解耦身份保持與個性化編輯這兩個目標,有效克服了現有方法的局限。其雙適配器架構利用高層語義概念與低層空間細節確保身份完整性,動態權重門控機制則將二元的保持-編輯權衡轉化為連續的參數控制曲面,為主體驅動圖像生成提供了魯棒而靈活的解決方案。
本文轉自AI生成未來 ,作者:AI生成未來
