CVPR 2025 | 字節提出個性化多人圖像生成新方法ID-Patch,可生成多人合影、姿勢可控
相信擴散模型(DMs)大家一定都不陌生了,目前已經成為文本生成圖像的核心方法,憑借強大的圖像生成能力,正重塑藝術創作、廣告設計、社交媒體內容生產格局。現在,用一段文字生成個性化頭像都不算啥新鮮事兒了。
不過仍然會有這樣一個問題,目前我們看到的基于人物的文生圖大多還是生成一個人的,對于多人同時生成的目前還沒有很好的樣例。然而這些場景又會經常出現在我們的生活中,舉個例子:
- 朋友缺席聚會,能不能“補全”一張全員到齊的合影?
- 廣告里,能不能自由搭配多位虛擬角色,講個精彩的多人物故事?
目前對于個性化多人圖像生成仍然面臨很大的技術挑戰。比如最大的難點就是身份特征泄露,明明是兩個人,結果生成的面容卻“融合”在一起,讓人傻傻分不清。而且,用戶還希望能精準指定每個人的位置和動作,讓構圖更自然、互動更有趣。一旦位置出錯,可能生成的圖像就慘不忍睹了!
今天給大家介紹的由字節跳動和密歇根州立大學提出的個性化多身份圖像生成方法ID-Patch,對于身份泄露、ID一致保持,模型推理速度等都給我們帶來了一些驚喜。下面展示的結果為該方法與最先進的多身份生成方法的比較:
從左到右:條件輸入,OMG(InstantID)、InstantFamily 和 ID-Patch。OMG 未能保留中間人的發型,并為右邊女性的手部創建了偽影。InstantFamily 存在 ID 泄露問題,導致中間人 ID 不正確。ID-Patch保留了每個人的詳細身份信息。此外,ID-Patch 比 OMG 快 7 倍,并且計算開銷比 InstantFamily 更少。
效果展示
使用 ID-Patch 生成任意姿勢圖像
即插即用:Canny Edge
姿勢條件生成
相關鏈接
- 論文:https://arxiv.org/abs/2411.13632
- 主頁:https://byteaigc.github.io/ID-Patch/
- 模型:https://huggingface.co/ByteDance/ID-Patch
- 試用:https://huggingface.co/spaces/ByteDance/ID-Patch-SDXL
論文介紹
綜合個性化的小組照片并指定每個身份的位置的能力具有巨大的創造潛力。盡管這種圖像在視覺上具有吸引力,但它對現有技術提出了重大挑戰。一個持續的問題是身份(ID)泄漏,其中注入的面部特征彼此干擾,導致較低的面部相似,定位不正確和視覺偽像。現有方法受到限制,例如依賴分割模型,增加運行時或ID泄漏的可能性很高。
為了應對這些挑戰,論文提出了ID-PATCH,這是一種新穎的方法,可以在身份和2D位置之間提供牢固的關聯。該方法從相同的面部特征生成一個ID補丁和ID嵌入:ID補丁位于條件圖像上以進行精確的空間控制,而ID嵌入與文本嵌入式集成以確保高相似。實驗結果表明,ID-PATCH超過了跨指標的基線方法,例如面部ID相似,ID位置關聯的準確性和生成效率。
方法概述
ID-Patch管道。給定文本提示(例如,兩個人握手),n個臉部圖像和位置,我們與n ID。我們為每個ID提取面部功能,然后將其投影到ID補丁和ID嵌入中。 ID補丁在黑色上渲染 帆布(或添加在姿勢圖像的頂部)根據面部位置并發送到控制網中以控制生成的位置 面孔。 ID嵌入插件被附加到文本嵌入中,以通過擴散模型提供詳細的面部信息,并通過 跨注意。
ID嵌入的有效性。沒有ID嵌入,可以區分兩個人,但相似之處很低。合并ID嵌入可顯著改善 臉相似
ID-PATCH結合姿勢條件。提供 (a)中的用戶ID映像,我們的方法只能生成結果 鼻尖位置的規格如(b)所示。合并 帶有姿勢圖像的ID補丁(C)增強了對 產生的結果如(d)所示,沒有產生任何計算開銷。
兩階段訓練以提高定位魯棒性。 給定(a)中的姿勢和ID條件,單級訓練不能 完全防止面部定位問題不正確。例如,在 (b)這個人被錯誤地放在中央底部的位置, 產生不可分割的結果。 (c)引入了兩個階段訓練以解決此問題。從第一行可以看出 圖,與這些方法相比 來自單階段訓練。我們的實驗結果證明了這一點 解決ID泄漏問題至關重要。
實驗結果
與姿勢條件生成基線的 相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產生第二個人。在第2行, OMG不會為紅色盒子中的兩個人生成正確的發型和準確的面部特征,而瞬時生成 紅色框中的錯誤ID。與姿勢條件生成基線的比較,紅色虛線盒突出顯示了具有低身份的實例 相似。在第1行中,OMG無法保留第三個女人的臉部形狀(從左到右),因為它的第一階段導致沖突 帶有此ID的臉部形狀。由于第三名女性的ID泄漏,瞬間家庭會產生第二個人。在第2行, OMG不會為紅色盒子中的兩個人生成正確的發型和準確的面部特征,而瞬時生成 紅色框中的錯誤ID。
更多結果
結論
ID-PATCH顯著增強了身份相似之處和位置生成。通過將每個身份功能嵌入獨特的補丁并利用ControlNet準確地放置在指定的空間位置,有效的減少了ID泄漏。該方法與其他條件信號(例如姿勢)無縫集成 控制。
ID-PATCH這項工作為未來鋪平了道路 多ID圖像生成中的探索。潛在的未來研究方向包括利用多個圖像 來自不同角度的同一個人的進一步增強身份相似和同時控制 使用補丁技術的位置和面部表情。