LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！

zhangyannni

發布于 2025-6-3 09:14

瀏覽

0收藏

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

文章地址：https://arxiv.org/abs/2505.23758

開源地址：https://lorashop.github.io/ （待開源）

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

亮點直擊

首創多概念LoRA編輯框架：首次實現無需重新訓練/微調，直接在給定圖片中無縫插入多個由LoRA定義的定制化概念（物體、人物、風格）。
解耦掩碼自動提取技術:創新性利用模型內部特征圖，自動生成每個LoRA概念的空間影響區域掩碼，精準定位編輯位置。
免訓練動態融合機制:在推理階段動態混合多個LoRA權重，僅在其對應掩碼區域內激活特定概念，避免概念間干擾（LoRA串擾）。

方法

LoRAShop，這是一種無需訓練的新流程，通過目標特征混合方案實現多主體生成和編輯的多LoRA適配器使用。方法——多主體殘差混合（MSRB）包含兩個基本階段：

提取有效突出每個主體預期出現空間區域的主體先驗；
在擴散Transformer中應用殘差特征混合方案，選擇性合并不同LoRA適配器的輸出。

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

能夠在空間上組合對應不同概念的特征，實現無需額外訓練的連貫且解耦的多主體生成和編輯。LoRAShop僅干預整流流Transformer的特征空間：既不修改噪聲計劃，也不改變任何模型權重。在反向擴散過程中，僅覆蓋由主體先驗指示的token位置的殘差特征，保持其他所有token不變。由于此操作是局部且線性的，全局去噪軌跡（因而整體場景布局）保持不變。相同機制可與反轉無縫集成。采用[41]的RF-Solver流程，使用二階求解器恢復目標圖像對應的隱空間噪聲。在重建隱空間后，利用LoRAShop編輯反轉隱空間。如圖1和圖3所示，這實現了將多個個性化概念區域控制插入真實圖像，同時忠實保留輸入屬性。

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

實驗

在圖像生成和圖像編輯任務上評估LoRAShop。對于生成，測量方法渲染單個個性化主體的優劣，以及在一個場景中組合多個個性化主體的可靠性。對于編輯，評估真實圖像上的身份替換，用LoRA適配器編碼的外觀替換人物外觀。

實驗設置

使用FLUX.1-dev作為構建方法的整流流Transformer。本方法基于利用預訓練LoRA適配器完成單/多概念生成和編輯任務。所有實驗使用diffusers庫提供的LoRA。補充材料提供完整實驗用LoRA列表及視覺表示。除非另有說明，設置編輯時間步t=0.90，γ=0.94，τ=0.7，在反向過程中從時間步t開始應用提出的混合方案。LoRAShop方法無需對預訓練適配器進行訓練，可在推理時完成上述個性化任務。實驗使用NVIDIA L40S GPU。

LoRAShop生成含兩個概念的圖像約需50秒，而FLUX.1-dev手動推理每圖需30秒。此外，由于LoRAShop可順序應用每個概念，對單圖應用概念數量無內存限制。

定性分析

對三個主流任務進行了定性比較：單主體生成、多主體生成和換臉。在所有基準任務中，LoRAShop提供了優于競爭方法的性能：

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

多合成方法的定性比較。LoRAShop與運行在多個 LoRA 適配器上的多合成方法進行比較，LoRAShop 在不依賴姿勢輸入的情況下表現優于其他競爭方法，從而產生具有不同設置的合成效果。

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

定量比較

單主體生成的定量比較。在整體性能方面，LoRAShop優于競爭對手基于 FLUX 的方法，這是通過身份相似性、快速對齊和視覺質量來衡量的：

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

多主體生成的定量比較。與基于FLUX和SDXL的方法進行了基準測試。LoRAShop在多個主體上實現了卓越的身份保護，同時保持了基礎模型的快速對齊和視覺質量：

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

用戶研究。展示了關于身份保留（Q1）和多主體生成任務的快速對齊（Q2）的用戶研究結果：

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

換臉的定量比較。將LoRAShop與REFace進行基準測試。雖然LoRAShop在輸入保存方面表現平平，但它在身份保存方面做出了重大改進：

LoRAShop炸裂登場：多概念LoRA“PS”神器！一鍵融合人物/風格，原圖細節無損！-AI.x社區

討論

局限性與廣泛影響由于提取的掩碼繼承了底層擴散模型的潛在偏差（如更關注面部、刻板性別特征或飽和顏色），有時可能錯誤定位或低估某些區域，導致不連貫或不平衡的編輯，特別是對模型預訓練數據中代表性不足的概念。我們的掩碼提取利用了Flux架構獨有的注意力模式；其他擴散主干（如SDXL-Turbo）可能需要重新調整閾值參數或產生較不連貫的掩碼。這限制了在所有T2I模型中的即時可移植性。與其他強大編輯工具一樣，LoRAShop可用于制作非自愿內容。盡管如此，LoRAShop首次展示了無需訓練、區域控制的多概念LoRA編輯，為組合式圖像操作開啟了新創意工作流和研究方向。

結論

LoRAShop，首個無需訓練的框架，可實現現成LoRA模塊的區域控制多概念圖像編輯。通過發現并利用Flux擴散Transformer內部空間相干的激活模式，我們設計了解耦潛在掩碼提取流程，使每個LoRA僅在其目標區域生效，消除跨概念干擾。在無需額外優化、分割或輔助引導的情況下，LoRAShop將多個個性化主體或風格無縫混合到輸入圖像中，同時保留全局上下文和精細局部細節。除了推動個性化圖像編輯的技術發展，LoRAShop將擴散模型轉化為直觀的"LoRA版Photoshop"，為協作敘事、產品可視化和快速創意迭代開辟了新可能性。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/QO3sD4SH1aQDYX9wn-rHWA??

標簽

訓練

模型

生成

贊

回復