200M參數吊打商業巨頭!浙大-哈佛開源ICEdit,用1%資源實現圖像編輯自由!一句指令生成海報級修圖方案
浙江大學聯合哈佛大學提出一種高效的基于指令的圖像編輯框架ICEdit,與以往的方法相比,ICEdit僅需1%的可訓練參數(200M)和0.1% 的訓練數據(50k),就展現出強大的泛化能力,能夠處理各種編輯任務。
相比 Gemini、GPT4o 等商業模型,我們更加開源,成本更低,速度更快(處理一幅圖像大約需要 9 秒),性能強大。使用ComfyUI-nunchaku,僅需 4 GB VRAM GPU 就足以嘗試我們的模型!
泛化能力
與商業模型的比較
與 Gemini、GPT-4O 等商業模型相比,我們的方法在人物 ID 保存和指令跟隨方面與這些商業模型相當甚至更勝一籌。我們比它們更加開源,成本更低,速度更快(處理一張圖片大約需要 9 秒),性能強大。
與最先進的方法的比較
相關鏈接
- 論文:https://arxiv.org/abs/2504.20690
- 項目:https://github.com/River-Zhang/ICEdit
- 模型:https://huggingface.co/RiverZ/normal-lora/tree/main
- 試用:https://huggingface.co/spaces/RiverZ/ICEdit
論文介紹
基于指令的圖像編輯能夠通過自然語言提示實現穩健的圖像修改,但當前方法面臨著精度與效率之間的權衡。微調方法需要大量的計算資源和龐大的數據集,而無需訓練的技術則難以滿足指令理解和編輯質量。作者利用大規模擴散變換器 (DiT) 增強的生成能力和原生的語境感知能力來解決這一難題。解決方案引入了三項貢獻:
- 一個語境編輯框架,利用語境提示實現零樣本指令合規性,避免結構性變化;
- 一種 LoRA-MoE 混合調優策略,通過高效的自適應和動態專家路由增強靈活性,無需大量的再訓練;
- 一種早期濾波器推理時間縮放方法,使用視覺語言模型 (VLM) 來盡早選擇更優的初始噪聲,從而提高編輯質量。
大量的評估證明了方法的優越性:它的性能優于最先進的方法,而與基線相比,只需要 0.1% 的訓練數據和 1% 的可訓練參數。這項工作建立了一種新的范例,可以實現高精度且高效的指令引導編輯。
方法概述
我們基于 DiT(例如 FLUX)實現了無需訓練的上下文編輯范式,其中模型通過處理源圖像(左圖)旁邊的“上下文提示”來生成編輯輸出(雙聯畫的右圖)。雖然仍然存在持續的故障案例,但已取得的優勢建立了一個穩健的基準,有助于高效地進行微調以提高精度。我們在 DiT 框架內實現了參數高效的 LoRA 適配器,并采用混合專家 (MoE) 路由,可在編輯過程中動態激活特定任務的專家。該適配器基于極少的公開數據(50K)進行訓練,無需修改架構或進行大規模再訓練,即可提高各種場景下的編輯成功率。我們還設計了一種推理時間擴展策略來提升編輯質量。更多詳情,請參閱論文。
實驗結果
結論
論文提出了一種基于 DiT 的新穎指令編輯方法 In-Context Edit,該方法能夠以最少的微調數據提供最佳性能,從而實現效率和精度之間的完美平衡。首先探索了生成式 DiT 在無需訓練的環境下的內在編輯潛力,然后提出了一種混合 LoRA-MoE 微調策略來提升穩定性和質量。此外還引入了一種推理時間擴展方法,使用 VLM 從多個種子中選擇最優的早期輸出,從而增強了編輯效果。大量的實驗證實了提出方法的有效性,并展示了卓越的結果。