200M參數吊打商業巨頭！浙大-哈佛開源ICEdit，用1%資源實現圖像編輯自由！一句指令生成海報級修圖方案

作者：AIGC Studio 2025-05-13 09:12:18

人工智能新聞

論文提出了一種基于 DiT 的新穎指令編輯方法 In-Context Edit，該方法能夠以最少的微調數據提供最佳性能，從而實現效率和精度之間的完美平衡。

浙江大學聯合哈佛大學提出一種高效的基于指令的圖像編輯框架ICEdit，與以往的方法相比，ICEdit僅需1%的可訓練參數（200M）和0.1% 的訓練數據（50k），就展現出強大的泛化能力，能夠處理各種編輯任務。

相比 Gemini、GPT4o 等商業模型，我們更加開源，成本更低，速度更快（處理一幅圖像大約需要 9 秒），性能強大。使用ComfyUI-nunchaku，僅需 4 GB VRAM GPU 就足以嘗試我們的模型！

泛化能力

與商業模型的比較

與 Gemini、GPT-4O 等商業模型相比，我們的方法在人物 ID 保存和指令跟隨方面與這些商業模型相當甚至更勝一籌。我們比它們更加開源，成本更低，速度更快（處理一張圖片大約需要 9 秒），性能強大。

與最先進的方法的比較

論文介紹

基于指令的圖像編輯能夠通過自然語言提示實現穩健的圖像修改，但當前方法面臨著精度與效率之間的權衡。微調方法需要大量的計算資源和龐大的數據集，而無需訓練的技術則難以滿足指令理解和編輯質量。作者利用大規模擴散變換器 (DiT) 增強的生成能力和原生的語境感知能力來解決這一難題。解決方案引入了三項貢獻：

一個語境編輯框架，利用語境提示實現零樣本指令合規性，避免結構性變化；
一種 LoRA-MoE 混合調優策略，通過高效的自適應和動態專家路由增強靈活性，無需大量的再訓練；
一種早期濾波器推理時間縮放方法，使用視覺語言模型 (VLM) 來盡早選擇更優的初始噪聲，從而提高編輯質量。

大量的評估證明了方法的優越性：它的性能優于最先進的方法，而與基線相比，只需要 0.1% 的訓練數據和 1% 的可訓練參數。這項工作建立了一種新的范例，可以實現高精度且高效的指令引導編輯。

方法概述

我們基于 DiT（例如 FLUX）實現了無需訓練的上下文編輯范式，其中模型通過處理源圖像（左圖）旁邊的“上下文提示”來生成編輯輸出（雙聯畫的右圖）。雖然仍然存在持續的故障案例，但已取得的優勢建立了一個穩健的基準，有助于高效地進行微調以提高精度。我們在 DiT 框架內實現了參數高效的 LoRA 適配器，并采用混合專家 (MoE) 路由，可在編輯過程中動態激活特定任務的專家。該適配器基于極少的公開數據（50K）進行訓練，無需修改架構或進行大規模再訓練，即可提高各種場景下的編輯成功率。我們還設計了一種推理時間擴展策略來提升編輯質量。更多詳情，請參閱論文。

實驗結果

結論

論文提出了一種基于 DiT 的新穎指令編輯方法 In-Context Edit，該方法能夠以最少的微調數據提供最佳性能，從而實現效率和精度之間的完美平衡。首先探索了生成式 DiT 在無需訓練的環境下的內在編輯潛力，然后提出了一種混合 LoRA-MoE 微調策略來提升穩定性和質量。此外還引入了一種推理時間擴展方法，使用 VLM 從多個種子中選擇最優的早期輸出，從而增強了編輯效果。大量的實驗證實了提出方法的有效性，并展示了卓越的結果。

責任編輯：張燕妮來源： AIGC Studio

生成 AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看