在線教程丨9 秒處理一張圖!In-Context Edit 高效圖像編輯框架上線 原創
現有的圖像編輯方法主要面臨精度與效率之間難以平衡的問題。微調方法需要大量的計算資源和優質數據集,而無需訓練的技術則難以滿足指令理解和編輯質量。對此,浙江大學和哈佛大學的研究團隊推出了 In-Context Edit(ICEdit),一款基于指令的圖像編輯框架,僅需極少的文本指令即可實現精準的圖像修改,為圖像處理和內容創作提供了更多可能性。
In-Context Edit 通過以下 3 個關鍵貢獻解決了現有技術的局限性,即語境編輯框架、 LoRA-MoE 混合調優策略以及早期濾波器推理時間縮放方法。與以往方法相比,其僅使用 1% 的可訓練參數(200M)和 0.1% 的訓練數據(50k),卻展現出更出色的泛化能力,能夠勝任多樣化的圖像編輯任務。同時,與 Gemini 、 GPT-4o 相比,這款開源神器不僅成本更低、速度更快(處理一張圖像大約只需 9 秒),同時性能也非常強大。
目前,「In-Context Edit:指令驅動圖像生成與編輯」已上線至 HyperAI 超神經官網的「教程」板塊,點擊下方鏈接即可體驗一鍵部署教程 ??
教程鏈接:https://go.hyper.ai/SHowG
Demo 運行
-
進入 hyper.ai 首頁后,選擇「教程」頁面,并選擇「In-Context Edit:指令驅動圖像生成與編輯」,點擊「在線運行此教程」。
-
頁面跳轉后,點擊右上角「克隆」,將該教程克隆至自己的容器中。
-
選擇「NVIDIA GeForce RTX 4090」以及「PyTorch」鏡像,OpenBayes 平臺提供了 4 種計費方式,大家可以按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續執行」。新用戶使用下方邀請鏈接注冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
HyperAI 超神經專屬邀請鏈接(直接復制到瀏覽器打開):
https://openbayes.com/console/signup?r=Ada0322_NR0n
- 等待分配資源,首次克隆需等待 2 分鐘左右的時間。當狀態變為「運行中」后,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。由于模型較大,需等待約 3 分鐘顯示 WebUI 界面,否則將顯示「Bad Gateway」。請注意,用戶需在實名認證后才能使用 API 地址訪問功能。
效果展示
在「Upload image for editing」中上傳圖片,然后在文本框中輸入提示詞,最后點擊「Run」生成。
參數調整簡介:
-
Guidance Scale: 用于控制 生成模型 中條件輸入(如文本或圖像)對生成結果的影響程度。較高的指導值會讓生成結果更加貼近輸入條件,而較低的值會保留更多隨機性。
-
Number of inference steps: 表示模型的迭代次數或推理過程中的步數,代表模型用于生成結果的優化步數。更高的步數通常會生成更精細的結果,但可能增加計算時間。
*Seed: 隨機數種子,用于控制生成過程中的隨機性。相同的 Seed 值可以生成相同的結果(前提是其他參數相同),這在結果復現中非常重要。
筆者上傳了一張人像圖片,提示詞為:Make her hair dark green and her clothes checked. 效果如下圖所示~
