修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知
文章鏈接:https://arxiv.org/pdf/2505.20275
Git鏈接:https://github.com/PKU-YuanGroup/ImgEdit
亮點直擊
- 穩健的流程。引入了一個高質量的數據生成流程,確保數據集具有多樣性、代表性,并具備足夠的質量以支持圖像編輯模型的開發。
- 新數據集。構建了ImgEdit,一個大規模、高質量的數據集,包含110 萬單輪樣本(涵蓋10 種代表性編輯任務)和11 萬多輪樣本(包含3 種新穎的交互類型)。
- 可靠的基準。發布了ImgEdit-Bench,該基準在三個關鍵維度(基礎測試集、挑戰性測試集和多輪測試集)上評估模型性能。
- 先進模型。在ImgEdit上訓練了ImgEdit-E1,其在多項任務上超越現有開源模型。還發布了ImgEdit-Judge,這是一個與人類偏好對齊的評估模型。
總結速覽
解決的問題
- 開源圖像編輯模型性能落后于閉源模型:主要原因是缺乏高質量的開源編輯數據集和有效的評估基準。
- 現有數據集質量不足:圖像分辨率低、編輯提示簡單、編輯區域小、編輯不準確、概念不平衡、過濾不精確。
- 復雜編輯任務支持不足:缺乏身份一致性保持、多對象同時操作、多輪交互編輯等任務。
- 評估基準不完善:現有評估框架缺乏多樣性,未分層任務難度,過度關注編輯類別數量,忽視評估維度和測量準確性。
提出的方案
- ImgEdit 數據集:
- 包含120 萬高質量編輯樣本(110 萬單輪 + 11 萬多輪)。
- 涵蓋10 種編輯操作,包括對象提取、多對象混合編輯等。
- 多輪樣本支持內容理解、內容記憶、版本回溯。
- 自動化數據構建流程:
- 多階段篩選(美學評分、分辨率、可編輯區域)。
- 結合開放詞匯檢測器 和 視覺分割模型 生成對象級標注。
- 使用GPT-4o 生成多樣化單輪/多輪編輯提示。
- 采用任務特定工作流(如 SOTA 生成模型)創建編輯對。
- 通過GPT-4o 進行編輯對質量評估。
- ImgEdit-E1 模型:基于視覺語言模型(VLM)的編輯模型,支持參考圖像和編輯提示處理。
- ImgEdit-Bench 基準:
- 基礎測試集:評估指令遵循、編輯質量、細節保留。
- 理解-定位-編輯(UGE)測試集:測試空間推理、多對象目標等復雜任務。
- 多輪編輯測試集:評估內容理解、記憶和回溯能力。
- 引入ImgEdit-Judge 評估模型,與人類偏好對齊。
應用的技術
- 數據生成:
- GPT-4o(生成多樣化編輯提示)。
- 開放詞匯檢測器(對象定位)。
- 視覺分割模型(精細化區域標注)。
- SOTA 生成模型(如 Stable Diffusion、DALL·E 等)創建編輯圖像。
- 模型訓練:
- 視覺語言模型(VLM) 架構,用于處理參考圖像和編輯指令。 - 評估方法:
- 自動化評估(ImgEdit-Judge):模擬人類偏好。
- 多維度測試集(基礎、UGE、多輪)。
達到的效果
- 數據集質量提升:
- 在任務新穎性和數據質量上超越現有數據集(如 MagicBrush、SEED-Data-Edit)。
- 模型性能提升:
- ImgEdit-E1 在多項任務上優于現有開源模型,縮小與閉源模型的差距。
- 評估更全面:
- ImgEdit-Bench 提供分層難度評估,覆蓋基礎、復雜單輪、多輪編輯任務。
- 通過ImgEdit-Judge 實現高效、可靠的大規模評估。
ImgEdit: 高質量數據集
ImgEdit 提供高保真度的編輯對,包含精確、全面的指令,并涵蓋更廣泛的實用和挑戰性編輯類型。先概述單輪和多輪編輯類型,接著詳述數據流程。再介紹 ImgEdit-E1,一個基于 ImgEdit 訓練的前沿編輯模型。最后展示數據集統計信息。
編輯類型定義
本文定義兩類編輯任務:單輪和多輪。單輪任務側重于覆蓋全面且實用的任務,而多輪任務則整合連續編輯場景中的指令和圖像交互。
單輪編輯
基于實際編輯需求,將單輪任務分為四類(如下圖1所示):
- 局部編輯:包括添加、移除、替換、修改、動作變化和對象提取操作。顏色、材質或外觀的變化歸類為修改。由于人物動作編輯是常見用例,特別支持針對人物的動作變化。此外,引入新穎的對象提取任務(如“將貓提取到白色背景”),可在干凈背景上分離指定主體,同時保持身份一致性。該能力目前僅 GPT-4o-image 支持。
- 全局編輯:包括背景替換和風格/色調遷移。
- 視覺編輯:基于參考圖像編輯(如“給貓添加圍巾”),確保對象一致性。與 AnyEdit 不同,省略了分割、草圖或布局引導的變體,因實際應用中此類視覺提示較少。
- 混合編輯:單條指令中對多個對象應用兩種局部操作(如“添加圍巾并將貓毛色改為白色”)。
多輪編輯
基于現有多輪理解基準和實際需求,定義多輪編輯的三大挑戰(如下圖1所示):
- 內容記憶:對話早期引入的全局約束(如“所有生成需帶木質紋理”)需在后續輪次中保持。
- 內容理解:解析依賴代詞或省略主語的指令(如“將左側衣柜里的衣物改為黑色”隱含指代首輪添加的衣物)。
- 版本回溯:基于早期版本編輯(如“撤銷上一步更改”)。這三類挑戰覆蓋了多輪交互編輯的主要難點。
自動化數據流程
數據準備
采用 LAION-Aesthetics 作為主數據集,因其場景多樣性、高分辨率和更廣的對象覆蓋。篩選條件:短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o生成簡潔描述并提取可編輯對象及背景名詞。
對象定位與分割
- 通過開放詞匯檢測器定位候選實體,生成邊界框。
- 利用SAM2將邊界框細化為分割掩碼。
- 計算裁剪對象的CLIPScore和面積占比,剔除低相似度或過小區域,確保目標準確且視覺顯著。
- 背景替換任務要求編輯區域占比>40%。
- 動作變化編輯:額外從Open-Sora Plan收集16萬對人物視頻幀,由 GPT-4o 標注動作,構成動作變化子集。
數據準備
采用LAION-Aesthetics作為核心數據集。該數據集在場景多樣性、分辨率以及物體類別的全面性上表現更優。僅保留短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o重新生成簡潔的文本描述,并提取可編輯對象及背景名詞。每個候選實體通過開放詞匯檢測器進行定位,生成的邊界框再由SAM2優化為分割掩碼。由此,每個對象和背景區域均獲得邊界框與掩碼。
由于檢測與分割并非完美,通過掩碼裁剪每個對象,并計算:
- 裁剪區域與對象名稱的CLIPScore相似度
- 區域面積占比
對相似度低或面積可忽略的區域進行剔除,確保剩余目標識別準確且視覺顯著性滿足后續編輯需求。具體而言,在背景替換任務中,要求編輯區域需占圖像總面積40%以上。
針對動態變化編輯任務,額外從內部視頻庫Open-Sora Plan收集了16萬張以人物為主的圖像對。通過時間子采樣幀并利用GPT-4o標注動作信息,最終構成動態變化編輯子集。
指令生成模塊
通過原始圖像描述、編輯類型、邊界框和目標物體作為條件輸入生成指令。由于目標物體的精確定位對編輯至關重要,系統要求語言模型在編輯指令中嵌入物體位置和近似尺寸(以邊界框為參考)。低性能LLMs易引入知識偏差導致低質量指令,因此采用尖端大語言模型(如GPT-4o),該模型不僅能理解多樣化指令格式、生成概念豐富的編輯指令,還能高保真編碼空間信息。多輪指令生成時,提供少量上下文示例讓模型單次生成完整對話,再拆分為獨立輪次,每輪對話限制2-3回合,包含添加、刪除、替換、修改四類基礎操作。
修復工作流
選用FLUX和SDXL作為基礎生成模型,結合IP-Adapters、ControlNet等插件實現精準可控編輯。針對不同編輯場景構建定制化數據生產管線,例如:在視覺編輯任務中利用FLUX架構的上下文保持能力,通過FLUX-Redux控制語義一致性。生成圖像在審美質量和編輯保真度上均超越現有數據集。
后處理流程
在基于物體面積、CLIP分數和美學分數的粗過濾基礎上,使用GPT-4o進行精細過濾:為每個編輯對按編輯類型特定的評分標準分配質量分數,并提供詳細評分依據供用戶篩選。
ImgEdit-E1評估模型
為評估所收集數據的質量,在ImgEdit數據集上訓練了ImgEdit-E1模型。如下圖2所示,該模型整合了視覺語言模型(VLM)、視覺編碼器以及Diffusion-in-Transformer(DiT)主干網絡。編輯指令與原始圖像共同輸入VLM處理,同時圖像經由視覺編碼器并行處理。VLM的隱藏狀態與視覺編碼器的圖像特征分別通過多層感知機(MLP)映射后拼接,構成DiT的文本分支輸入。訓練采用兩階段策略:先優化MLP參數,隨后對FLUX模塊與MLP進行聯合微調。
數據集統計
包含120萬高質量圖像編輯對(含11萬組多輪樣本),覆蓋13類編輯任務。相比現有數據集,具有更豐富語義、更詳細指令、更高分辨率(平均短邊1280像素)和更優編輯精度。其8.7k獨特詞匯量的指令多樣性,以及經GPT-4o評估的最高編輯準確率(抽樣1000例驗證)尤為突出。像素級差異分析顯示,局部編輯區域修改幅度顯著大于其他數據集,且經專業檢測器驗證更難定位編輯痕跡,證實其圖像質量優勢。其物體提取和視覺編輯子集首次實現了高度主體一致性的編輯任務。完整統計數據見下圖3與表1。
ImgEdit-Bench:綜合性圖像編輯基準測試?
ImgEdit-Bench為單輪和多輪圖像編輯任務提供系統性評估框架。先闡述基準數據集的構建原則,接著定義量化評估指標,再提出專用于圖像編輯任務評估的模型ImgEdit-Judge。
基準數據集構建?
模型能力劃分為?基礎編輯能力?與?復雜場景性能?兩類:
基礎編輯測試集
我評估模型完成常規任務的能力,涵蓋添加、刪除、修改、替換、風格遷移、背景替換、動態調整、混合編輯、摳圖處理9大類任務。所有測試圖像均從互聯網人工收集。為確保語義多樣性,從六大超類別(人物、交通工具、自然、動物、建筑、生活必需品)中每類選取十個代表性概念。
- 添加任務:為每張背景簡潔的圖片搭配五個不同概念的指令。
- 移除/修改/替換/摳圖/混合編輯任務:選擇主體突出且物體稀疏的照片。
- 風格遷移:測試主流藝術風格。
- 背景替換:選用適合場景置換的圖像。
- 動態變化:基于以人物為主的圖像進行評估。
所有指令均由GPT-4o初步生成,并經過人工篩選。最終基準測試集包含734個測試用例,指令長度從簡略到詳盡不等。
理解-定位-編輯(UGE)測試套件?:人工精選47張互聯網復雜場景圖像,涵蓋目標局部遮擋、同類多實例、偽裝/低顯著性物體、罕見編輯對象四大挑戰。每圖設計需綜合空間推理、多目標協同操作、復合細粒度編輯或大規模修改的指令,提升單條指令的理解-定位-執行難度。
多輪交互測試套件?:從?內容記憶?、?上下文理解?、?版本回溯?三維度評估真實交互場景。每任務選取10張圖像人工設計3輪對話流程,形成結構化測試序列。
評估指標?
從?指令遵循度?、?編輯質量?、?細節保留度?三個維度量化模型性能:
指令遵循度?:衡量對指令語義理解和概念對齊能力,作為基礎得分限制其他兩項上限(編輯質量與細節保留得分不得超過該值); 編輯質量?:量化目標區域操作精度; 細節保留度?:評估非編輯區域保真程度。 評分采用GPT-4o按1-5分制執行,每類任務配備詳細評分細則。多輪場景中由人工評估員基于標準化指南對模型輸出進行?二元判斷?。
真實性量化指標?:引入?偽造分數?評估生成圖像偽影可檢測性,采用最新開源取證檢測器FakeShield定位編輯痕跡。通過計算多類編輯數據集的召回率(以偽造為正類),橫向對比結果驗證生成圖像的視覺真實性與編輯質量。
ImgEdit-Judge評估模型?
鑒于視覺語言模型(VLM)評分相較于傳統相似性指標更具合理性,且當前缺乏開源的圖像編輯專用評估器,我們構建了包含20萬條后處理評分記錄的?任務平衡與評分平衡語料庫?,用于微調Qwen2.5-VL-7B模型。通過人工研究驗證,每張圖像由人工標注員、Qwen2.5-VL-7B、ImgEdit-Judge與GPT-4o-mini并行評分,并選取60張圖像進行深度分析。當模型評分與人工評分差異不超過1分時視為有效判定。如下圖4所示,ImgEdit-Judge與人工評判一致性接近70%,顯著優于GPT-4o-mini和原生Qwen2.5-VL模型。
實驗分析?
本節系統評估現有編輯模型與ImgEdit-E1性能:先闡述實驗配置,再呈現結果定量與定性分析,最后展開深度討論。
實驗設置?
單輪測試環境?:
閉源模型?:GPT-4o-Image(Gemini-2.0-Flash未開放API) 開源模型?:Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1 架構對比?:除ImgEdit-E1與Step1X-Edit采用VLM文本編碼器+DiT主干網絡外,其余模型均基于UNet架構與預訓練文本編碼器。AnySD額外集成任務感知MoE模塊。
參數配置?:輸入分辨率:UltraEdit/AnySD輸出512×512像素,其余模型輸出1024×1024像素 重復實驗:每個模型執行3次獨立實驗,報告平均得分 多輪測試?:僅支持GPT-4o-Image與Gemini-2.0-Flash兩模型
實驗結果?
定量評估首先對不同方法進行了全面的定性評估(結果如下圖5所示)。開源模型與閉源模型之間存在顯著性能差距:GPT-4o-image在所有維度上均優于開源模型,僅在部分高難度任務中稍顯不足。該模型同時獲得最高的UGE綜合評分,展現出更強的理解能力、定位能力和編輯能力。
在開源模型中,ImgEdit-E1與Step1X-Edit表現最佳,在部分任務上接近閉源模型水平。其中:
- ImgEdit-E1全任務表現均衡,因其采用高質量訓練數據,在物體提取和混合編輯任務中顯著領先其他開源模型
- Step1X-Edit綜合性能與ImgEdit-E1相當,但在背景替換、屬性修改等高難度任務中表現欠佳
- AnySD各項任務表現中庸,可能因其數據集覆蓋編輯任務廣泛但數據質量不足
- UltraEdit因訓練集未包含移除任務,在該任務中表現極差
- MagicBrush和InstructPix2Pix因訓練數據質量與模型結構過于簡單,存在圖像畸變、指令跟隨失敗等問題
值得注意的是,所有模型的編輯輸出均獲得極高的"虛假評分",表明現有檢測模型仍能輕易識別合成內容。
在多輪編輯任務中,僅GPT-4o-Image與Gemini-2.0-flash展現兩輪內的版本回溯能力。現有模型普遍存在內容記憶與理解缺陷,時而出現指代誤解或前提丟失的情況,總體上對多輪編輯的支持仍不充分。
定性評估?
選取了多種任務的代表性案例進行定性分析,如下圖6所示。在改變自行車顏色同時保留積雪的任務中,僅有ImgEdit-E1和GPT-4o-Image成功達成。涉及物體移除的任務中,AnySD和Step1X-Edit生成結果模糊,Gemini錯誤地將路燈一并移除,其他模型則未能遵循指令。相比之下,ImgEdit-E1和GPT-4o-Image完美完成了任務。在背景修改任務中,ImgEdit-E1和Step1X-Edit在所有開源模型中與提示要求契合度最高。對于物體替換任務,閉源模型的處理結果明顯更自然,而多數開源模型未能完成編輯。在色彩修改任務中,只有ImgEdit-E1和閉源模型在保留復雜細節的同時精準遵循了指令。此外,僅GPT-4o-Image和ImgEdit-E1成功完成了物體提取任務。
討論?
根據基準測試結果,確定了影響編輯模型性能的三大關鍵因素:指令理解、區域定位和編輯執行。
指令理解能力
指模型解析編輯指令的能力,主要由文本編碼器決定,并顯著影響編輯效果。傳統模型使用T5或CLIP等編碼器,雖能處理簡單任務(如風格遷移),但在復雜的區域特定任務上表現欠佳。我們的評估顯示,ImgEdit-E1和Step1X-Edit大幅優于其他開源模型,印證了更強文本編碼器和更豐富文本特征的重要性。
區域定位能力
指準確識別并定位待編輯區域的能力,既依賴指令理解,也取決于視覺感知水平。在需要精確定位的任務(如屬性修改和物體提取)中,ImgEdit-E1的表現遠超現有開源編輯模型,凸顯了提示信息中空間定位的關鍵作用。
編輯執行能力
指泛化各類編輯操作的能力,主要取決于訓練數據的質量、規模和多樣性。由于物體提取任務缺乏高質量數據,包括GPT-4o在內的其他模型在此類任務中表現不佳,這再次證明構建全面、高質量編輯數據集的必要性。
結論?
ImgEdit框架
推動了圖像編輯領域的發展:它克服了現有數據集的質量缺陷,引入了實用的編輯任務分類體系,并為未來數據集構建提供了穩健的流程。ImgEdit-E1的優異表現驗證了該框架的可靠性。此外,ImgEdit-Bench從創新維度評估模型性能,為圖像編輯模型的數據篩選和架構設計提供了重要洞見。通過提供高質量數據集、高效編輯方法和全面評估基準,本文的工作有助于縮小開源方案與頂尖閉源模型之間的差距,并將推動整個圖像編輯領域的進步。
本文轉自AI生成未來 ,作者:AI生成未來
