修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知

zhangyannni

發布于 2025-5-29 10:22

瀏覽

0收藏

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

文章鏈接：https://arxiv.org/pdf/2505.20275
Git鏈接：https://github.com/PKU-YuanGroup/ImgEdit

亮點直擊

穩健的流程。引入了一個高質量的數據生成流程，確保數據集具有多樣性、代表性，并具備足夠的質量以支持圖像編輯模型的開發。
新數據集。構建了ImgEdit，一個大規模、高質量的數據集，包含110 萬單輪樣本（涵蓋10 種代表性編輯任務）和11 萬多輪樣本（包含3 種新穎的交互類型）。
可靠的基準。發布了ImgEdit-Bench，該基準在三個關鍵維度（基礎測試集、挑戰性測試集和多輪測試集）上評估模型性能。
先進模型。在ImgEdit上訓練了ImgEdit-E1，其在多項任務上超越現有開源模型。還發布了ImgEdit-Judge，這是一個與人類偏好對齊的評估模型。

總結速覽

解決的問題

開源圖像編輯模型性能落后于閉源模型：主要原因是缺乏高質量的開源編輯數據集和有效的評估基準。
現有數據集質量不足：圖像分辨率低、編輯提示簡單、編輯區域小、編輯不準確、概念不平衡、過濾不精確。
復雜編輯任務支持不足：缺乏身份一致性保持、多對象同時操作、多輪交互編輯等任務。
評估基準不完善：現有評估框架缺乏多樣性，未分層任務難度，過度關注編輯類別數量，忽視評估維度和測量準確性。

提出的方案

ImgEdit 數據集：

包含120 萬高質量編輯樣本（110 萬單輪 + 11 萬多輪）。
涵蓋10 種編輯操作，包括對象提取、多對象混合編輯等。
多輪樣本支持內容理解、內容記憶、版本回溯。

自動化數據構建流程：

多階段篩選（美學評分、分辨率、可編輯區域）。
結合開放詞匯檢測器 和 視覺分割模型 生成對象級標注。
使用GPT-4o 生成多樣化單輪/多輪編輯提示。
采用任務特定工作流（如 SOTA 生成模型）創建編輯對。
通過GPT-4o 進行編輯對質量評估。

ImgEdit-E1 模型：基于視覺語言模型（VLM）的編輯模型，支持參考圖像和編輯提示處理。
ImgEdit-Bench 基準：

基礎測試集：評估指令遵循、編輯質量、細節保留。
理解-定位-編輯（UGE）測試集：測試空間推理、多對象目標等復雜任務。
多輪編輯測試集：評估內容理解、記憶和回溯能力。
引入ImgEdit-Judge 評估模型，與人類偏好對齊。

應用的技術

數據生成：

GPT-4o（生成多樣化編輯提示）。
開放詞匯檢測器（對象定位）。
視覺分割模型（精細化區域標注）。
SOTA 生成模型（如 Stable Diffusion、DALL·E 等）創建編輯圖像。

模型訓練：
視覺語言模型（VLM） 架構，用于處理參考圖像和編輯指令。 - 評估方法：
自動化評估（ImgEdit-Judge）：模擬人類偏好。
多維度測試集（基礎、UGE、多輪）。

達到的效果

數據集質量提升：

在任務新穎性和數據質量上超越現有數據集（如 MagicBrush、SEED-Data-Edit）。

模型性能提升：
ImgEdit-E1 在多項任務上優于現有開源模型，縮小與閉源模型的差距。
評估更全面：
ImgEdit-Bench 提供分層難度評估，覆蓋基礎、復雜單輪、多輪編輯任務。
通過ImgEdit-Judge 實現高效、可靠的大規模評估。

ImgEdit: 高質量數據集

ImgEdit 提供高保真度的編輯對，包含精確、全面的指令，并涵蓋更廣泛的實用和挑戰性編輯類型。先概述單輪和多輪編輯類型，接著詳述數據流程。再介紹 ImgEdit-E1，一個基于 ImgEdit 訓練的前沿編輯模型。最后展示數據集統計信息。

編輯類型定義

本文定義兩類編輯任務：單輪和多輪。單輪任務側重于覆蓋全面且實用的任務，而多輪任務則整合連續編輯場景中的指令和圖像交互。

單輪編輯

基于實際編輯需求，將單輪任務分為四類（如下圖1所示）：

局部編輯：包括添加、移除、替換、修改、動作變化和對象提取操作。顏色、材質或外觀的變化歸類為修改。由于人物動作編輯是常見用例，特別支持針對人物的動作變化。此外，引入新穎的對象提取任務（如“將貓提取到白色背景”），可在干凈背景上分離指定主體，同時保持身份一致性。該能力目前僅 GPT-4o-image 支持。
全局編輯：包括背景替換和風格/色調遷移。
視覺編輯：基于參考圖像編輯（如“給貓添加圍巾”），確保對象一致性。與 AnyEdit 不同，省略了分割、草圖或布局引導的變體，因實際應用中此類視覺提示較少。
混合編輯：單條指令中對多個對象應用兩種局部操作（如“添加圍巾并將貓毛色改為白色”）。

多輪編輯

基于現有多輪理解基準和實際需求，定義多輪編輯的三大挑戰（如下圖1所示）：

內容記憶：對話早期引入的全局約束（如“所有生成需帶木質紋理”）需在后續輪次中保持。
內容理解：解析依賴代詞或省略主語的指令（如“將左側衣柜里的衣物改為黑色”隱含指代首輪添加的衣物）。
版本回溯：基于早期版本編輯（如“撤銷上一步更改”）。這三類挑戰覆蓋了多輪交互編輯的主要難點。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

自動化數據流程

數據準備

采用 LAION-Aesthetics 作為主數據集，因其場景多樣性、高分辨率和更廣的對象覆蓋。篩選條件：短邊≥1280像素且美學評分>4.75，得到60萬張圖像子集。使用GPT-4o生成簡潔描述并提取可編輯對象及背景名詞。

對象定位與分割

通過開放詞匯檢測器定位候選實體，生成邊界框。
利用SAM2將邊界框細化為分割掩碼。
計算裁剪對象的CLIPScore和面積占比，剔除低相似度或過小區域，確保目標準確且視覺顯著。

背景替換任務要求編輯區域占比>40%。
動作變化編輯：額外從Open-Sora Plan收集16萬對人物視頻幀，由 GPT-4o 標注動作，構成動作變化子集。

數據準備

采用LAION-Aesthetics作為核心數據集。該數據集在場景多樣性、分辨率以及物體類別的全面性上表現更優。僅保留短邊≥1280像素且美學評分>4.75，得到60萬張圖像子集。使用GPT-4o重新生成簡潔的文本描述，并提取可編輯對象及背景名詞。每個候選實體通過開放詞匯檢測器進行定位，生成的邊界框再由SAM2優化為分割掩碼。由此，每個對象和背景區域均獲得邊界框與掩碼。

由于檢測與分割并非完美，通過掩碼裁剪每個對象，并計算：

裁剪區域與對象名稱的CLIPScore相似度
區域面積占比

對相似度低或面積可忽略的區域進行剔除，確保剩余目標識別準確且視覺顯著性滿足后續編輯需求。具體而言，在背景替換任務中，要求編輯區域需占圖像總面積40%以上。

針對動態變化編輯任務，額外從內部視頻庫Open-Sora Plan收集了16萬張以人物為主的圖像對。通過時間子采樣幀并利用GPT-4o標注動作信息，最終構成動態變化編輯子集。

指令生成模塊

通過原始圖像描述、編輯類型、邊界框和目標物體作為條件輸入生成指令。由于目標物體的精確定位對編輯至關重要，系統要求語言模型在編輯指令中嵌入物體位置和近似尺寸（以邊界框為參考）。低性能LLMs易引入知識偏差導致低質量指令，因此采用尖端大語言模型（如GPT-4o），該模型不僅能理解多樣化指令格式、生成概念豐富的編輯指令，還能高保真編碼空間信息。多輪指令生成時，提供少量上下文示例讓模型單次生成完整對話，再拆分為獨立輪次，每輪對話限制2-3回合，包含添加、刪除、替換、修改四類基礎操作。

修復工作流

選用FLUX和SDXL作為基礎生成模型，結合IP-Adapters、ControlNet等插件實現精準可控編輯。針對不同編輯場景構建定制化數據生產管線，例如：在視覺編輯任務中利用FLUX架構的上下文保持能力，通過FLUX-Redux控制語義一致性。生成圖像在審美質量和編輯保真度上均超越現有數據集。

后處理流程

在基于物體面積、CLIP分數和美學分數的粗過濾基礎上，使用GPT-4o進行精細過濾：為每個編輯對按編輯類型特定的評分標準分配質量分數，并提供詳細評分依據供用戶篩選。

ImgEdit-E1評估模型

為評估所收集數據的質量，在ImgEdit數據集上訓練了ImgEdit-E1模型。如下圖2所示，該模型整合了視覺語言模型(VLM)、視覺編碼器以及Diffusion-in-Transformer(DiT)主干網絡。編輯指令與原始圖像共同輸入VLM處理，同時圖像經由視覺編碼器并行處理。VLM的隱藏狀態與視覺編碼器的圖像特征分別通過多層感知機(MLP)映射后拼接，構成DiT的文本分支輸入。訓練采用兩階段策略：先優化MLP參數，隨后對FLUX模塊與MLP進行聯合微調。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

數據集統計

包含120萬高質量圖像編輯對（含11萬組多輪樣本），覆蓋13類編輯任務。相比現有數據集，具有更豐富語義、更詳細指令、更高分辨率（平均短邊1280像素）和更優編輯精度。其8.7k獨特詞匯量的指令多樣性，以及經GPT-4o評估的最高編輯準確率（抽樣1000例驗證）尤為突出。像素級差異分析顯示，局部編輯區域修改幅度顯著大于其他數據集，且經專業檢測器驗證更難定位編輯痕跡，證實其圖像質量優勢。其物體提取和視覺編輯子集首次實現了高度主體一致性的編輯任務。完整統計數據見下圖3與表1。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

ImgEdit-Bench：綜合性圖像編輯基準測試?

ImgEdit-Bench為單輪和多輪圖像編輯任務提供系統性評估框架。先闡述基準數據集的構建原則，接著定義量化評估指標，再提出專用于圖像編輯任務評估的模型ImgEdit-Judge。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

基準數據集構建?

模型能力劃分為?基礎編輯能力?與?復雜場景性能?兩類：

基礎編輯測試集

我評估模型完成常規任務的能力，涵蓋添加、刪除、修改、替換、風格遷移、背景替換、動態調整、混合編輯、摳圖處理9大類任務。所有測試圖像均從互聯網人工收集。為確保語義多樣性，從六大超類別（人物、交通工具、自然、動物、建筑、生活必需品）中每類選取十個代表性概念。

添加任務：為每張背景簡潔的圖片搭配五個不同概念的指令。
移除/修改/替換/摳圖/混合編輯任務：選擇主體突出且物體稀疏的照片。
風格遷移：測試主流藝術風格。
背景替換：選用適合場景置換的圖像。
動態變化：基于以人物為主的圖像進行評估。

所有指令均由GPT-4o初步生成，并經過人工篩選。最終基準測試集包含734個測試用例，指令長度從簡略到詳盡不等。

理解-定位-編輯(UGE)測試套件?：人工精選47張互聯網復雜場景圖像，涵蓋目標局部遮擋、同類多實例、偽裝/低顯著性物體、罕見編輯對象四大挑戰。每圖設計需綜合空間推理、多目標協同操作、復合細粒度編輯或大規模修改的指令，提升單條指令的理解-定位-執行難度。

多輪交互測試套件?：從?內容記憶?、?上下文理解?、?版本回溯?三維度評估真實交互場景。每任務選取10張圖像人工設計3輪對話流程，形成結構化測試序列。

評估指標?

從?指令遵循度?、?編輯質量?、?細節保留度?三個維度量化模型性能：

指令遵循度?：衡量對指令語義理解和概念對齊能力，作為基礎得分限制其他兩項上限（編輯質量與細節保留得分不得超過該值）； 編輯質量?：量化目標區域操作精度； 細節保留度?：評估非編輯區域保真程度。評分采用GPT-4o按1-5分制執行，每類任務配備詳細評分細則。多輪場景中由人工評估員基于標準化指南對模型輸出進行?二元判斷?。

真實性量化指標?：引入?偽造分數?評估生成圖像偽影可檢測性，采用最新開源取證檢測器FakeShield定位編輯痕跡。通過計算多類編輯數據集的召回率（以偽造為正類），橫向對比結果驗證生成圖像的視覺真實性與編輯質量。

ImgEdit-Judge評估模型?

鑒于視覺語言模型(VLM)評分相較于傳統相似性指標更具合理性，且當前缺乏開源的圖像編輯專用評估器，我們構建了包含20萬條后處理評分記錄的?任務平衡與評分平衡語料庫?，用于微調Qwen2.5-VL-7B模型。通過人工研究驗證，每張圖像由人工標注員、Qwen2.5-VL-7B、ImgEdit-Judge與GPT-4o-mini并行評分，并選取60張圖像進行深度分析。當模型評分與人工評分差異不超過1分時視為有效判定。如下圖4所示，ImgEdit-Judge與人工評判一致性接近70%，顯著優于GPT-4o-mini和原生Qwen2.5-VL模型。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

實驗分析?

本節系統評估現有編輯模型與ImgEdit-E1性能：先闡述實驗配置，再呈現結果定量與定性分析，最后展開深度討論。

實驗設置?

單輪測試環境?：
閉源模型?：GPT-4o-Image（Gemini-2.0-Flash未開放API） 開源模型?：Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1 架構對比?：除ImgEdit-E1與Step1X-Edit采用VLM文本編碼器+DiT主干網絡外，其余模型均基于UNet架構與預訓練文本編碼器。AnySD額外集成任務感知MoE模塊。

參數配置?：輸入分辨率：UltraEdit/AnySD輸出512×512像素，其余模型輸出1024×1024像素重復實驗：每個模型執行3次獨立實驗，報告平均得分多輪測試?：僅支持GPT-4o-Image與Gemini-2.0-Flash兩模型

實驗結果?

定量評估首先對不同方法進行了全面的定性評估（結果如下圖5所示）。開源模型與閉源模型之間存在顯著性能差距：GPT-4o-image在所有維度上均優于開源模型，僅在部分高難度任務中稍顯不足。該模型同時獲得最高的UGE綜合評分，展現出更強的理解能力、定位能力和編輯能力。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

在開源模型中，ImgEdit-E1與Step1X-Edit表現最佳，在部分任務上接近閉源模型水平。其中：

ImgEdit-E1全任務表現均衡，因其采用高質量訓練數據，在物體提取和混合編輯任務中顯著領先其他開源模型
Step1X-Edit綜合性能與ImgEdit-E1相當，但在背景替換、屬性修改等高難度任務中表現欠佳
AnySD各項任務表現中庸，可能因其數據集覆蓋編輯任務廣泛但數據質量不足
UltraEdit因訓練集未包含移除任務，在該任務中表現極差
MagicBrush和InstructPix2Pix因訓練數據質量與模型結構過于簡單，存在圖像畸變、指令跟隨失敗等問題

值得注意的是，所有模型的編輯輸出均獲得極高的"虛假評分"，表明現有檢測模型仍能輕易識別合成內容。

在多輪編輯任務中，僅GPT-4o-Image與Gemini-2.0-flash展現兩輪內的版本回溯能力。現有模型普遍存在內容記憶與理解缺陷，時而出現指代誤解或前提丟失的情況，總體上對多輪編輯的支持仍不充分。

定性評估?

選取了多種任務的代表性案例進行定性分析，如下圖6所示。在改變自行車顏色同時保留積雪的任務中，僅有ImgEdit-E1和GPT-4o-Image成功達成。涉及物體移除的任務中，AnySD和Step1X-Edit生成結果模糊，Gemini錯誤地將路燈一并移除，其他模型則未能遵循指令。相比之下，ImgEdit-E1和GPT-4o-Image完美完成了任務。在背景修改任務中，ImgEdit-E1和Step1X-Edit在所有開源模型中與提示要求契合度最高。對于物體替換任務，閉源模型的處理結果明顯更自然，而多數開源模型未能完成編輯。在色彩修改任務中，只有ImgEdit-E1和閉源模型在保留復雜細節的同時精準遵循了指令。此外，僅GPT-4o-Image和ImgEdit-E1成功完成了物體提取任務。

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知-AI.x社區

討論?

根據基準測試結果，確定了影響編輯模型性能的三大關鍵因素：指令理解、區域定位和編輯執行。

指令理解能力

指模型解析編輯指令的能力，主要由文本編碼器決定，并顯著影響編輯效果。傳統模型使用T5或CLIP等編碼器，雖能處理簡單任務（如風格遷移），但在復雜的區域特定任務上表現欠佳。我們的評估顯示，ImgEdit-E1和Step1X-Edit大幅優于其他開源模型，印證了更強文本編碼器和更豐富文本特征的重要性。

區域定位能力

指準確識別并定位待編輯區域的能力，既依賴指令理解，也取決于視覺感知水平。在需要精確定位的任務（如屬性修改和物體提取）中，ImgEdit-E1的表現遠超現有開源編輯模型，凸顯了提示信息中空間定位的關鍵作用。

編輯執行能力

指泛化各類編輯操作的能力，主要取決于訓練數據的質量、規模和多樣性。由于物體提取任務缺乏高質量數據，包括GPT-4o在內的其他模型在此類任務中表現不佳，這再次證明構建全面、高質量編輯數據集的必要性。

結論?

ImgEdit框架

推動了圖像編輯領域的發展：它克服了現有數據集的質量缺陷，引入了實用的編輯任務分類體系，并為未來數據集構建提供了穩健的流程。ImgEdit-E1的優異表現驗證了該框架的可靠性。此外，ImgEdit-Bench從創新維度評估模型性能，為圖像編輯模型的數據篩選和架構設計提供了重要洞見。通過提供高質量數據集、高效編輯方法和全面評估基準，本文的工作有助于縮小開源方案與頂尖閉源模型之間的差距，并將推動整個圖像編輯領域的進步。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/OWw_xUXhxL7416tzF4c-7A??

標簽

模型

生成

贊

回復

舉報

社區頭條

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

修圖模型照妖鏡上線！ImgEdit-Bench三維「死亡評測」曝光，誰在裸泳一測便知

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

ImgEdit: 高質量數據集

編輯類型定義

自動化數據流程

ImgEdit-E1評估模型

數據集統計

ImgEdit-Bench：綜合性圖像編輯基準測試?

基準數據集構建?

評估指標?

ImgEdit-Judge評估模型?

實驗分析?

實驗設置?

實驗結果?

討論?

結論?

目錄