成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知

發布于 2025-5-29 10:22
瀏覽
0收藏

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

文章鏈接:https://arxiv.org/pdf/2505.20275 
Git鏈接:https://github.com/PKU-YuanGroup/ImgEdit

亮點直擊

  • 穩健的流程。引入了一個高質量的數據生成流程,確保數據集具有多樣性、代表性,并具備足夠的質量以支持圖像編輯模型的開發。
  • 新數據集。構建了ImgEdit,一個大規模、高質量的數據集,包含110 萬單輪樣本(涵蓋10 種代表性編輯任務)和11 萬多輪樣本(包含3 種新穎的交互類型)。
  • 可靠的基準。發布了ImgEdit-Bench,該基準在三個關鍵維度(基礎測試集、挑戰性測試集和多輪測試集)上評估模型性能。
  • 先進模型。在ImgEdit上訓練了ImgEdit-E1,其在多項任務上超越現有開源模型。還發布了ImgEdit-Judge,這是一個與人類偏好對齊的評估模型。

總結速覽

解決的問題

  • 開源圖像編輯模型性能落后于閉源模型:主要原因是缺乏高質量的開源編輯數據集和有效的評估基準。
  • 現有數據集質量不足:圖像分辨率低、編輯提示簡單、編輯區域小、編輯不準確、概念不平衡、過濾不精確。
  • 復雜編輯任務支持不足:缺乏身份一致性保持、多對象同時操作、多輪交互編輯等任務。
  • 評估基準不完善:現有評估框架缺乏多樣性,未分層任務難度,過度關注編輯類別數量,忽視評估維度和測量準確性。

提出的方案

  1. ImgEdit 數據集
  • 包含120 萬高質量編輯樣本(110 萬單輪 + 11 萬多輪)。
  • 涵蓋10 種編輯操作,包括對象提取、多對象混合編輯等。
  • 多輪樣本支持內容理解、內容記憶、版本回溯
  1. 自動化數據構建流程
  • 多階段篩選(美學評分、分辨率、可編輯區域)。
  • 結合開放詞匯檢測器 和 視覺分割模型 生成對象級標注。
  • 使用GPT-4o 生成多樣化單輪/多輪編輯提示。
  • 采用任務特定工作流(如 SOTA 生成模型)創建編輯對。
  • 通過GPT-4o 進行編輯對質量評估。
  1. ImgEdit-E1 模型:基于視覺語言模型(VLM)的編輯模型,支持參考圖像和編輯提示處理。
  2. ImgEdit-Bench 基準
  • 基礎測試集:評估指令遵循、編輯質量、細節保留。
  • 理解-定位-編輯(UGE)測試集:測試空間推理、多對象目標等復雜任務。
  • 多輪編輯測試集:評估內容理解、記憶和回溯能力。
  • 引入ImgEdit-Judge 評估模型,與人類偏好對齊。

應用的技術

  • 數據生成
  • GPT-4o(生成多樣化編輯提示)。
  • 開放詞匯檢測器(對象定位)。
  • 視覺分割模型(精細化區域標注)。
  • SOTA 生成模型(如 Stable Diffusion、DALL·E 等)創建編輯圖像。
  • 模型訓練
  • 視覺語言模型(VLM) 架構,用于處理參考圖像和編輯指令。 - 評估方法
  • 自動化評估(ImgEdit-Judge):模擬人類偏好。
  • 多維度測試集(基礎、UGE、多輪)。

達到的效果

  • 數據集質量提升
  • 任務新穎性數據質量上超越現有數據集(如 MagicBrush、SEED-Data-Edit)。
  • 模型性能提升
  • ImgEdit-E1 在多項任務上優于現有開源模型,縮小與閉源模型的差距。
  • 評估更全面
  • ImgEdit-Bench 提供分層難度評估,覆蓋基礎、復雜單輪、多輪編輯任務。
  • 通過ImgEdit-Judge 實現高效、可靠的大規模評估。

ImgEdit: 高質量數據集

ImgEdit 提供高保真度的編輯對,包含精確、全面的指令,并涵蓋更廣泛的實用和挑戰性編輯類型。先概述單輪和多輪編輯類型,接著詳述數據流程。再介紹 ImgEdit-E1,一個基于 ImgEdit 訓練的前沿編輯模型。最后展示數據集統計信息。

編輯類型定義

本文定義兩類編輯任務:單輪和多輪。單輪任務側重于覆蓋全面且實用的任務,而多輪任務則整合連續編輯場景中的指令和圖像交互。

單輪編輯

基于實際編輯需求,將單輪任務分為四類(如下圖1所示):

  • 局部編輯:包括添加、移除、替換、修改、動作變化對象提取操作。顏色、材質或外觀的變化歸類為修改。由于人物動作編輯是常見用例,特別支持針對人物的動作變化。此外,引入新穎的對象提取任務(如“將貓提取到白色背景”),可在干凈背景上分離指定主體,同時保持身份一致性。該能力目前僅 GPT-4o-image 支持。
  • 全局編輯:包括背景替換風格/色調遷移
  • 視覺編輯:基于參考圖像編輯(如“給貓添加圍巾”),確保對象一致性。與 AnyEdit 不同,省略了分割、草圖或布局引導的變體,因實際應用中此類視覺提示較少。
  • 混合編輯:單條指令中對多個對象應用兩種局部操作(如“添加圍巾并將貓毛色改為白色”)。

多輪編輯

基于現有多輪理解基準和實際需求,定義多輪編輯的三大挑戰(如下圖1所示):

  • 內容記憶:對話早期引入的全局約束(如“所有生成需帶木質紋理”)需在后續輪次中保持。
  • 內容理解:解析依賴代詞或省略主語的指令(如“將左側衣柜里的衣物改為黑色”隱含指代首輪添加的衣物)。
  • 版本回溯:基于早期版本編輯(如“撤銷上一步更改”)。這三類挑戰覆蓋了多輪交互編輯的主要難點。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

自動化數據流程

數據準備

采用 LAION-Aesthetics 作為主數據集,因其場景多樣性、高分辨率和更廣的對象覆蓋。篩選條件:短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o生成簡潔描述并提取可編輯對象及背景名詞。

對象定位與分割

  1. 通過開放詞匯檢測器定位候選實體,生成邊界框。
  2. 利用SAM2將邊界框細化為分割掩碼。
  3. 計算裁剪對象的CLIPScore和面積占比,剔除低相似度或過小區域,確保目標準確且視覺顯著。
  • 背景替換任務要求編輯區域占比>40%。
  • 動作變化編輯:額外從Open-Sora Plan收集16萬對人物視頻幀,由 GPT-4o 標注動作,構成動作變化子集。

數據準備

采用LAION-Aesthetics作為核心數據集。該數據集在場景多樣性、分辨率以及物體類別的全面性上表現更優。僅保留短邊≥1280像素且美學評分>4.75,得到60萬張圖像子集。使用GPT-4o重新生成簡潔的文本描述,并提取可編輯對象及背景名詞。每個候選實體通過開放詞匯檢測器進行定位,生成的邊界框再由SAM2優化為分割掩碼。由此,每個對象和背景區域均獲得邊界框與掩碼。

由于檢測與分割并非完美,通過掩碼裁剪每個對象,并計算:

  • 裁剪區域與對象名稱的CLIPScore相似度
  • 區域面積占比

對相似度低或面積可忽略的區域進行剔除,確保剩余目標識別準確且視覺顯著性滿足后續編輯需求。具體而言,在背景替換任務中,要求編輯區域需占圖像總面積40%以上。

針對動態變化編輯任務,額外從內部視頻庫Open-Sora Plan收集了16萬張以人物為主的圖像對。通過時間子采樣幀并利用GPT-4o標注動作信息,最終構成動態變化編輯子集。

指令生成模塊

通過原始圖像描述、編輯類型、邊界框和目標物體作為條件輸入生成指令。由于目標物體的精確定位對編輯至關重要,系統要求語言模型在編輯指令中嵌入物體位置和近似尺寸(以邊界框為參考)。低性能LLMs易引入知識偏差導致低質量指令,因此采用尖端大語言模型(如GPT-4o),該模型不僅能理解多樣化指令格式、生成概念豐富的編輯指令,還能高保真編碼空間信息。多輪指令生成時,提供少量上下文示例讓模型單次生成完整對話,再拆分為獨立輪次,每輪對話限制2-3回合,包含添加、刪除、替換、修改四類基礎操作。

修復工作流

選用FLUX和SDXL作為基礎生成模型,結合IP-Adapters、ControlNet等插件實現精準可控編輯。針對不同編輯場景構建定制化數據生產管線,例如:在視覺編輯任務中利用FLUX架構的上下文保持能力,通過FLUX-Redux控制語義一致性。生成圖像在審美質量和編輯保真度上均超越現有數據集。

后處理流程

在基于物體面積、CLIP分數和美學分數的粗過濾基礎上,使用GPT-4o進行精細過濾:為每個編輯對按編輯類型特定的評分標準分配質量分數,并提供詳細評分依據供用戶篩選。

ImgEdit-E1評估模型

為評估所收集數據的質量,在ImgEdit數據集上訓練了ImgEdit-E1模型。如下圖2所示,該模型整合了視覺語言模型(VLM)、視覺編碼器以及Diffusion-in-Transformer(DiT)主干網絡。編輯指令與原始圖像共同輸入VLM處理,同時圖像經由視覺編碼器并行處理。VLM的隱藏狀態與視覺編碼器的圖像特征分別通過多層感知機(MLP)映射后拼接,構成DiT的文本分支輸入。訓練采用兩階段策略:先優化MLP參數,隨后對FLUX模塊與MLP進行聯合微調。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

數據集統計

包含120萬高質量圖像編輯對(含11萬組多輪樣本),覆蓋13類編輯任務。相比現有數據集,具有更豐富語義、更詳細指令、更高分辨率(平均短邊1280像素)和更優編輯精度。其8.7k獨特詞匯量的指令多樣性,以及經GPT-4o評估的最高編輯準確率(抽樣1000例驗證)尤為突出。像素級差異分析顯示,局部編輯區域修改幅度顯著大于其他數據集,且經專業檢測器驗證更難定位編輯痕跡,證實其圖像質量優勢。其物體提取和視覺編輯子集首次實現了高度主體一致性的編輯任務。完整統計數據見下圖3與表1。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

ImgEdit-Bench:綜合性圖像編輯基準測試?

ImgEdit-Bench為單輪和多輪圖像編輯任務提供系統性評估框架。先闡述基準數據集的構建原則,接著定義量化評估指標,再提出專用于圖像編輯任務評估的模型ImgEdit-Judge。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

基準數據集構建?

模型能力劃分為?基礎編輯能力?與?復雜場景性能?兩類:

基礎編輯測試集

我評估模型完成常規任務的能力,涵蓋添加、刪除、修改、替換、風格遷移、背景替換、動態調整、混合編輯、摳圖處理9大類任務。所有測試圖像均從互聯網人工收集。為確保語義多樣性,從六大超類別(人物、交通工具、自然、動物、建筑、生活必需品)中每類選取十個代表性概念。

  • 添加任務:為每張背景簡潔的圖片搭配五個不同概念的指令。
  • 移除/修改/替換/摳圖/混合編輯任務:選擇主體突出且物體稀疏的照片。
  • 風格遷移:測試主流藝術風格。
  • 背景替換:選用適合場景置換的圖像。
  • 動態變化:基于以人物為主的圖像進行評估。


所有指令均由GPT-4o初步生成,并經過人工篩選。最終基準測試集包含734個測試用例,指令長度從簡略到詳盡不等。


理解-定位-編輯(UGE)測試套件?:人工精選47張互聯網復雜場景圖像,涵蓋目標局部遮擋、同類多實例、偽裝/低顯著性物體、罕見編輯對象四大挑戰。每圖設計需綜合空間推理、多目標協同操作、復合細粒度編輯或大規模修改的指令,提升單條指令的理解-定位-執行難度。


多輪交互測試套件?:從?內容記憶?、?上下文理解?、?版本回溯?三維度評估真實交互場景。每任務選取10張圖像人工設計3輪對話流程,形成結構化測試序列。

評估指標?

從?指令遵循度?、?編輯質量?、?細節保留度?三個維度量化模型性能:


指令遵循度?:衡量對指令語義理解和概念對齊能力,作為基礎得分限制其他兩項上限(編輯質量與細節保留得分不得超過該值);  編輯質量?:量化目標區域操作精度;  細節保留度?:評估非編輯區域保真程度。  評分采用GPT-4o按1-5分制執行,每類任務配備詳細評分細則。多輪場景中由人工評估員基于標準化指南對模型輸出進行?二元判斷?。

真實性量化指標?:引入?偽造分數?評估生成圖像偽影可檢測性,采用最新開源取證檢測器FakeShield定位編輯痕跡。通過計算多類編輯數據集的召回率(以偽造為正類),橫向對比結果驗證生成圖像的視覺真實性與編輯質量。

ImgEdit-Judge評估模型?

鑒于視覺語言模型(VLM)評分相較于傳統相似性指標更具合理性,且當前缺乏開源的圖像編輯專用評估器,我們構建了包含20萬條后處理評分記錄的?任務平衡與評分平衡語料庫?,用于微調Qwen2.5-VL-7B模型。通過人工研究驗證,每張圖像由人工標注員、Qwen2.5-VL-7B、ImgEdit-Judge與GPT-4o-mini并行評分,并選取60張圖像進行深度分析。當模型評分與人工評分差異不超過1分時視為有效判定。如下圖4所示,ImgEdit-Judge與人工評判一致性接近70%,顯著優于GPT-4o-mini和原生Qwen2.5-VL模型。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

實驗分析?

本節系統評估現有編輯模型與ImgEdit-E1性能:先闡述實驗配置,再呈現結果定量與定性分析,最后展開深度討論。

實驗設置?

單輪測試環境?:
閉源模型?:GPT-4o-Image(Gemini-2.0-Flash未開放API) 開源模型?:Step1X-Edit、Ultra-Edit、AnySD、MagicBrush、InstructPix2Pix及ImgEdit-E1 架構對比?:除ImgEdit-E1與Step1X-Edit采用VLM文本編碼器+DiT主干網絡外,其余模型均基于UNet架構與預訓練文本編碼器。AnySD額外集成任務感知MoE模塊。

參數配置?:輸入分辨率:UltraEdit/AnySD輸出512×512像素,其余模型輸出1024×1024像素 重復實驗:每個模型執行3次獨立實驗,報告平均得分 多輪測試?:僅支持GPT-4o-Image與Gemini-2.0-Flash兩模型

實驗結果?

定量評估首先對不同方法進行了全面的定性評估(結果如下圖5所示)。開源模型與閉源模型之間存在顯著性能差距:GPT-4o-image在所有維度上均優于開源模型,僅在部分高難度任務中稍顯不足。該模型同時獲得最高的UGE綜合評分,展現出更強的理解能力、定位能力和編輯能力。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

在開源模型中,ImgEdit-E1與Step1X-Edit表現最佳,在部分任務上接近閉源模型水平。其中:

  • ImgEdit-E1全任務表現均衡,因其采用高質量訓練數據,在物體提取和混合編輯任務中顯著領先其他開源模型
  • Step1X-Edit綜合性能與ImgEdit-E1相當,但在背景替換、屬性修改等高難度任務中表現欠佳
  • AnySD各項任務表現中庸,可能因其數據集覆蓋編輯任務廣泛但數據質量不足
  • UltraEdit因訓練集未包含移除任務,在該任務中表現極差
  • MagicBrushInstructPix2Pix因訓練數據質量與模型結構過于簡單,存在圖像畸變、指令跟隨失敗等問題

值得注意的是,所有模型的編輯輸出均獲得極高的"虛假評分",表明現有檢測模型仍能輕易識別合成內容。


在多輪編輯任務中,僅GPT-4o-ImageGemini-2.0-flash展現兩輪內的版本回溯能力。現有模型普遍存在內容記憶與理解缺陷,時而出現指代誤解或前提丟失的情況,總體上對多輪編輯的支持仍不充分。

定性評估?

選取了多種任務的代表性案例進行定性分析,如下圖6所示。在改變自行車顏色同時保留積雪的任務中,僅有ImgEdit-E1和GPT-4o-Image成功達成。涉及物體移除的任務中,AnySD和Step1X-Edit生成結果模糊,Gemini錯誤地將路燈一并移除,其他模型則未能遵循指令。相比之下,ImgEdit-E1和GPT-4o-Image完美完成了任務。在背景修改任務中,ImgEdit-E1和Step1X-Edit在所有開源模型中與提示要求契合度最高。對于物體替換任務,閉源模型的處理結果明顯更自然,而多數開源模型未能完成編輯。在色彩修改任務中,只有ImgEdit-E1和閉源模型在保留復雜細節的同時精準遵循了指令。此外,僅GPT-4o-Image和ImgEdit-E1成功完成了物體提取任務。

修圖模型照妖鏡上線!ImgEdit-Bench三維「死亡評測」曝光,誰在裸泳一測便知-AI.x社區

討論?

根據基準測試結果,確定了影響編輯模型性能的三大關鍵因素:指令理解、區域定位和編輯執行。

指令理解能力 

指模型解析編輯指令的能力,主要由文本編碼器決定,并顯著影響編輯效果。傳統模型使用T5或CLIP等編碼器,雖能處理簡單任務(如風格遷移),但在復雜的區域特定任務上表現欠佳。我們的評估顯示,ImgEdit-E1和Step1X-Edit大幅優于其他開源模型,印證了更強文本編碼器和更豐富文本特征的重要性。

區域定位能力 

指準確識別并定位待編輯區域的能力,既依賴指令理解,也取決于視覺感知水平。在需要精確定位的任務(如屬性修改和物體提取)中,ImgEdit-E1的表現遠超現有開源編輯模型,凸顯了提示信息中空間定位的關鍵作用。

編輯執行能力 

指泛化各類編輯操作的能力,主要取決于訓練數據的質量、規模和多樣性。由于物體提取任務缺乏高質量數據,包括GPT-4o在內的其他模型在此類任務中表現不佳,這再次證明構建全面、高質量編輯數據集的必要性。

結論?

ImgEdit框架

推動了圖像編輯領域的發展:它克服了現有數據集的質量缺陷,引入了實用的編輯任務分類體系,并為未來數據集構建提供了穩健的流程。ImgEdit-E1的優異表現驗證了該框架的可靠性。此外,ImgEdit-Bench從創新維度評估模型性能,為圖像編輯模型的數據篩選和架構設計提供了重要洞見。通過提供高質量數據集、高效編輯方法和全面評估基準,本文的工作有助于縮小開源方案與頂尖閉源模型之間的差距,并將推動整個圖像編輯領域的進步。

本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/OWw_xUXhxL7416tzF4c-7A??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产十日韩十欧美 | 欧美日韩精品一区二区天天拍 | 精品伊人 | 亚洲精品在线观看网站 | 久久久www成人免费无遮挡大片 | 日本免费黄色一级片 | 99re在线视频观看 | 成人免费观看男女羞羞视频 | 久热精品免费 | 亚洲国产一区二区三区 | 3p视频在线观看 | 亚洲欧美国产一区二区三区 | 久久精品青青大伊人av | 免费的黄色片子 | 亚洲一区在线观看视频 | 亚洲免费在线观看视频 | 日本精品一区二区三区在线观看视频 | 欧美日韩在线观看一区二区三区 | 天堂va在线 | 国产网站久久 | 成人欧美一区二区三区在线播放 | 亚洲va国产日韩欧美精品色婷婷 | 国产精品中文字幕在线播放 | 日韩精品视频网 | 日韩亚洲视频在线 | 精区3d动漫一品二品精区 | 天天躁天天操 | 精品久久香蕉国产线看观看亚洲 | 欧美日韩亚洲国产综合 | 国产毛片久久久久久久久春天 | 在线观看视频中文字幕 | 亚洲成人免费av | 亚洲精品乱码久久久久久9色 | 精品美女久久久久久免费 | 男女羞羞视频网站 | 亚洲一区亚洲二区 | 亚洲一区二区三区免费视频 | 欧美成人一区二区 | av免费网站在线观看 | 色婷婷综合久久久久中文一区二区 | 综合色播 |