成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節開源圖像編輯黑科技!1/30參數1/13數據,性能提升9.19%

人工智能 新聞
這一方法旨在解決現有圖像編輯模型中監督信號有噪聲的問題,通過構建更有效的編輯指令提升編輯效果。

字節開源圖像編輯新方法,比當前SOTA方法提高9.19%的性能,只用了1/30的訓練數據和1/13參數規模的模型。

做到這一切無需額外預訓練任務和架構修改,只需要讓強大的多模態模型(如GPT-4o)來糾正編輯指令。

圖片

這一方法旨在解決現有圖像編輯模型中監督信號有噪聲的問題,通過構建更有效的編輯指令提升編輯效果。

數據和模型在Github上開源。

圖片

為什么AI編輯圖像模型常常“理解錯誤”

當人們讓AI”給照片中的男孩加一條粉色領帶”時,AI可能會把皮膚顏色、衣服顏色也改變,或者完全重繪整張圖片。

為什么會這樣?

圖片

團隊發現了一個被忽視的關鍵問題:現有的圖像編輯數據集存在大量的噪聲監督信號。

當前基于指令的圖像編輯方法流行起來,但訓練這類模型需要大量原始-編輯后圖像對和指令,手動收集困難。

現有數據集通常使用各種自動化方法構建,導致指令與圖像對之間的不匹配,產生有噪聲的監督信號。

簡單來說就是:AI在學習時,看到的指令和實際編輯效果對不上號,導致”學廢了”。

如此一來,SuperEdit的方法就不是靠擴大參數規模或增加預訓練算力,而是專注于提高監督信號質量。

圖片

用GPT-4o糾正編輯指令

團隊首先發現,擴散模型在生成圖像的不同階段有著不同側重點。

  • 早期階段:關注全局布局變化
  • 中期階段:關注局部物體屬性變化
  • 晚期階段:關注圖像細節變化

圖片

受此啟發,團隊利用GPT-4o這樣的強大視覺語言模型,通過觀察原始圖像和編輯后圖像之間的差異,生成更準確的編輯指令。

將原始圖像和編輯后的圖像輸入到GPT-4o中,并要求它返回以下四個屬性的差異:整體圖像布局、局部對象屬性、圖像細節、樣式變化。

由于CLIP文本編碼器最多接受77個文本token輸入,還需要讓GPT-4o總結完善這些指令。

圖片

僅僅有正確的指令還不夠,團隊還構建了一套對比監督機制:

  • 根據正確的編輯指令,生成一系列錯誤指令(如改變物體數量、位置或顏色)
  • 使用三元組損失函數(triplet loss)讓模型學會區分正確和錯誤的編輯指令

由于在正確指令和錯誤指令之間只替換了幾個單詞,因此CLIP文本編碼器生成的文本嵌入作為擴散模型的輸入也會很相似。

通過這一點確保學習任務的難度,幫助模型了解兩個編輯指令之間的細微差異如何導致截然不同的編輯結果。

編輯模型訓練基于InstructPix2Pix框架,利用對比監督信號時,在訓練階段引入錯誤編輯指令生成正負樣本,提升模型理解和執行指令的能力。

圖片

SuperEdit在多個基準測試上的表現出色,在Real-Edit基準測試中,它以69.7%的整體準確率和3.91的評分,超越前SOTA方法SmartEdit的58.3%準確率和3.59評分。

圖片

在人工評估中,SuperEdit在指令遵循度、原始內容保留和圖像質量三個關鍵指標上全面超越了現有方法。

圖片

不過該方法也存在一些局限,經過訓練的模型在理解和執行復雜指令上仍然存在困難,尤其是在密集排列的對象和復雜的空間關系方面。

以及為確保校正指令的準確性和有效性大量調用GPT-4o,可能產生額外的成本。

團隊計劃將這種數據優先的方法擴展到更多視覺生成任務中,并探索與更大模型相結合的可能性。

論文:
https://arxiv.org/abs/2505.02370xia

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-31 08:46:00

圖像AI生成

2020-08-22 07:46:58

Photoflare開源圖像編輯器

2025-01-17 10:30:00

2019-04-03 15:00:47

Python圖像編輯工具

2019-01-04 10:00:48

開源技術 趨勢

2021-12-26 16:41:37

Windows 11操作系統微軟

2021-02-16 09:37:01

Filmulator開源圖像編輯器

2025-05-13 09:12:18

2020-11-22 21:47:26

Photoshop工具開源

2014-04-01 09:52:46

MySQL

2023-03-28 13:33:40

3D換臉UC

2024-03-11 09:37:01

模型圖片編輯

2021-04-10 07:21:53

技巧Resizable B顯卡

2020-02-06 11:15:58

Python命令代碼

2015-03-27 15:41:42

AdobeAcrobat DC

2021-12-27 08:08:41

微軟WindowsWindows 11

2025-03-21 06:47:14

微軟工具C#

2023-01-02 13:12:07

模型圖像

2025-05-07 13:51:49

模型數據

2022-03-21 15:06:10

模型字節跳動框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产乱码精品一区二区三区忘忧草 | 国产精品日日夜夜 | 成人免费黄视频 | 成人高清在线视频 | 亚洲欧美一区在线 | 国产精品九九 | 一级做a爰片久久毛片 | 免费精品视频 | 久久久久国产一区二区三区四区 | 成人免费大片黄在线播放 | 亚洲国产情侣 | 午夜影院在线 | 在线不卡视频 | 国产精品一区二区不卡 | 国产精品一区二区福利视频 | 免费在线观看av的网站 | 国产一区二区三区四区五区加勒比 | av在线亚洲天堂 | 国产97视频在线观看 | 特级黄一级播放 | 在线一区二区三区 | 久久久免费精品 | 欧美成人视屏 | 欧美日韩在线一区二区 | 亚洲欧美国产视频 | 天天综合久久网 | 久久这里只有精品首页 | 精品国产乱码久久久久久牛牛 | 国产精品久久久久久238 | 中文字幕 国产 | 365夜爽爽欧美性午夜免费视频 | 亚洲精品国产成人 | 亚洲人成在线播放 | 国产高清精品一区二区三区 | 区一区二区三在线观看 | 中文字幕亚洲免费 | 免费能直接在线观看黄的视频 | 成人午夜在线 | 97视频在线观看免费 | 国产精品亚洲第一区在线暖暖韩国 | 成人在线视频网 |