成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用GPT-3.5生成數據集!北大天工等團隊圖像編輯新SOTA,可精準模擬物理世界場景

人工智能
在一組預訓練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個帶有世界指令的多模態數據集。

高質量圖像編輯的方法有很多,但都很難準確表達出真實的物理世界。

那么,Edit the World試試。

圖片圖片

來自北京大學、Tiamat AI、天工AI、Mila實驗室提出了EditWorld,他們引入了一種新的編輯任務,即世界指令(world-instructed)圖像編輯,它定義和分類基于各種世界場景的指令。

圖片圖片

在一組預訓練模型,比如GPT-3.5、Video-LLava 和 SDXL的支持下,建立了一個帶有世界指令的多模態數據集。

在該數據集訓練了一個基于擴散的圖像編輯模型EditWorld,結果在其新任務的表現明顯優于現有的編輯方法,實現SOTA。

圖像編輯新SOTA

現有的方法通過多種途徑實現高質量的圖像編輯,包括但不限于文本控制、拖動操作以及inpainting。其中,利用instruction進行編輯的方法由于使用方便受到廣泛的關注。

盡管現有的圖片編輯方法能夠產生高質量的結果,但它們在處理傳達物理世界中真實視覺動態的世界動態方面仍然存在困難。

如圖1所示,無論是InstructPix2pix還是MagicBrush都無法生成合理的編輯結果。

圖片圖片

為了解決這一問題,團隊引入了一項新的任務,稱為world-instructed image editing,使圖像編輯能夠反映真實物理世界和虛擬媒體中的“世界動態”。

具體來說,他們定義并分類了各種世界動態指令,并基于這些指令創建了一個新的多模態訓練數據集,該數據集包含大量的輸入-指令-輸出三元組。

最后,團隊使用精心制作的數據集訓練了一個文本引導的擴散模型,并提出了一種零樣本圖像操作策略,以實現world-instructed image editing。

根據現實世界以及虛擬媒體中的任務場景,將world-instructed image editing分為7種認為類別,并對每一種類別進行了定義與介紹,同時提供了一個數據樣例。

圖片圖片

隨后團隊設計了文本到圖片生成以及視頻分鏡提取兩個分支來獲取數據集。

文本生成圖片分支是為了豐富數據場景的豐富性,在該分支下,團隊首先利用GPT生成文本四元組(包括input圖片描述、instruction、output圖片描述以及關鍵詞),接著利用input以及output描述生成對應文本的圖片,利用關鍵詞對應的attention map對編輯位置進行定位獲取編輯mask,與此同時為了保證前后兩張圖關鍵特征的一致性,團隊引入了image prompt adaption的方法IP-Adapter,最后團隊使用IP-Adapter以及ControlNet,結合output image的canny map以及input image的image prompt feature,利用Image Inpainting對output image進行調整,從而獲得比較有效的編輯數據。

圖片圖片

利用文本生成圖片分支得到場景豐富的數據后,為了能向數據集中添加真實數據,團隊從視頻中提取高質量的關鍵幀作為編輯數據。具體來說,團隊從視頻分鏡中提取相關性強且結構差異大兩幀作為起始與末尾幀,并切分出一段新的分鏡,利用多模態大模型對這段分鏡的變化進行描述,最后團隊以起始與末尾幀作為input image以及output image,以得到的描述作為instruction,這樣就獲得了需要的編輯數據。

再進一步,團隊利用人工對生成數據進行recheck,從而進一步提升數據質量。

團隊利用數據集對InstructPix2Pix模型進行finetune,同時為了保護非編輯區域實現更為精確的編輯,團隊提出了post-edit策略。

圖片圖片

圖片圖片

最終可以看到,團隊的方法可以很好地實現world-instructed image editing。

論文鏈接:
https://arxiv.org/abs/2405.14785
代碼鏈接:
https://github.com/YangLing0818/EditWorld

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-09-06 16:44:03

2025-01-17 10:30:00

2025-01-21 10:45:00

訓練模型架構

2023-04-28 09:07:28

2024-07-19 09:26:12

2023-10-30 17:23:54

數據模型

2024-05-29 11:36:44

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2024-12-19 15:08:58

2024-02-05 09:00:00

2025-04-28 14:13:43

開源SOTA多模態

2023-10-16 13:28:00

數據AI

2019-04-03 15:00:47

Python圖像編輯工具

2023-08-23 08:54:59

OpenAIGPT-3.5

2023-07-21 15:05:04

人工智能智能汽車數字技術

2023-01-02 13:12:07

模型圖像

2023-05-05 09:42:12

2023-07-04 14:01:26

GPT-4模型

2025-03-31 08:46:00

圖像AI生成
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品永久免费视频 | 亚洲欧美中文字幕在线观看 | 日本aa毛片a级毛片免费观看 | 精品二| 国产精品视频www | 色婷婷久久久久swag精品 | 免费激情 | 91黄在线观看 | 在线观看日本网站 | 色综合av| 超碰在线97国产 | 免费影视在线观看 | 日韩精品区| 成人在线精品视频 | 看av电影 | www.99热.com | 一区二区三区免费 | 一区二区视频在线观看 | 亚洲精品一区国产精品 | 亚洲在线一区 | 午夜精品久久久久久久久久久久久 | 国产精品99久久久久久久久久久久 | 国产免费一区二区三区免费视频 | 中文字幕成人网 | 国产精品一区一区三区 | 二区三区视频 | 精品一区二区三区免费视频 | 中文字幕欧美日韩 | 成人激情视频在线播放 | 成人亚洲视频 | 国产伦精品一区二区三区精品视频 | 欧美一级做性受免费大片免费 | av网站在线播放 | 一级a性色生活片久久毛片波多野 | 国产精品视频网 | 精品国产免费一区二区三区五区 | 范冰冰一级做a爰片久久毛片 | 亚洲精品久久久久久久久久久久久 | 欧美精品一 | 日韩精品久久久久久 | 欧美精品久久久久 |