成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Diffusion+目標檢測=可控圖像生成!華人團隊提出GLIGEN,完美控制對象的空間位置

人工智能 新聞
再也不用擔心圖像生成的位置錯亂了!

隨著Stable Diffusion的開源,用自然語言進行圖像生成也逐漸普及,許多AIGC的問題也暴露了出來,比如AI不會畫手、無法理解動作關系、很難控制物體的位置等。

其主要原因還是在于「輸入接口」只有自然語言,無法做到對畫面的精細控制

最近來自威斯康星大學麥迪遜分校、哥倫比亞大學和微軟的研究熱源提出了一個全新的方法GLIGEN,以grounding輸入為條件,對現有「預訓練文本到圖像擴散模型」的功能進行擴展。

圖片

論文鏈接:https://arxiv.org/pdf/2301.07093.pdf

項目主頁:https://gligen.github.io/

體驗鏈接:https://huggingface.co/spaces/gligen/demo

為了保留預訓練模型的大量概念知識,研究人員沒有選擇對模型進行微調,而是通過門控機制將輸入的不同grounding條件注入到新的可訓練層中,以實現對開放世界圖像生成的控制。

目前GLIGEN支持四種輸入。

圖片

(左上)文本實體+box (右上)圖像實體+box

(左下)圖像風格+文本+box (右下)文本實體+關鍵點

實驗結果也顯示,GLIGEN 在 COCO 和 LVIS 上的zero-shot性能大大優于目前有監督layout-to-image基線。

可控圖像生成

在擴散模型之前,生成對抗網絡(GANs)一直是圖像生成領域的一哥,其潛空間和條件輸入在「可控操作」和「生成」方面得到了充分的研究。

文本條件自回歸和擴散模型表現出驚人的圖像質量和概念覆蓋率,得益于其更穩定的學習目標和對網絡圖像-文本配對數據的大規模訓練,并迅速出圈,成為輔助藝術設計和創作的工具。

但現有的大規模文本-圖像生成模型不能以「文本之外」的其他輸入模式為條件,缺乏精確定位概念或使用參考圖像來控制生成過程的能力,限制了信息的表達。

比如說,使用文本很難描述一個物體的精確位置,而邊界框(bounding

boxes)或關鍵點(keypoints)則可以很容易實現。

圖片

現有的一些工具如inpainting, layout2img生成等可以利用除文本以外的模態輸入,但卻很少將這些輸入結合起來用于可控的text2img生成。

此外,先前的生成模型通常是在特定任務的數據集上獨立訓練的,而在圖像識別領域,長期以來的范式是通過從「大規模圖像數據」或「圖像-文本對」上預訓練的基礎模型開始建立特定任務的模型。

擴散模型已經在數十億的圖像-文本對上進行了訓練,一個很自然的問題是:我們能否在現有的預訓練的擴散模型的基礎上,賦予它們新的條件輸入模式?

由于預訓練模型所具有的大量概念知識,可能能夠在其他生成任務上取得更好的性能,同時獲得比現有文本-圖像生成模型更多的可控性。

GLIGEN

基于上述目的和想法,研究人員提出的GLIGEN模型仍然保留文本標題作為輸入,但也啟用了其他輸入模態,如grounding概念的邊界框、grounding參考圖像和grounding部分的關鍵點。

這里面的關鍵難題是在學習注入新的grounding信息的同時,還保留預訓練模型中原有的大量概念知識。

為了防止知識遺忘,研究人員提出凍結原來的模型權重,并增加新的可訓練的門控Transformer層以吸收新的grouding輸入,下面以邊界框為例。

指令輸入?

圖片

每個grouding文本實體都被表示為一個邊界框,包含左上角和右下角的坐標值。

需要注意的是,現有的layout2img相關工作通常需要一個概念詞典,在評估階段只能處理close-set的實體(如COCO類別),研究人員發現使用編碼圖像描述的文本編碼器即可將訓練集中的定位信息泛化到其他概念上。

訓練數據?

用于生成grounding圖像的訓練數據需要文本c和grounding實體e作為條件,在實踐中可以通過考慮更靈活的輸入來放松對數據的要求。

圖片

主要有三種類型的數據

1. grounding數據

每張圖片都與描述整張圖片的標題相關聯;名詞實體從標題中提取,并標上邊界框。

由于名詞實體直接取自自然語言的標題,它們可以涵蓋更豐富的詞匯,有利于開放世界詞匯的grounding生成。

2. 檢測數據 Detection data

名詞實體是預先定義的close-set類別(例如COCO中的80個物體類別),選擇使用classifier-free引導中的空標題token作為標題。

檢測數據的數量(百萬級)大于基礎數據(千級),因此可以大大增加總體訓練數據。

3. 檢測和標題數據 Detection and Caption data

名詞實體與檢測數據中的名詞實體相同,而圖像是單獨用文字標題描述的,可能存在名詞實體與標題中的實體不完全一致的情況。

比如標題只給出了對客廳的高層次描述,沒有提到場景中的物體,而檢測標注則提供了更精細的物體層次的細節。

門控注意力機制?

研究人員的目標是為現有的大型語言-圖像生成模型賦予新的空間基礎能力,

大型擴散模型已經在網絡規模的圖像文本上進行了預訓練,以獲得基于多樣化和復雜的語言指令合成現實圖像所需的知識,由于預訓練的成本很高,性能也很好,在擴展新能力的同時,在模型權重中保留這些知識是很重要的,可以通過調整新的模塊來逐步適應新能力。

圖片

在訓練過程中,使用門控機制逐漸將新的grounding信息融合到預訓練的模型中,這種設計使生成過程中的采樣過程具有靈活性,以提高質量和可控性。

實驗中也證明了,在采樣步驟的前半部分使用完整的模型(所有層),在后半部分只使用原始層(沒有門控Transformer層),生成的結果能夠更準確反映grounding條件,同時具有較高的圖像質量。

實驗部分

在開放集合grounded文本到圖像生成任務中,首先只用COCO(COCO2014CD)的基礎標注進行訓練,并評估GLIGEN是否能生成COCO類別以外的基礎實體。

圖片

可以看到,GLIGEN可以學會新的概念如「藍鴉」、「羊角面包」,或新的物體屬性如「棕色木桌」,而這些信息沒有出現在訓練類別中。

研究人員認為這是因為GLIGEN的門控自注意力學會了為接下來的交叉注意力層重新定位與標題中的接地實體相對應的視覺特征,并且由于這兩層中的共享文本空間而獲得了泛化能力。

實驗中還定量評估了該模型在LVIS上的zero-shot生成性能,該模型包含1203個長尾物體類別。使用GLIP從生成的圖像中預測邊界框并計算AP,并將其命名為GLIP得分;將其與為layout2img任務設計的最先進的模型進行比較,

圖片

可以發現,盡管GLIGEN模型只在COCO標注上進行了訓練,但它比有監督的基線要好得多,可能因為從頭開始訓練的基線很難從有限的標注中學習,而GLIGEN模型可以利用預訓練模型的大量概念知識。

圖片

總的來說,這篇論文:

1. 提出了一種新的text2img生成方法,賦予了現有text2img擴散模型新的grounding可控性;

2. 通過保留預訓練的權重和學習逐漸整合新的定位層,該模型實現了開放世界的grounded text2img生成與邊界框輸入,即綜合了訓練中未觀察到的新的定位概念;

3. 該模型在layout2img任務上的zero-shot性能明顯優于之前的最先進水平,證明了大型預訓練生成模型可以提高下游任務的性能

責任編輯:張燕妮
相關推薦

2023-04-11 09:43:21

模型AI

2022-12-18 19:49:45

AI

2023-06-16 14:11:00

研究監督

2025-05-12 08:25:00

2023-10-04 09:56:33

圖片AI

2021-08-18 15:48:03

神經網絡數據圖形

2024-10-15 09:29:36

2021-09-03 16:41:26

模型人工智能深度學習

2025-01-07 10:20:00

模型圖像生成數據

2023-03-09 14:04:00

谷歌研究

2024-03-19 09:32:51

AI模型

2025-05-29 09:34:14

2020-11-20 17:03:11

AI 數據人工智能

2021-09-03 16:51:57

AI 數據機器學習

2022-02-25 23:42:12

谷歌3D檢測

2024-08-14 16:30:00

3D AIGC

2025-01-03 11:37:13

2023-04-28 15:24:06

模型研究

2024-03-06 16:39:50

人工智能深度學習

2023-05-31 16:15:51

模型圖像
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费人成在线观看网站 | 日韩在线欧美 | 在线国产一区二区 | 日本一区二区三区四区 | 久久久www成人免费精品张筱雨 | 欧美日韩高清在线观看 | 日韩有码在线播放 | 欧美激情综合网 | 欧美黑人体内she精在线观看 | 韩国久久| 99久久精品国产一区二区三区 | 国产一区二区久久 | 亚洲人成网站777色婷婷 | 在线高清免费观看视频 | 在线视频一区二区三区 | 日韩精品一区二区三区 | 中文字幕一区二区不卡 | 亚洲精品一区二区三区中文字幕 | 中文字幕黄色大片 | 欧美色综合网 | 天天操精品视频 | 欧美精品一二区 | 免费一级黄 | 欧美不卡一区 | 91精品国产综合久久精品图片 | 国产一区二区三区欧美 | 国户精品久久久久久久久久久不卡 | 亚洲欧美一区在线 | 日韩二三区 | 日韩有码在线播放 | 午夜影院在线免费观看视频 | 四虎最新视频 | 欧美三级免费观看 | 91精品久久久 | 久久毛片网站 | 久久之精品 | 亚洲精品乱码久久久久久按摩观 | 中文字幕在线视频精品 | 毛片网站在线观看 | www.99热.com | 中文字幕在线观看成人 |