成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

生圖加入CoT,性能提升80%!微軟港中文打造天才畫手

人工智能 新聞
AI繪畫總「翻車」,不是抓不住重點(diǎn),就是細(xì)節(jié)崩壞?別愁!微軟和港中文學(xué)者帶來(lái)ImageGen-CoT技術(shù),讓AI像人一樣思考推理,生成超驚艷畫作,性能提升高達(dá)80%。

AI繪畫火爆的當(dāng)下,大家都有過(guò)這樣的體驗(yàn):滿心歡喜地輸入一段描述,滿心期待著生成超酷炫的圖像,結(jié)果AI給出的作品卻差強(qiáng)人意,不是沒(méi)get到重點(diǎn),就是細(xì)節(jié)各種「翻車」。

今天要介紹的ImageGen-CoT技術(shù),就像是給AI繪畫開了「外掛」,讓它變得超智能,創(chuàng)作更輕松!

來(lái)自微軟和港中文的華人研究者提出了ImageGen-CoT,用思維鏈(CoT)推理提升文本到圖像上下文學(xué)習(xí)能力。

圖片

論文鏈接:https://arxiv.org/abs/2503.19312

它在AI繪畫生成圖像之前,先進(jìn)行一番思考,梳理出推理步驟,再去創(chuàng)作圖像,就像寫作文前先列提綱一樣。

人類在面對(duì)多模態(tài)信息時(shí),比如看到「皮革裝訂的書」「皮革蘋果」,再被要求畫「皮革盒子」,能輕松推斷出 「皮革」這個(gè)關(guān)鍵特征,并應(yīng)用到新的創(chuàng)作中。

圖片

但現(xiàn)有的多模態(tài)大語(yǔ)言模型(MLLM)在處理這類文本到圖像上下文學(xué)習(xí)(T2I-ICL)任務(wù)時(shí),卻表現(xiàn)得差強(qiáng)人意,經(jīng)常抓不住重點(diǎn),生成的圖像和預(yù)期相差甚遠(yuǎn)。

ImageGen-CoT的核心就是在圖像生成之前引入思維鏈(CoT)推理。

想象一下,AI就像一個(gè)小畫家,以前畫畫的時(shí)候,拿到描述就直接動(dòng)手,毫無(wú)規(guī)劃,所以畫得亂七八糟。

現(xiàn)在有了ImageGen-CoT,小畫家會(huì)先思考:「這個(gè)描述里有什么關(guān)鍵信息?之前有沒(méi)有類似的描述,它們有什么共同點(diǎn)?」

想清楚這些之后,再開始畫畫,這樣畫出來(lái)的作品自然更符合期待。

大量的實(shí)驗(yàn)表明,該方法顯著提高了模型性能,SEED-X微調(diào)后在T2I-ICL任務(wù)上的性能提升高達(dá)80%。

使用ImageGen-CoT進(jìn)行微調(diào)的SEED-X在CoBSAT和DreamBench++上分別提高了89%和114%。

圖片

ImageGen-CoT如何構(gòu)建

接下來(lái),詳細(xì)介紹ImageGen-CoT框架,首先,介紹ImageGen-CoT的公式化表述。

其次,描述用于收集高質(zhì)量ImageGen-CoT數(shù)據(jù)集的自動(dòng)流程。詳細(xì)闡述數(shù)據(jù)集的公式化表述以及用于使用收集到的數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)的損失函數(shù)。

最后,探索在推理過(guò)程中提高模型性能的各種策略,提出一種新穎的混合擴(kuò)展方法,應(yīng)對(duì)上下文理解和生成方面的挑戰(zhàn)。

 兩階段推理:穩(wěn)扎穩(wěn)打生成圖像

ImageGen-CoT 采用了兩階段推理的方式。

第一階段,模型會(huì)根據(jù)輸入的文本和指令,生成ImageGen-CoT推理鏈R。

這個(gè)推理鏈就像是畫家畫畫前打的草稿,把圖像的關(guān)鍵信息、創(chuàng)作思路都梳理清楚。

第二階段,模型把原始輸入X、生成的推理鏈R,還有強(qiáng)制圖像生成標(biāo)記<image>結(jié)合起來(lái),生成最終的目標(biāo)圖像I。

用公式表示就是:

圖片

這里,M代表統(tǒng)一的MLLM,⊕表示連接操作。

這種兩階段的設(shè)計(jì),能確保圖像生成更穩(wěn)定、更準(zhǔn)確。

 數(shù)據(jù)集構(gòu)建

為了能更好地學(xué)習(xí),ImageGen-CoT構(gòu)建了高質(zhì)量的數(shù)據(jù)集。

首先,研究人員從現(xiàn)有的T2I-ICL任務(wù)訓(xùn)練數(shù)據(jù)集中收集各種指令,建立一個(gè)指令池。

然后,開啟自動(dòng)數(shù)據(jù)集構(gòu)建流程。在這個(gè)流程里,MLLM身兼數(shù)職。它先是作為生成器,生成N個(gè)包含ImageGen-CoT和下一幅圖像提示的輸出。

然后,MLLM充當(dāng)選擇器,從N個(gè)候選圖像中選擇最佳圖像。

如果圖像達(dá)到了質(zhì)量標(biāo)準(zhǔn),或者達(dá)到了最大迭代次數(shù),流程終止并輸出相應(yīng)的ImageGen-CoT和圖像對(duì)。

要是沒(méi)達(dá)標(biāo),MLLM就會(huì)化身為評(píng)論者,給這幅圖像挑挑刺,指出哪里畫得不好。

最后,MLLM再作為優(yōu)化器,根據(jù)評(píng)論修改提示,然后重新生成圖像,這個(gè)過(guò)程不斷循環(huán),直到選出最完美的圖像和對(duì)應(yīng)的ImageGen-CoT。

圖片

通過(guò)這樣嚴(yán)格的篩選,構(gòu)建出的ImageGen-CoT數(shù)據(jù)集質(zhì)量超高,每一個(gè)樣本都是精心挑選出來(lái)的。

 訓(xùn)練與優(yōu)化

數(shù)據(jù)集構(gòu)建好之后,就要用它來(lái)訓(xùn)練MLLM啦。

訓(xùn)練時(shí),研究人員把ImageGen-CoT數(shù)據(jù)集分成了兩個(gè)部分。

第一部分用來(lái)訓(xùn)練模型生成ImageGen-CoT文本,第二部分訓(xùn)練模型根據(jù)生成的ImageGen-CoT文本生成圖像。

如果模型使用的是離散視覺(jué)標(biāo)記,就用和語(yǔ)言建模類似的損失函數(shù):

圖片

其中,y_i是ImageGen-CoT文本中的第i個(gè)標(biāo)記,圖片表示前面的標(biāo)記,X是輸入,N是ImageGen-CoT序列中的標(biāo)記總數(shù)。

要是用的是連續(xù)視覺(jué)嵌入,就采用均方誤差損失函數(shù):

圖片

其中,圖片是生成的視覺(jué)嵌入,z是相應(yīng)的目標(biāo)視覺(jué)嵌入。

通過(guò)訓(xùn)練,模型生成準(zhǔn)確ImageGen-CoT的能力越來(lái)越強(qiáng),圖像生成的質(zhì)量也大幅提升。

研究人員在測(cè)試階段也進(jìn)行了優(yōu)化,探索了三種測(cè)試時(shí)擴(kuò)展策略:?jiǎn)蜟oT擴(kuò)展、多CoT擴(kuò)展和混合擴(kuò)展。

單CoT擴(kuò)展就是從一個(gè)ImageGen-CoT生成多個(gè)圖像變體;多CoT擴(kuò)展則是生成多個(gè)不同的ImageGen-CoT思維鏈,每個(gè)思維鏈生成一幅圖像。

混合擴(kuò)展更厲害,首先生成多個(gè)ImageGen-CoT思維鏈,然后為每個(gè)思維鏈創(chuàng)建多個(gè)圖像變體。

實(shí)驗(yàn)證明,混合擴(kuò)展策略效果最好。在理解和生成圖像兩方面都能快速提升,為復(fù)雜多模態(tài)任務(wù)的性能優(yōu)化開辟了新道路。

ImageGen-CoT效果有多驚艷?

為了驗(yàn)證ImageGen-CoT,研究人員在CoBSAT和DreamBench++這兩個(gè)權(quán)威的T2I-ICL基準(zhǔn)測(cè)試中進(jìn)行了實(shí)驗(yàn)。

 測(cè)試成績(jī)亮眼

在CoBSAT測(cè)試中,使用ImageGen-CoT后,SEED-LLaMA的平均分?jǐn)?shù)從0.254提高到0.283,相對(duì)提升了11.4%。

SEED-X的提升更明顯,從0.349提高到0.439,相對(duì)提升25.8%。

經(jīng)過(guò)ImageGen-CoT數(shù)據(jù)集微調(diào)后,SEED-LLaMA的平均分?jǐn)?shù)達(dá)到0.291,比基線提升了14.6%。

SEED-X更是飆升到0.658,相對(duì)提升高達(dá)88.5%。

圖片

在DreamBench++測(cè)試中,同樣成績(jī)斐然。

SEED-X使用ImageGen-CoT后,CP?PF分?jǐn)?shù)從0.188提升到0.347,相對(duì)提升84.6%。

微調(diào)后,SEED-X的CP?PF分?jǐn)?shù)達(dá)到0.403,相對(duì)提升114.4%;SEED-LLaMA微調(diào)后的CP?PF分?jǐn)?shù)也從0.078提升到0.101,相對(duì)提升29.5%。

圖片

這充分證明了ImageGen-CoT在提升模型性能方面的強(qiáng)大實(shí)力。

 測(cè)試時(shí)擴(kuò)展

為了進(jìn)一步提升模型性能,研究人員探索了各種測(cè)試時(shí)擴(kuò)展策略。

采用「N選優(yōu)」方法,讓模型生成多個(gè)圖像變體,并通過(guò)真實(shí)指標(biāo)評(píng)估(pass@N)。

作為基線方法,首先對(duì)普通的SEED-X模型進(jìn)行實(shí)驗(yàn),通過(guò)改變種子值生成多個(gè)圖像。

然后,使用ImageGen-CoT 數(shù)據(jù)集微調(diào)后的SEED-X的三種高級(jí)擴(kuò)展策略:

  • 多CoT擴(kuò)展,生成多個(gè)不同的ImageGen-CoT思維鏈,每個(gè)思維鏈生成一幅圖像。
  • 單CoT擴(kuò)展,從單個(gè)ImageGen-CoT思維鏈生成多個(gè)圖像變體。
  • 混合擴(kuò)展,這是一種新穎的方法,結(jié)合了兩種策略的優(yōu)勢(shì),即首先生成多個(gè)ImageGen-CoT思維鏈,然后為每個(gè)思維鏈生成多個(gè)圖像變體。

實(shí)驗(yàn)揭示了三個(gè)關(guān)鍵發(fā)現(xiàn)。

第一,普通的SEED-X@16基線(在CoBSAT上得分為 0.67,在Dreambench++上得分為0.312 )甚至不如最簡(jiǎn)單的擴(kuò)展策略(例如,在CoBSAT@2上得分為0.747 ),這凸顯了整合ImageGen-CoT的必要性。

第二,多CoT擴(kuò)展在性能上與單CoT擴(kuò)展相當(dāng),證明了生成多樣化的推理路徑與從單個(gè)CoT生成不同輸出的效果相同。

最后,混合擴(kuò)展在各個(gè)基準(zhǔn)測(cè)試中始終獲得最高分?jǐn)?shù)。在N=16時(shí),混合擴(kuò)展將CoBSAT的性能提高到0.909(比單CoT擴(kuò)展高1.9% ),將Dreambench++的性能提高到0.543(比單CoT擴(kuò)展高0.8% )。

圖片

ImageGen-CoT的整合實(shí)現(xiàn)了在理解和生成維度上的有效雙向擴(kuò)展。這種雙軸可擴(kuò)展性為優(yōu)化復(fù)雜多模態(tài)任務(wù)中的 MLLM性能開辟了新途徑。

 定性結(jié)果展示

ImageGen-CoT的效果在實(shí)際生成的圖像中也體現(xiàn)得淋漓盡致。

比如在生成「帶蕾絲圖案的書」的圖像時(shí),基線SEED-X只能畫出一個(gè)基本的書的形狀,完全沒(méi)注意到「蕾絲」這個(gè)關(guān)鍵屬性。

使用ImageGen-CoT提示后,由于模型理解能力有限,生成的圖像質(zhì)量反而更差了。

但經(jīng)過(guò)ImageGen-CoT數(shù)據(jù)集微調(diào)后,模型成功捕捉到了「蕾絲」屬性,生成了一本精美的蕾絲書,細(xì)節(jié)滿滿。

圖片

生成「在石頭上、在花園里、表情悲傷的雞蛋」的圖像時(shí),基線SEED-X生成的雞蛋只是簡(jiǎn)單張嘴,完全忽略了「在石頭上」「在花園里」這些要求和特征。

使用ImageGen-CoT提示后,雖然雞蛋放在了石頭上,但還是缺少面部表情和花園環(huán)境。

而微調(diào)后的模型則完美理解了所有任務(wù)要求,生成的圖像中,雞蛋穩(wěn)穩(wěn)地放在石頭上,周圍是美麗的花園,雞蛋還帶著悲傷的表情,和輸入的描述一模一樣。

這些對(duì)比,讓我們清晰地看到了ImageGen-CoT如何讓AI繪畫從「青銅」變成「王者」。

 背后的秘密:提升理解能力

為什么ImageGen-CoT能夠提升模型性能呢?關(guān)鍵在于它增強(qiáng)了模型的理解能力。

研究人員讓模型為下一幅圖像生成文本描述,以此來(lái)評(píng)估模型的理解能力。

以SEED-X為例,通過(guò)提示應(yīng)用ImageGen-CoT時(shí),其文本生成模式的平均分?jǐn)?shù)從0.174提高到0.457,用ImageGen-CoT數(shù)據(jù)集微調(diào)后,更是提升到0.760。

圖片

同時(shí),增強(qiáng)的理解能力也改善了圖像生成,SEED-X的圖像生成平均分?jǐn)?shù)從0.349提升到0.439,微調(diào)后進(jìn)一步提升到0.658。

理解能力的提升也直接帶動(dòng)了圖像生成性能的提高,這說(shuō)明ImageGen-CoT讓模型更好地理解了輸入內(nèi)容,生成更符合要求的圖像。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2020-06-04 16:57:07

移動(dòng)開發(fā)互聯(lián)網(wǎng)實(shí)踐

2024-11-28 09:31:44

2025-03-31 09:35:00

GPT-4oAI模型

2025-02-24 08:30:00

視覺(jué)模型訓(xùn)練

2011-09-16 10:19:41

2022-04-13 10:31:04

微軟Jigsaw大型語(yǔ)言模型

2024-04-11 08:00:00

人工智能機(jī)器學(xué)習(xí)

2025-05-19 08:37:00

2024-06-04 00:00:01

微軟EdgeReact

2025-04-11 10:00:52

2009-08-31 09:14:28

Visual Stud

2021-07-29 17:28:34

Windows 11操作系統(tǒng)微軟

2018-07-03 10:11:14

數(shù)據(jù)

2009-08-07 10:10:55

綠色服務(wù)器華碩

2013-11-01 14:08:11

2009-06-29 09:44:07

Smooth StreSilverlight

2025-03-07 09:02:00

生成AI視頻

2021-11-22 19:40:58

微軟Windows 11Windows

2025-02-08 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区高清 | 日韩一区二区成人 | 日日摸日日添日日躁av | 久草99| 国产在线一区二 | 人人看人人干 | 蜜臀久久99精品久久久久野外 | 精品国产91 | 91在线第一页 | 在线播放中文 | 久久精品色欧美aⅴ一区二区 | cao在线| 日韩免费高清视频 | 国产超碰人人爽人人做人人爱 | 特黄小视频 | 久久久青草婷婷精品综合日韩 | 91天堂 | 91精品在线看| 特级做a爱片免费69 精品国产鲁一鲁一区二区张丽 | 久久最新 | av一二三区 | 黄网站在线观看 | 中文字幕成人 | 亚洲视频一区在线观看 | 亚洲视频免费 | 欧美激情在线一区二区三区 | 色免费视频 | 中文字幕精 | 一区二区精品在线 | 日韩精品久久 | 日韩成人一区 | 亚洲国产成人精品女人久久久 | 亚洲伦理自拍 | 91在线资源| 日本三级网站在线 | 91久久久www播放日本观看 | 国产原创在线观看 | 一区二区三区四区在线播放 | 2020亚洲天堂 | 久久久久久久久久久一区二区 | 国产精品一区二区电影 |