成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

下載次數(shù)破39萬!CMU、Meta聯(lián)合發(fā)布VQAScore文生圖優(yōu)化方案:Imagen3已采用

人工智能 新聞
VQAScore是一個利用視覺問答模型來評估由文本提示生成的圖像質(zhì)量的新方法;GenAI-Bench是一個包含復(fù)雜文本提示的基準(zhǔn)測試集,用于挑戰(zhàn)和提升現(xiàn)有的圖像生成模型。兩個工具可以幫助研究人員自動評估AI模型的性能,還能通過選擇最佳候選圖像來實(shí)際改善生成的圖像。

近年來,生成式人工智能(AIGC)引發(fā)廣泛關(guān)注。Midjourney、Imagen3、Stable Diffusion和Sora等模型能夠根據(jù)自然語言提示詞生成美觀且逼真的圖像和視頻,廣受用戶喜愛。

圖片

然而,這些模型在處理復(fù)雜的提示詞時仍存在不足。例如,當(dāng)讓Stable Diffusion或Midjourney生成「棕色的狗繞著一棵樹追黑色的狗」時,模型可能會錯誤生成兩只黑狗,或?qū)ⅰ缸分稹拐`解為兩只狗在「玩?!?。

圖片

有什么辦法可以自動發(fā)現(xiàn)這些模型的不足,并進(jìn)一步提升它們呢?

為解決這一問題,CMU和Meta團(tuán)隊聯(lián)合推出了全新的評估指標(biāo)VQAScore及基準(zhǔn)GenAI-Bench,用于自動評估圖像、視頻和3D生成模型在復(fù)雜提示詞下的表現(xiàn)。

圖片

圖片

ECCV’24論文鏈接::https://arxiv.org/abs/2404.01291

CVPR’24 SynData最佳論文鏈接:https://arxiv.org/abs/2406.13743

論文代碼:https://github.com/linzhiqiu/t2v_metrics

模型下載:https://huggingface.co/zhiqiulin/clip-flant5-xxl

VQAScore模型:https://huggingface.co/zhiqiulin/clip-flant5-xxl

GenAI-Bench數(shù)據(jù)集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench

這些成果已在ECCV和CVPR等頂會上發(fā)表,并被谷歌DeepMind用于評估其最新的Imagen3模型,被譽(yù)為當(dāng)前文生圖領(lǐng)域超越CLIP等模型的最佳評估方案!

背景介紹

近年來,文生圖模型(如DALL-E 3、Imagen3、Sora等)發(fā)展迅速,但如何準(zhǔn)確評估這些模型的表現(xiàn)仍是一個關(guān)鍵問題。

盡管許多公司采用人類評估(Human Evaluation)來提升結(jié)果的準(zhǔn)確性,但這種方式成本高、難以大規(guī)模應(yīng)用,而且缺乏可復(fù)現(xiàn)性。

在圖片生成領(lǐng)域,已有多種方法使用模型來自動評估(Automated Evaluation)生成圖像的表現(xiàn),其中常見的指標(biāo)包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。

然而,這些指標(biāo)真的足夠好嗎?

現(xiàn)有自動化指標(biāo)的不足

在評估兩張圖片的相似性(similarity)時,傳統(tǒng)指標(biāo)LPIPS等方法依靠預(yù)訓(xùn)練的圖像編碼器,將圖像特征嵌入后再計算距離。然而,這類方法只能評估圖像與圖像之間的相似度(image-to-image metric),而無法判斷文本和圖像之間的相似度(text-to-image metric)。

為了解決這一問題,當(dāng)前主流的文生圖評估采用了CLIPScore,通過獨(dú)立的圖像編碼器和文本編碼器,將圖像和文本嵌入到同一特征空間,并通過計算特征相似度來判斷它們的匹配程度。

圖片

然而,CLIPScore存在嚴(yán)重的「bag-of-words」問題:也就是說,CLIP在處理文本時可能忽略詞序,混淆像「月亮在牛上面」和「牛在月亮上面」這樣的句子。這使得模型難以準(zhǔn)確抓住復(fù)雜文本中的關(guān)鍵信息。

為了解決這一問題,CMU和Meta的研究團(tuán)隊提出了VQAScore,采用更強(qiáng)大的生成式VQA模型(如GPT-4o)來更準(zhǔn)確地評估文生圖模型:

圖片


VQAScore:一種簡單有效的評估指標(biāo)

研究團(tuán)隊基于GPT-4o等用于視覺問答(VQA)任務(wù)的生成式視覺語言模型,將圖像與提示詞之間的相似度定義為模型在回答「這個圖像是否顯示了[提示詞]?請回答是或否。」時給出「是」(Yes)答案的概率:

圖片

例如,在計算某張圖像與提示詞「牛在月亮上面」之間的相似度時,VQAScore會將圖像和問題「這個圖像是否顯示了『牛在月亮上面』?請回答是或否?!馆斎肽P?,并返回模型選擇「是」的概率。

圖片

另外,研究團(tuán)隊發(fā)現(xiàn),當(dāng)前主流的VQA模型(如LLaVA-1.5)使用了具備單向(auto-regressive)注意力機(jī)制的語言模型(如Llama)。這種機(jī)制導(dǎo)致模型在提取圖像特征時,無法提前獲取提示詞的完整信息。

為了更有效的提取視覺特征,研究團(tuán)隊使用開源數(shù)據(jù)訓(xùn)練了一個更強(qiáng)的CLIP-FlanT5 VQA模型。該模型采用了具備雙向注意力機(jī)制的語言模型FlanT5,使得圖像特征提取能夠根據(jù)輸入的提示詞動態(tài)調(diào)整。

研究表明,這一機(jī)制在提升VQA模型對復(fù)雜提示詞的理解方面效果顯著。

圖片

VQAScore比主流評估指標(biāo)更簡單高效。許多傳統(tǒng)指標(biāo)依賴大量人類標(biāo)注(如 ImageReward、PickScore)或私有模型(如GPT-4Vision)才能取得好表現(xiàn)。

相比之下,VQAScore具備以下核心優(yōu)勢:

1. 無需人類標(biāo)注:VQAScore能直接利用現(xiàn)有的VQA模型取得優(yōu)異表現(xiàn),無需在人工標(biāo)注數(shù)據(jù)上進(jìn)行額外微調(diào)。

2. 分?jǐn)?shù)更精準(zhǔn):使用GPT-4給圖片打分(如在0到100之間打分)時,模型往往會隨意給出高分(如90),而忽略圖片的真實(shí)質(zhì)量。相比之下,VQAScore使用概率值來判斷圖片與提示詞的相似度,結(jié)果更加精確。

VQAScore實(shí)驗(yàn)結(jié)果

研究人員在大量復(fù)雜圖文匹配基準(zhǔn)(如Winoground和EqBen)以及文生圖評估基準(zhǔn)(如Pick-a-pic和TIFA160)上對VQAScore進(jìn)行了測試。

結(jié)果顯示,VQAScore在所有圖像、視頻和3D生成任務(wù)的基準(zhǔn)上超越了CLIPScore等流行指標(biāo),取得了最佳表現(xiàn)。

圖片

圖片

值得注意的是,VQAScore采用了開源模型(CLIP-FlanT5),卻仍大幅超越了使用更強(qiáng)閉源模型(如PALI-17B和GPT-4)的方法(如VQ2、ViperGPT 等)。

此外,VQAScore也超越了依賴提示分解進(jìn)行視覺推理的先進(jìn)方法(如 CVPR'23最佳論文Visual Programming和ViperGPT等),進(jìn)一步驗(yàn)證了端到端評估方案的有效性。

最新的谷歌DeepMind Imagen3報告還指出,使用更強(qiáng)大的VQA模型(如 Gemini)可以進(jìn)一步提升VQAScore的表現(xiàn),凸顯了其在未來生成式模型評測中的潛力。

圖片


GenAI-Bench:由設(shè)計師收集的高難度文生圖基準(zhǔn)

為了更好地評估文生圖模型及其評估指標(biāo)的性能,研究團(tuán)隊推出了GenAI-Bench。該基準(zhǔn)包含1600個由設(shè)計師收集的復(fù)雜提示詞,覆蓋了10種生成模型(如DALL-E 3、Midjourney、SDXL等),并配有超過80,000條人工標(biāo)注。

圖片

GenAI-Bench相比較之前的基準(zhǔn)有以下優(yōu)勢:

1. 更具挑戰(zhàn)性:研究表明,大多數(shù)文生圖/視頻模型在GenAI-Bench上表現(xiàn)仍有不足,還有大量的提升空間。

2. 避免空洞詞匯:所有提示詞均經(jīng)過嚴(yán)格篩選,避免使用假大空的詞語,確保評估更具客觀性。

3. 細(xì)粒度技能分析:GenAI-Bench能提供更細(xì)致的技能分類和分析,幫助研究人員深入了解模型在不同能力上的具體表現(xiàn)。

圖片


GenAI-Rank:用VQAScore來提升文生圖表現(xiàn)

研究人員構(gòu)建了一個新的GenAI-Rank基準(zhǔn),為每個提示詞使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9張候選圖像。

研究表明,從這些候選圖像中返回VQAScore得分最高的圖像,可以顯著提升文生圖模型的效果。

圖片

這一方法無需微調(diào)生成模型本身,因此也能優(yōu)化(黑箱)私有模型,如DALL-E 3。

實(shí)驗(yàn)結(jié)果進(jìn)一步證明,VQAScore在圖像排序上比其他方法(如CLIPScore、PickScore等)更加有效。

圖片

結(jié)語

VQAScore和GenAI-Bench為文生圖模型提供了更精準(zhǔn)且全面的評估,已被Imagen3、VILA-U、RankDPO等多個項目用于更好地評估和優(yōu)化最新的生成式模型。研究團(tuán)隊已開源代碼和數(shù)據(jù)集,期待未來更多探索與進(jìn)展!

團(tuán)隊介紹

圖片

團(tuán)隊的一作林之秋(Zhiqiu Lin)是卡內(nèi)基梅隆大學(xué)的博士研究生,由Deva Ramanan教授指導(dǎo),專注于視覺-語言大模型的自動評估與優(yōu)化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等頂級會議上發(fā)表了十?dāng)?shù)篇論文,并曾榮獲最佳論文提名和最佳短論文獎等。其研究成果在生成模型和多模態(tài)學(xué)習(xí)領(lǐng)域受到了學(xué)術(shù)界和工業(yè)界的廣泛認(rèn)可。

圖片

Pengchuan Zhang是Meta AI(原Facebook AI研究院)的人工智能研究科學(xué)家,曾在微軟研究院擔(dān)任高級研究科學(xué)家。他的研究領(lǐng)域主要集中在深度學(xué)習(xí)、計算機(jī)視覺和多模態(tài)模型等方向,曾發(fā)表多項具有深遠(yuǎn)影響力的成果,例如AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在頂級會議如CVPR、ICCV、NeurIPS等發(fā)表了大量高影響力論文,是計算機(jī)視覺和多模態(tài)模型領(lǐng)域的領(lǐng)軍人物之一。

圖片

Deva Ramanan教授是計算機(jī)視覺領(lǐng)域的國際知名學(xué)者,現(xiàn)任卡內(nèi)基梅隆大學(xué)教授。他的研究涵蓋計算機(jī)視覺、機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,曾獲得多項頂級學(xué)術(shù)榮譽(yù),包括2009年的David Marr獎、2010年的PASCAL VOC終身成就獎、2012年的IEEE PAMI青年研究員獎、2012年《大眾科學(xué)》評選的「十位杰出科學(xué)家」之一、2013年美國國家科學(xué)院Kavli Fellow、2018年和2024年的Longuet-Higgins獎,以及因其代表性工作(如COCO數(shù)據(jù)集)獲得的Koenderink獎。此外,他的論文在CVPR、ECCV和ICCV上多次獲得最佳論文提名及榮譽(yù)獎。他的研究成果對視覺識別、自動駕駛、和人機(jī)交互等應(yīng)用產(chǎn)生了深遠(yuǎn)影響,是該領(lǐng)域極具影響力的科學(xué)家之一。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2009-01-18 09:44:54

MySQL5.1Sun

2025-05-08 09:10:30

2023-12-14 12:46:54

訓(xùn)練數(shù)據(jù)

2009-05-13 10:13:30

IntelNokiaoFone

2018-10-11 18:02:51

華為

2019-10-14 14:52:30

金蝶云互聯(lián)網(wǎng)云原生

2023-10-04 18:30:52

MetaAI

2014-07-23 14:06:19

敏捷場館華為

2011-07-07 14:23:56

HaiPad點(diǎn)心海爾

2013-04-17 16:18:59

2015-08-31 13:39:53

大數(shù)據(jù)解決方案先進(jìn)數(shù)通華為

2011-09-09 14:30:52

2015-12-15 17:58:54

金融安防云服務(wù)解決方案華為

2019-09-20 13:02:31

華為

2019-09-24 18:25:28

華為

2010-05-04 15:37:33

云計算

2015-09-23 15:30:57

華為訊方

2014-10-22 09:06:02

華為

2023-04-27 09:41:47

2018-03-24 20:23:06

華為開發(fā)者開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产一区 | 久久成人国产精品 | 中文字幕在线电影观看 | 欧美一区在线视频 | 亚洲激情视频在线 | 亚洲第1页| 亚洲 成人 在线 | 久久久久亚洲精品 | 久久国产精品一区二区 | 又黄又爽的网站 | 欧美日韩一区二区在线 | 在线免费观看黄色 | 欧美一级在线观看 | 欧美最猛性xxxxx亚洲精品 | 中文字幕国产一区 | 天天干视频| 国产精品2区 | 亚洲精品在线看 | 黄色网毛片 | 视频一区二区国产 | 国产98色在线 | 日韩 | 日韩免费视频 | 日韩成人免费视频 | 国产精品免费av | 美女天天操 | 久久国产精品视频免费看 | 国产高清精品一区二区三区 | 国产在线精品一区二区三区 | 一区二区三区高清 | 精品亚洲永久免费精品 | 久久精品国产一区二区电影 | a国产视频| 亚洲欧美中文字幕在线观看 | 宅女噜噜66国产精品观看免费 | 久久久成人免费视频 | 欧美精品 在线观看 | 日本成人福利视频 | 国产精品伦一区二区三级视频 | a黄毛片 | 日韩欧美视频 | 麻豆a级片|