成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

統(tǒng)一圖像和文字生成的MiniGPT-5來(lái)了:Token變Voken,模型不僅能續(xù)寫,還會(huì)自動(dòng)配圖了

人工智能 新聞
OpenAI 的 GPT-5 大模型似乎還遙遙無(wú)期,但已經(jīng)有研究者率先推出了創(chuàng)新視覺(jué)與語(yǔ)言交叉生成的模型 MiniGPT-5。這對(duì)于生成具有連貫文本描述的圖像具有重要意義。

大模型正在實(shí)現(xiàn)語(yǔ)言和視覺(jué)的跨越,有望無(wú)縫地理解和生成文本和圖像內(nèi)容。在最近的一系列研究中,多模態(tài)特征集成不僅是一種不斷發(fā)展的趨勢(shì),而且已經(jīng)帶來(lái)了從多模態(tài)對(duì)話到內(nèi)容創(chuàng)建工具等關(guān)鍵進(jìn)步。大型語(yǔ)言模型在文本理解和生成方面已經(jīng)展現(xiàn)出無(wú)與倫比的能力。然而,同時(shí)生成具有連貫文本敘述的圖像仍然是一個(gè)有待發(fā)展的領(lǐng)域。

近日,加州大學(xué)圣克魯茲分校的研究團(tuán)隊(duì)提出了 MiniGPT-5,這是一種以 「生成式 voken」概念為基礎(chǔ)的創(chuàng)新型交錯(cuò)視覺(jué)語(yǔ)言生成技術(shù)。 


  • 論文地址:https://browse.arxiv.org/pdf/2310.02239v1.pdf
  • 項(xiàng)目地址:https://github.com/eric-ai-lab/MiniGPT-5

通過(guò)特殊的視覺(jué) token「生成式 voken」,將 Stable Diffusion 機(jī)制與 LLM 相結(jié)合, MiniGPT-5 為熟練的多模態(tài)生成預(yù)示了一種新模式。同時(shí),本文提出的兩階段訓(xùn)練方法強(qiáng)調(diào)了無(wú)描述基礎(chǔ)階段的重要性,使模型在數(shù)據(jù)稀缺的情況下也能「茁壯成長(zhǎng)」。該方法的通用階段不需要特定領(lǐng)域的注釋,這使得本文解決方案與現(xiàn)有的方法截然不同。為了確保生成的文本和圖像和諧一致,本文的雙損失策略開始發(fā)揮作用,生成式 voken 方法和分類方法進(jìn)一步增強(qiáng)了這一效果。

在這些技術(shù)的基礎(chǔ)上,這項(xiàng)工作標(biāo)志著一種變革性的方法。通過(guò)使用 ViT(Vision Transformer)和 Qformer 以及大型語(yǔ)言模型,研究團(tuán)隊(duì)將多模態(tài)輸入轉(zhuǎn)換為生成式 voken,并與高分辨率的 Stable Diffusion2.1 無(wú)縫配對(duì),以實(shí)現(xiàn)上下文感知圖像生成。本文將圖像作為輔助輸入與指令調(diào)整方法相結(jié)合,并率先采用文本和圖像生成損失,從而擴(kuò)大了文本和視覺(jué)之間的協(xié)同作用。

MiniGPT-5 與 CLIP 約束等模型相匹配,巧妙地將擴(kuò)散模型與 MiniGPT-4 融合在一起,在不依賴特定領(lǐng)域注釋的情況下實(shí)現(xiàn)了較好的多模態(tài)結(jié)果。最重要的是,本文的策略可以利用多模態(tài)視覺(jué)語(yǔ)言基礎(chǔ)模型的進(jìn)步,為增強(qiáng)多模態(tài)生成能力提供新藍(lán)圖。

如下圖所示,除了原有的多模態(tài)理解和文本生成能力外,MiniGPT5 還能提供合理、連貫的多模態(tài)輸出:

本文貢獻(xiàn)體現(xiàn)在三個(gè)方面: 

  • 建議使用多模態(tài)編碼器,它代表了一種新穎的通用技術(shù),并已被證明比 LLM 和反轉(zhuǎn)生成式 vokens 更有效,并將其與 Stable Diffusion 相結(jié)合,生成交錯(cuò)的視覺(jué)和語(yǔ)言輸出(可進(jìn)行多模態(tài)生成的多模態(tài)語(yǔ)言模型)。
  • 重點(diǎn)介紹了一種新的兩階段訓(xùn)練策略,用于無(wú)描述多模態(tài)生成。單模態(tài)對(duì)齊階段從大量文本圖像對(duì)中獲取高質(zhì)量的文本對(duì)齊視覺(jué)特征。多模態(tài)學(xué)習(xí)階段包括一項(xiàng)新穎的訓(xùn)練任務(wù),即 prompt 語(yǔ)境生成,確保視覺(jué)和文本 prompt 能夠很好地協(xié)調(diào)生成。在訓(xùn)練階段加入無(wú)分類器指導(dǎo),進(jìn)一步提高了生成質(zhì)量。
  • 與其他多模態(tài)生成模型相比, MiniGPT-5 在 CC3M 數(shù)據(jù)集上取得了最先進(jìn)的性能。MiniGPT-5 還在 VIST 和 MMDialog 等著名數(shù)據(jù)集上建立了新的基準(zhǔn)。

接下來(lái),我們一起來(lái)看看該研究的細(xì)節(jié)。

方法概覽

為了使大型語(yǔ)言模型具備多模態(tài)生成能力,研究者引入了一個(gè)結(jié)構(gòu)化框架,將預(yù)訓(xùn)練好的多模態(tài)大型語(yǔ)言模型和文本到圖像生成模型整合在一起。為了解決不同模型領(lǐng)域之間的差異,他們引入了特殊的視覺(jué)符號(hào)「生成式 voken」(generative vokens),能夠直接在原始圖像上進(jìn)行訓(xùn)練。此外,還推進(jìn)了一種兩階段訓(xùn)練方法,并結(jié)合無(wú)分類器引導(dǎo)策略,以進(jìn)一步提高生成質(zhì)量。

圖片

多模態(tài)輸入階段

多模態(tài)大模型(如 MiniGPT-4)的最新進(jìn)展主要集中在多模態(tài)理解方面,能夠處理作為連續(xù)輸入的圖像。為了將其功能擴(kuò)展到多模態(tài)生成,研究者引入了專為輸出視覺(jué)特征而設(shè)計(jì)的生成式 vokens。此外,他們還在大語(yǔ)言模型(LLM)框架內(nèi)采用了參數(shù)效率高的微調(diào)技術(shù),用于多模態(tài)輸出學(xué)習(xí)。

多模態(tài)輸出生成

為了使生成式 token 與生成模型精確對(duì)齊,研究者制定了一個(gè)用于維度匹配的緊湊型映射模塊,并納入了若干監(jiān)督損失,包括文本空間損失和潛在擴(kuò)散模型損失。文本空間損失有助于模型學(xué)習(xí) token 的正確定位,而潛在擴(kuò)散損失則直接將 token 與適當(dāng)?shù)囊曈X(jué)特征對(duì)齊。由于生成式符號(hào)的特征直接由圖像引導(dǎo),因此該方法不需要全面的圖像描述,從而實(shí)現(xiàn)了無(wú)描述學(xué)習(xí)。

訓(xùn)練策略

鑒于文本域和圖像域之間存在不可忽略的領(lǐng)域偏移,研究者發(fā)現(xiàn)直接在有限的文本和圖像交錯(cuò)數(shù)據(jù)集上進(jìn)行訓(xùn)練可能會(huì)導(dǎo)致錯(cuò)位和圖像質(zhì)量下降。

因此,他們采用了兩種不同的訓(xùn)練策略來(lái)緩解這一問(wèn)題。第一種策略包括采用無(wú)分類器引導(dǎo)技術(shù),在整個(gè)擴(kuò)散過(guò)程中提高生成 token 的有效性;第二種策略分兩個(gè)階段展開:最初的預(yù)訓(xùn)練階段側(cè)重于粗略的特征對(duì)齊,隨后的微調(diào)階段致力于復(fù)雜的特征學(xué)習(xí)。

實(shí)驗(yàn)及結(jié)果

為了評(píng)估模型功效,研究者選擇了多個(gè)基準(zhǔn)進(jìn)行了一系列評(píng)估。實(shí)驗(yàn)旨在解決幾個(gè)關(guān)鍵問(wèn)題:

  • MiniGPT-5 能否生成可信的圖像和合理的文本?
  • 在單輪和多輪交錯(cuò)視覺(jué)語(yǔ)言生成任務(wù)中,MiniGPT-5 與其他 SOTA 模型相比性能如何?
  • 每個(gè)模塊的設(shè)計(jì)對(duì)整體性能有什么影響?

為了評(píng)估模型在不同訓(xùn)練階段的不同基準(zhǔn)上的性能,MiniGPT-5 的定量分析樣本如下圖 3 所示:

此處的評(píng)估橫跨視覺(jué)(圖像相關(guān)指標(biāo))和語(yǔ)言(文本指標(biāo))兩個(gè)領(lǐng)域,以展示所提模型的通用性和穩(wěn)健性。

VIST Final-Step 評(píng)估

第一組實(shí)驗(yàn)涉及單步評(píng)估,即根據(jù)最后一步的 prompt 模型生成相應(yīng)的圖像,結(jié)果如表 1 所示。

在所有三種設(shè)置中,MiniGPT-5 的性能都優(yōu)于微調(diào)后的 SD 2。值得注意的是,MiniGPT-5(LoRA)模型的 CLIP 得分在多種 prompt 類型中始終優(yōu)于其他變體,尤其是在結(jié)合圖像和文本 prompt 時(shí)。另一方面,F(xiàn)ID 分?jǐn)?shù)凸顯了 MiniGPT-5(前綴)模型的競(jìng)爭(zhēng)力,表明圖像嵌入質(zhì)量(由 CLIP 分?jǐn)?shù)反映)與圖像的多樣性和真實(shí)性(由 FID 分?jǐn)?shù)反映)之間可能存在權(quán)衡。與直接在 VIST 上進(jìn)行訓(xùn)練而不包含單模態(tài)配準(zhǔn)階段的模型(MiniGPT-5 w/o UAS)相比,雖然該模型保留了生成有意義圖像的能力,但圖像質(zhì)量和一致性明顯下降。這一觀察結(jié)果凸顯了兩階段訓(xùn)練策略的重要性。

圖片

VIST Multi-Step 評(píng)估

在更詳細(xì)全面的評(píng)估中,研究者系統(tǒng)地為模型提供了先前的歷史背景,并隨后在每個(gè)步驟中對(duì)生成的圖像和敘述進(jìn)行評(píng)估。

表 2 和表 3 概述了這些實(shí)驗(yàn)的結(jié)果,分別概括了圖像和語(yǔ)言指標(biāo)的性能。實(shí)驗(yàn)結(jié)果表明,MiniGPT-5 能夠在所有數(shù)據(jù)中利用 long-horizontal 多模態(tài)輸入 prompt 生成連貫、高質(zhì)量的圖像,而不會(huì)影響原始模型的多模態(tài)理解能力。這凸顯了 MiniGPT-5 在不同環(huán)境中的功效。

圖片

圖片

VIST 人類評(píng)估

如表 4 所示,MiniGPT-5 在 57.18% 的情況下生成了更貼切的文本敘述,在 52.06% 的情況下提供了更出色的圖像質(zhì)量,在 57.62% 的場(chǎng)景中生成了更連貫的多模態(tài)輸出。與采用文本到圖像 prompt 敘述而不包含虛擬語(yǔ)氣的兩階段基線相比,這些數(shù)據(jù)明顯展示了其更強(qiáng)的多模態(tài)生成能力。

圖片

MMDialog 多輪評(píng)估

結(jié)果如表 5 所示,MiniGPT-5 在生成更準(zhǔn)確的文本回復(fù)方面優(yōu)于基線模型 Divter。雖然生成的圖像質(zhì)量相似,但與基準(zhǔn)模型相比,MiniGPT-5 在 MM 相關(guān)性方面更勝一籌,表明其可以更好地學(xué)習(xí)如何適當(dāng)定位圖像生成,并生成高度一致的多模態(tài)響應(yīng)。

圖片

效果如何呢?我們來(lái)看一下 MiniGPT-5 的輸出結(jié)果。下圖 7 為 MiniGPT-5 與 CC3M 驗(yàn)證集上的基線模型比較。

圖片

下圖 8 為 MiniGPT-5 與 VIST 驗(yàn)證集上基線模型的比較。

圖片

下圖 9 為 MiniGPT-5 與 MMDialog 測(cè)試集上基線模型的比較。

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2013-02-25 10:33:52

Windows 8Windows Blu

2022-07-20 13:55:28

算法AI人工智能

2023-07-17 10:32:41

Wi-Fi7太網(wǎng)供

2023-09-21 10:31:06

人工智能模型

2023-03-16 19:17:57

2012-03-12 10:31:17

XeonE5-2600

2024-09-23 15:40:00

2018-08-24 06:13:18

IPv6SDNIPv4

2022-12-05 11:44:49

PrintDebugIceCream

2009-10-15 08:52:42

Windows 7銷售市場(chǎng)

2011-06-03 09:33:01

Windows 8

2025-05-27 15:59:41

AI工具模型

2021-04-16 15:02:38

Python 開發(fā)編程語(yǔ)言

2022-12-08 15:20:40

2021-08-13 14:08:24

Windows 11Windows微軟

2023-07-21 07:37:45

AMD平臺(tái)測(cè)試

2020-02-03 13:55:49

技術(shù)研發(fā)指標(biāo)

2021-04-19 11:45:31

Pythonswitch編程語(yǔ)言

2015-04-21 14:54:39

HTML5混合式App
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美一级在线 | 国产精品视频不卡 | 国产精品一区二区三 | 欧美精品一二三 | 亚洲精品免费在线观看 | 国产粉嫩尤物极品99综合精品 | 日本一区二区视频 | 男人阁久久 | 最新中文字幕在线 | 在线免费观看黄色 | 亚洲综合大片69999 | 羞羞视频网| 国产视频观看 | 久久男女视频 | 毛片区| 国产成人一区 | 亚洲精品久久久久久久不卡四虎 | 亚洲精品久久久久久一区二区 | 国产成人精品久久二区二区91 | 日韩免费视频一区二区 | 成人免费观看男女羞羞视频 | 日韩精品二区 | 欧美一级黄色网 | 一区二区三区四区日韩 | 久草新在线| 国产精品1区2区3区 中文字幕一区二区三区四区 | 蜜桃在线播放 | 羞羞网站在线观看 | 国产精品一区二区三级 | 日韩av在线免费 | 一二区视频 | 国产激情在线看 | 欧美综合国产精品久久丁香 | 欧美激情视频网站 | 国产精品国产 | 欧美中文字幕一区二区三区亚洲 | 欧美精品一二三 | 玖玖国产精品视频 | 五月天综合影院 | 精品国产青草久久久久96 | 国产精品日韩一区 |