成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

把圖像視為外語(yǔ),快手、北大多模態(tài)大模型媲美DALLE-3

人工智能 新聞
動(dòng)態(tài)視覺分詞統(tǒng)一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務(wù)。

當(dāng)前的大型語(yǔ)言模型如 GPT、LLaMA 等在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展,能夠理解和生成復(fù)雜的文本內(nèi)容。但你是否想過,如果能夠?qū)⒋笳Z(yǔ)言模型這強(qiáng)大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上,就可以輕松理解海量的圖像與視頻,并輔助創(chuàng)作圖文并茂的內(nèi)容。近期,來自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個(gè)想法逐步變?yōu)楝F(xiàn)實(shí)。

圖片


  • 論文標(biāo)題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
  • 論文地址:https://arxiv.org/abs/2309.04669
  • 代碼模型地址:https://github.com/jy0205/LaVIT

模型總覽

LaVIT 作為一個(gè)新型的通用多模態(tài)基礎(chǔ)模型,可以像語(yǔ)言模型那樣,既能夠理解也能生成視覺內(nèi)容。LaVIT 繼承了大語(yǔ)言模型成功的訓(xùn)練范式,即以自回歸的方式預(yù)測(cè)下一個(gè)圖像或文本 token。在訓(xùn)練完成后,其可以充當(dāng)一個(gè)多模態(tài)通用接口,無(wú)需進(jìn)一步的微調(diào),就可以執(zhí)行多模態(tài)理解和生成任務(wù)。例如,LaVIT 具有以下的能力:

實(shí)現(xiàn)高質(zhì)量文本到圖像的生成:LaVIT 能夠根據(jù)給定的文本提示生成高質(zhì)量、多種縱橫比和高美感的圖像。其圖像生成能力與最先進(jìn)的圖像生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。

根據(jù)多模態(tài)提示進(jìn)行圖像生成:由于在 LaVIT 中,圖像和文本都被統(tǒng)一表示為離散化的 token,因此其可以接受多種模態(tài)組合(例如文本、圖像 + 文本、圖像 + 圖像)作為提示,生成相應(yīng)的圖像,而無(wú)需進(jìn)行任何微調(diào)。

理解圖像內(nèi)容并回答問題:在給定輸入圖像的情況下,LaVIT 能夠閱讀圖像內(nèi)容并理解其語(yǔ)義。例如,模型可以為輸入的圖像提供 caption 并回答相應(yīng)的問題。

圖片

方法概覽

LaVIT 的模型結(jié)構(gòu)如下圖所示,其整個(gè)優(yōu)化過程包括兩個(gè)階段:

圖:LaVIT 模型的整體架構(gòu)

階段 1: 動(dòng)態(tài)視覺分詞器

為了能夠像自然語(yǔ)言一樣理解和生成視覺內(nèi)容,LaVIT 引入了一個(gè)設(shè)計(jì)良好的視覺分詞器,用于將視覺內(nèi)容(連續(xù)信號(hào))轉(zhuǎn)換為像文本一樣的 token 序列,就像 LLM 能夠理解的外語(yǔ)一樣。作者認(rèn)為,為了實(shí)現(xiàn)統(tǒng)一視覺和語(yǔ)言的建模,該視覺分詞器 (Tokenizer) 應(yīng)該具有以下兩個(gè)特性:

  1. 離散化:視覺 token 應(yīng)該被表示為像文本一樣的離散化形式。這樣對(duì)于兩種模態(tài)采用統(tǒng)一的表示形式,有利于 LaVIT 在一個(gè)統(tǒng)一的自回歸生成式訓(xùn)練框架下,使用相同的分類損失進(jìn)行多模態(tài)建模優(yōu)化。
  2. 動(dòng)態(tài):與文本 token 不同的是,圖像 patch 之間有著顯著的相互依賴性,這使得從其他圖像 patch 中推斷另一個(gè) patch 相對(duì)簡(jiǎn)單。因此,這種依賴性會(huì)降低原本 LLM 的 next-token prediction 優(yōu)化目標(biāo)的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗余性,其根據(jù)不同圖像語(yǔ)義復(fù)雜度的不同,編碼出動(dòng)態(tài)的視覺 token 數(shù)量。這樣對(duì)于復(fù)雜程度不同的圖像,采用動(dòng)態(tài)的 token 編碼也進(jìn)一步提高了預(yù)訓(xùn)練的效率,避免了冗余的 token 計(jì)算。

下圖是 LaVIT 所提出的視覺分詞器結(jié)構(gòu):

圖片

圖:(a) 動(dòng)態(tài)視覺 token 生成器 (b) token 合并器

該動(dòng)態(tài)視覺分詞器包括 token 選擇器和 token 合并器。如圖所示, token 選擇器用來選擇最具信息的圖像區(qū)塊,而 token 合并器則將那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上,實(shí)現(xiàn)對(duì)冗余 token 的 merging。整個(gè)動(dòng)態(tài)視覺分詞器則通過最大限度地重構(gòu)輸入圖像的語(yǔ)義進(jìn)行訓(xùn)練。

Token 選擇器

Token 選擇器接收 N 個(gè)圖像區(qū)塊級(jí)的特征作為輸入,其目標(biāo)是評(píng)估每個(gè)圖像區(qū)塊的重要性并選擇信息量最高的區(qū)塊,以充分代表整個(gè)圖像的語(yǔ)義。為實(shí)現(xiàn)這一目標(biāo),采用輕量級(jí)模塊,由多個(gè) MLP 層組成,用于預(yù)測(cè)分布 π。通過從分布 π 中采樣,生成一個(gè)二進(jìn)制決策 mask,用于指示是否保留相應(yīng)的圖像區(qū)塊。

Token 合并器

Token 合并器據(jù)生成的決策掩碼,將 N 個(gè)圖像區(qū)塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丟棄 X_d 不同,token 合并器可以最大限度地保留輸入圖像的詳細(xì)語(yǔ)義。token 合并器由 L 個(gè)堆疊的塊組成,每個(gè)塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中, X_r 中的每個(gè) token 只關(guān)注其前面的 token,以確保與 LLM 中的文本 token 形式一致。與雙向自注意相比,這種策略表現(xiàn)更好。交叉注意力層將保留的 token X_r 作為 query,并根據(jù)它們?cè)谡Z(yǔ)義上的相似性合并 X_d 中的 token。

階段 2: 統(tǒng)一的生成式預(yù)訓(xùn)練

經(jīng)過視覺分詞器處理后的視覺 token 與文本 token 相連接形成多模態(tài)序列作為訓(xùn)練時(shí)的輸入。為了區(qū)分兩種模態(tài),作者在圖像 token 序列的開頭和結(jié)尾插入了特殊 token :[IMG] 和 [/IMG],用于表示視覺內(nèi)容的開始和結(jié)束。為了能夠生成文本和圖像,LaVIT 采用兩種圖文連接形式:[image, text] 和 [text; image]。

對(duì)于這些多模態(tài)輸入序列,LaVIT 采用統(tǒng)一的、自回歸方式來直接最大化每個(gè)多模態(tài)序列的似然性進(jìn)行預(yù)訓(xùn)練。這樣在表示空間和訓(xùn)練方式上的完全統(tǒng)一,有助于 LLM 更好地學(xué)習(xí)多模態(tài)交互和對(duì)齊。在預(yù)訓(xùn)練完成后,LaVIT 具有感知圖像的能力,可以像處理文本一樣理解和生成圖像。

實(shí)驗(yàn)

零樣本多模態(tài)理解

LaVIT 在圖像字幕生成(NoCaps、Flickr30k)和視覺問答(VQAv2、OKVQA、GQA、VizWiz)等零樣本多模態(tài)理解任務(wù)上取得了領(lǐng)先的性能。

圖片

表 1 零樣本的多模態(tài)理解任務(wù)評(píng)估

零樣本多模態(tài)生成

在這個(gè)實(shí)驗(yàn)中,由于所提出的視覺 tokenizer 能夠?qū)D像表示為離散化 token,LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成圖像的能力。作者對(duì)模型進(jìn)行了零樣本文本條件下的圖像合成性能的定量評(píng)估,比較結(jié)果如表 2 所示。

圖片

表 2 不同模型的零樣本文本到圖像生成性能

從表中可以看出,LaVIT 的表現(xiàn)優(yōu)于所有其他多模態(tài)語(yǔ)言模型。與 Emu 相比,LaVIT 在更小的 LLM 模型上取得了進(jìn)一步改進(jìn),展現(xiàn)了出色的視覺 - 語(yǔ)言對(duì)齊能力。此外,LaVIT 在使用更少的訓(xùn)練數(shù)據(jù)的情況下,實(shí)現(xiàn)了與最先進(jìn)的文本到圖像專家 Parti 可比的性能。

多模態(tài)提示圖像生成

LaVIT 能夠在無(wú)需進(jìn)行任何微調(diào)的情況下,無(wú)縫地接受多種模態(tài)組合作為提示,生成相應(yīng)的圖像,而無(wú)需進(jìn)行任何微調(diào)。LaVIT 生成的圖像能夠準(zhǔn)確反映給定多模態(tài)提示的風(fēng)格和語(yǔ)義。而且它可以通過輸入的多模態(tài)提示修改原始輸入圖像。在沒有額外微調(diào)的下游數(shù)據(jù)的情況下,傳統(tǒng)的圖像生成模型如 Stable Diffusion 無(wú)法達(dá)到這種能力。

圖片

多模態(tài)圖像生成結(jié)果的示例

定性分析

如下圖所示,LaVIT 的動(dòng)態(tài)分詞器可以根據(jù)圖像內(nèi)容動(dòng)態(tài)選擇最具信息量的圖像塊,學(xué)習(xí)到的代碼本可以產(chǎn)生具有高層語(yǔ)義的視覺編碼。

圖片

動(dòng)態(tài)視覺分詞器(左)和學(xué)習(xí)到的 codebook(右)的可視化

總結(jié)

LaVIT 的出現(xiàn)為多模態(tài)任務(wù)的處理又提供了一種創(chuàng)新范式,通過使用動(dòng)態(tài)視覺分詞器將視覺和語(yǔ)言表示為統(tǒng)一的離散 token 表示,繼承了 LLM 成功的自回歸生成學(xué)習(xí)范式。通過在統(tǒng)一生成目標(biāo)下進(jìn)行優(yōu)化,LaVIT 可以將圖像視為一種外語(yǔ),像文本一樣理解和生成它們。這一方法的成功為未來多模態(tài)研究的發(fā)展方向提供了新的啟示,利用 LLM 強(qiáng)大的推理能力,實(shí)現(xiàn)更智能、更全面的多模態(tài)理解和生成打開新的可能性。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-03-20 13:18:46

模型多模態(tài)體系

2023-11-29 15:00:00

數(shù)據(jù)訓(xùn)練

2025-01-08 08:21:16

2025-02-18 09:10:00

2025-06-09 08:50:00

2024-07-16 13:18:36

2024-08-13 15:00:00

大模型提示學(xué)習(xí)

2025-02-07 11:00:00

模型開源AI

2024-10-24 23:37:33

2021-01-18 15:28:13

加密貨幣比特幣貨幣

2025-04-28 14:13:43

開源SOTA多模態(tài)

2023-09-12 13:59:41

OpenAI數(shù)據(jù)集

2025-04-10 06:30:00

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-10-16 12:31:17

人工智能數(shù)據(jù)

2023-09-28 07:24:13

KOSMOS模型文檔

2025-04-28 09:10:00

2024-09-25 14:53:00

2024-07-29 08:52:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区二区在线播放视频 | 国产精品美女久久久久久久网站 | 在线看黄免费 | 欧美日一区二区 | 欧美日韩在线视频观看 | 久久99精品久久久久婷婷 | 深夜福利影院 | 久久精品黄色 | 久久鲁视频 | 盗摄精品av一区二区三区 | 九色 在线 | 国产精品成人在线观看 | 成人亚洲一区 | 黄视频网站免费观看 | av色站| 午夜资源 | 亚洲国产中文在线 | 91麻豆精品国产91久久久久久 | 在线播放国产一区二区三区 | 日韩福利| 草草草草视频 | 国产精品伦理一区 | 天天天天操 | 中文字幕日韩欧美 | 欧美亚洲国产成人 | 国产日韩欧美电影 | 亚洲经典一区 | 最新国产在线 | 91久久久久久久久久久 | 午夜精品一区二区三区在线观看 | 久久国产区 | 国产一二区免费视频 | 狠狠干狠狠插 | 久久av一区二区三区 | 91亚洲欧美| 男人天堂社区 | 国产一区二区三区精品久久久 | 九九久久这里只有精品 | 久久国产亚洲 | 亚洲福利精品 | 中文字幕视频在线看5 |