把圖像視為外語(yǔ)，快手、北大多模態(tài)大模型媲美DALLE-3

作者：機(jī)器之心 2024-01-30 13:17:00

動(dòng)態(tài)視覺分詞統(tǒng)一圖文表示，快手與北大合作提出基座模型 LaVIT 刷榜多模態(tài)理解與生成任務(wù)。

當(dāng)前的大型語(yǔ)言模型如 GPT、LLaMA 等在自然語(yǔ)言處理領(lǐng)域取得了顯著進(jìn)展，能夠理解和生成復(fù)雜的文本內(nèi)容。但你是否想過，如果能夠?qū)⒋笳Z(yǔ)言模型這強(qiáng)大的理解和生成能力遷移到多模態(tài)數(shù)據(jù)上，就可以輕松理解海量的圖像與視頻，并輔助創(chuàng)作圖文并茂的內(nèi)容。近期，來自快手和北大合作的最新多模態(tài)大模型 LaVIT, 正在讓這個(gè)想法逐步變?yōu)楝F(xiàn)實(shí)。

論文標(biāo)題：Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址：https://arxiv.org/abs/2309.04669
代碼模型地址：https://github.com/jy0205/LaVIT

模型總覽

LaVIT 作為一個(gè)新型的通用多模態(tài)基礎(chǔ)模型，可以像語(yǔ)言模型那樣，既能夠理解也能生成視覺內(nèi)容。LaVIT 繼承了大語(yǔ)言模型成功的訓(xùn)練范式，即以自回歸的方式預(yù)測(cè)下一個(gè)圖像或文本 token。在訓(xùn)練完成后，其可以充當(dāng)一個(gè)多模態(tài)通用接口，無(wú)需進(jìn)一步的微調(diào)，就可以執(zhí)行多模態(tài)理解和生成任務(wù)。例如，LaVIT 具有以下的能力：

實(shí)現(xiàn)高質(zhì)量文本到圖像的生成：LaVIT 能夠根據(jù)給定的文本提示生成高質(zhì)量、多種縱橫比和高美感的圖像。其圖像生成能力與最先進(jìn)的圖像生成模型（如 Parti、SDXL 和 DALLE-3）相媲美。

根據(jù)多模態(tài)提示進(jìn)行圖像生成：由于在 LaVIT 中，圖像和文本都被統(tǒng)一表示為離散化的 token，因此其可以接受多種模態(tài)組合（例如文本、圖像 + 文本、圖像 + 圖像）作為提示，生成相應(yīng)的圖像，而無(wú)需進(jìn)行任何微調(diào)。

理解圖像內(nèi)容并回答問題：在給定輸入圖像的情況下，LaVIT 能夠閱讀圖像內(nèi)容并理解其語(yǔ)義。例如，模型可以為輸入的圖像提供 caption 并回答相應(yīng)的問題。

方法概覽

LaVIT 的模型結(jié)構(gòu)如下圖所示，其整個(gè)優(yōu)化過程包括兩個(gè)階段：

圖：LaVIT 模型的整體架構(gòu)

階段 1: 動(dòng)態(tài)視覺分詞器

為了能夠像自然語(yǔ)言一樣理解和生成視覺內(nèi)容，LaVIT 引入了一個(gè)設(shè)計(jì)良好的視覺分詞器，用于將視覺內(nèi)容（連續(xù)信號(hào)）轉(zhuǎn)換為像文本一樣的 token 序列，就像 LLM 能夠理解的外語(yǔ)一樣。作者認(rèn)為，為了實(shí)現(xiàn)統(tǒng)一視覺和語(yǔ)言的建模，該視覺分詞器 (Tokenizer) 應(yīng)該具有以下兩個(gè)特性：

離散化：視覺 token 應(yīng)該被表示為像文本一樣的離散化形式。這樣對(duì)于兩種模態(tài)采用統(tǒng)一的表示形式，有利于 LaVIT 在一個(gè)統(tǒng)一的自回歸生成式訓(xùn)練框架下，使用相同的分類損失進(jìn)行多模態(tài)建模優(yōu)化。
動(dòng)態(tài)化：與文本 token 不同的是，圖像 patch 之間有著顯著的相互依賴性，這使得從其他圖像 patch 中推斷另一個(gè) patch 相對(duì)簡(jiǎn)單。因此，這種依賴性會(huì)降低原本 LLM 的 next-token prediction 優(yōu)化目標(biāo)的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗余性，其根據(jù)不同圖像語(yǔ)義復(fù)雜度的不同，編碼出動(dòng)態(tài)的視覺 token 數(shù)量。這樣對(duì)于復(fù)雜程度不同的圖像，采用動(dòng)態(tài)的 token 編碼也進(jìn)一步提高了預(yù)訓(xùn)練的效率，避免了冗余的 token 計(jì)算。

下圖是 LaVIT 所提出的視覺分詞器結(jié)構(gòu)：

圖：(a) 動(dòng)態(tài)視覺 token 生成器 (b) token 合并器

該動(dòng)態(tài)視覺分詞器包括 token 選擇器和 token 合并器。如圖所示， token 選擇器用來選擇最具信息的圖像區(qū)塊，而 token 合并器則將那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上，實(shí)現(xiàn)對(duì)冗余 token 的 merging。整個(gè)動(dòng)態(tài)視覺分詞器則通過最大限度地重構(gòu)輸入圖像的語(yǔ)義進(jìn)行訓(xùn)練。

Token 選擇器

Token 選擇器接收 N 個(gè)圖像區(qū)塊級(jí)的特征作為輸入，其目標(biāo)是評(píng)估每個(gè)圖像區(qū)塊的重要性并選擇信息量最高的區(qū)塊，以充分代表整個(gè)圖像的語(yǔ)義。為實(shí)現(xiàn)這一目標(biāo)，采用輕量級(jí)模塊，由多個(gè) MLP 層組成，用于預(yù)測(cè)分布 π。通過從分布 π 中采樣，生成一個(gè)二進(jìn)制決策 mask，用于指示是否保留相應(yīng)的圖像區(qū)塊。

Token 合并器

Token 合并器據(jù)生成的決策掩碼，將 N 個(gè)圖像區(qū)塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丟棄 X_d 不同，token 合并器可以最大限度地保留輸入圖像的詳細(xì)語(yǔ)義。token 合并器由 L 個(gè)堆疊的塊組成，每個(gè)塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中， X_r 中的每個(gè) token 只關(guān)注其前面的 token，以確保與 LLM 中的文本 token 形式一致。與雙向自注意相比，這種策略表現(xiàn)更好。交叉注意力層將保留的 token X_r 作為 query，并根據(jù)它們?cè)谡Z(yǔ)義上的相似性合并 X_d 中的 token。

階段 2: 統(tǒng)一的生成式預(yù)訓(xùn)練

經(jīng)過視覺分詞器處理后的視覺 token 與文本 token 相連接形成多模態(tài)序列作為訓(xùn)練時(shí)的輸入。為了區(qū)分兩種模態(tài)，作者在圖像 token 序列的開頭和結(jié)尾插入了特殊 token ：[IMG] 和 [/IMG]，用于表示視覺內(nèi)容的開始和結(jié)束。為了能夠生成文本和圖像，LaVIT 采用兩種圖文連接形式：[image, text] 和 [text; image]。

對(duì)于這些多模態(tài)輸入序列，LaVIT 采用統(tǒng)一的、自回歸方式來直接最大化每個(gè)多模態(tài)序列的似然性進(jìn)行預(yù)訓(xùn)練。這樣在表示空間和訓(xùn)練方式上的完全統(tǒng)一，有助于 LLM 更好地學(xué)習(xí)多模態(tài)交互和對(duì)齊。在預(yù)訓(xùn)練完成后，LaVIT 具有感知圖像的能力，可以像處理文本一樣理解和生成圖像。

實(shí)驗(yàn)

零樣本多模態(tài)理解

LaVIT 在圖像字幕生成（NoCaps、Flickr30k）和視覺問答（VQAv2、OKVQA、GQA、VizWiz）等零樣本多模態(tài)理解任務(wù)上取得了領(lǐng)先的性能。

表 1 零樣本的多模態(tài)理解任務(wù)評(píng)估

零樣本多模態(tài)生成

在這個(gè)實(shí)驗(yàn)中，由于所提出的視覺 tokenizer 能夠?qū)D像表示為離散化 token，LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成圖像的能力。作者對(duì)模型進(jìn)行了零樣本文本條件下的圖像合成性能的定量評(píng)估，比較結(jié)果如表 2 所示。

表 2 不同模型的零樣本文本到圖像生成性能

從表中可以看出，LaVIT 的表現(xiàn)優(yōu)于所有其他多模態(tài)語(yǔ)言模型。與 Emu 相比，LaVIT 在更小的 LLM 模型上取得了進(jìn)一步改進(jìn)，展現(xiàn)了出色的視覺 - 語(yǔ)言對(duì)齊能力。此外，LaVIT 在使用更少的訓(xùn)練數(shù)據(jù)的情況下，實(shí)現(xiàn)了與最先進(jìn)的文本到圖像專家 Parti 可比的性能。

多模態(tài)提示圖像生成

LaVIT 能夠在無(wú)需進(jìn)行任何微調(diào)的情況下，無(wú)縫地接受多種模態(tài)組合作為提示，生成相應(yīng)的圖像，而無(wú)需進(jìn)行任何微調(diào)。LaVIT 生成的圖像能夠準(zhǔn)確反映給定多模態(tài)提示的風(fēng)格和語(yǔ)義。而且它可以通過輸入的多模態(tài)提示修改原始輸入圖像。在沒有額外微調(diào)的下游數(shù)據(jù)的情況下，傳統(tǒng)的圖像生成模型如 Stable Diffusion 無(wú)法達(dá)到這種能力。

多模態(tài)圖像生成結(jié)果的示例

定性分析

如下圖所示，LaVIT 的動(dòng)態(tài)分詞器可以根據(jù)圖像內(nèi)容動(dòng)態(tài)選擇最具信息量的圖像塊，學(xué)習(xí)到的代碼本可以產(chǎn)生具有高層語(yǔ)義的視覺編碼。

動(dòng)態(tài)視覺分詞器（左）和學(xué)習(xí)到的 codebook（右）的可視化

總結(jié)

LaVIT 的出現(xiàn)為多模態(tài)任務(wù)的處理又提供了一種創(chuàng)新范式，通過使用動(dòng)態(tài)視覺分詞器將視覺和語(yǔ)言表示為統(tǒng)一的離散 token 表示，繼承了 LLM 成功的自回歸生成學(xué)習(xí)范式。通過在統(tǒng)一生成目標(biāo)下進(jìn)行優(yōu)化，LaVIT 可以將圖像視為一種外語(yǔ)，像文本一樣理解和生成它們。這一方法的成功為未來多模態(tài)研究的發(fā)展方向提供了新的啟示，利用 LLM 強(qiáng)大的推理能力，實(shí)現(xiàn)更智能、更全面的多模態(tài)理解和生成打開新的可能性。

責(zé)任編輯：張燕妮來源：機(jī)器之心