多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型精華

angel

發(fā)布于 2025-5-12 08:36

瀏覽

0收藏

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2505.02567

開源鏈接：https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models

亮點直擊

闡述多模態(tài)理解與文生圖模型的基礎(chǔ)概念與最新進(jìn)展;
繼而梳理現(xiàn)有統(tǒng)一模型，將其歸納為三大架構(gòu)范式：基于擴散的架構(gòu)、基于自回歸的架構(gòu)，以及融合自回歸與擴散機制的混合架構(gòu);
整理了適配統(tǒng)一模型的數(shù)據(jù)集與評測基準(zhǔn)，為后續(xù)研究提供資源支持;
探討了這一新興領(lǐng)域面臨的核心挑戰(zhàn)，包括分詞策略、跨模態(tài)注意力機制與數(shù)據(jù)問題。

近年來，多模態(tài)理解模型與圖像生成模型均取得了顯著進(jìn)展。盡管二者各自取得了成功，這兩個領(lǐng)域卻沿著獨立的路徑發(fā)展，形成了截然不同的架構(gòu)范式：自回歸架構(gòu)主導(dǎo)了多模態(tài)理解領(lǐng)域，而擴散模型則成為圖像生成的基石。近期，構(gòu)建統(tǒng)一框架以整合這兩類任務(wù)的研究興趣日益增長。GPT-4o展現(xiàn)的新能力正是這一趨勢的例證，凸顯了統(tǒng)一化發(fā)展的潛力。然而，兩種架構(gòu)間的顯著差異帶來了重大挑戰(zhàn)。為清晰梳理當(dāng)前研究進(jìn)展，本文系統(tǒng)性地綜述了該領(lǐng)域成果，旨在為未來研究提供指引。

引子

近年來，大語言模型（LLM）的快速發(fā)展——如LLaMa、PanGu、Qwen和GPT——徹底改變了人工智能領(lǐng)域。這些模型在規(guī)模與能力上的持續(xù)擴展，推動了跨領(lǐng)域應(yīng)用的突破性進(jìn)展。與此同時，LLM已延伸至多模態(tài)領(lǐng)域，催生出LLaVa、Qwen-VL、InternVL、Ovis和GPT4等強大的多模態(tài)理解模型。這些模型不僅實現(xiàn)了基礎(chǔ)圖像描述功能，更能基于用戶指令執(zhí)行復(fù)雜推理任務(wù)。另一方面，圖像生成技術(shù)也取得顯著進(jìn)步，SD系列和FLUX等模型已能生成高度符合用戶需求的高質(zhì)量圖像。

當(dāng)前LLM與多模態(tài)理解模型主要采用自回歸生成架構(gòu)，其基于解碼器唯一結(jié)構(gòu)和下一詞元預(yù)測機制實現(xiàn)序列化文本生成。而文生圖領(lǐng)域則沿不同路徑發(fā)展：早期以生成對抗網(wǎng)絡(luò)（GAN）為主導(dǎo)，后轉(zhuǎn)向基于擴散的模型。這類模型結(jié)合UNet、DiT等架構(gòu)與CLIP、T5等先進(jìn)文本編碼器。盡管已有研究嘗試采用LLM架構(gòu)進(jìn)行圖像生成，擴散模型目前仍是性能最優(yōu)的解決方案。

雖然自回歸模型在圖像生成質(zhì)量上遜于擴散方法，但其與LLM的結(jié)構(gòu)一致性對構(gòu)建統(tǒng)一多模態(tài)系統(tǒng)極具吸引力。能同時理解與生成多模態(tài)內(nèi)容的統(tǒng)一模型潛力巨大：既可基于復(fù)雜指令生成圖像，又能推理視覺數(shù)據(jù)并通過生成輸出實現(xiàn)多模態(tài)分析可視化。2025年3月GPT-4o增強能力的發(fā)布進(jìn)一步凸顯這一潛力，引發(fā)了學(xué)界對統(tǒng)一化的廣泛關(guān)注。

然而，設(shè)計此類統(tǒng)一框架面臨重大挑戰(zhàn)：需要整合自回歸模型在推理與文本生成上的優(yōu)勢，以及擴散模型在高保真圖像合成上的魯棒性。若干關(guān)鍵問題尚待解決，例如如何為自回歸生成實現(xiàn)有效的圖像分詞。現(xiàn)有方案中，部分研究采用擴散模型中常用的VAE或VQ-GAN及其變體，另一些則使用EVA-CLIP和OpenAI-CLIP等語義編碼器。此外，雖然離散詞元是自回歸模型中文本處理的標(biāo)配，新近研究表明連續(xù)表征可能更適合圖像詞元。除分詞策略外，混合架構(gòu)通過將并行擴散策略與序列化自回歸生成相結(jié)合，為純自回歸架構(gòu)提供了有前景的替代方案。由此可見，統(tǒng)一多模態(tài)模型的圖像分詞技術(shù)與架構(gòu)設(shè)計仍處于早期探索階段。

為全面梳理當(dāng)前統(tǒng)一多模態(tài)模型的研究現(xiàn)狀（如下圖1所示），助力未來研究發(fā)展，本文展開系統(tǒng)性綜述。本文首先介紹多模態(tài)理解與圖像生成的基礎(chǔ)概念及最新進(jìn)展，涵蓋自回歸與擴散兩類范式；繼而回顧現(xiàn)有統(tǒng)一模型，將其歸類為三大架構(gòu)范式：基于擴散的架構(gòu)、基于自回歸的架構(gòu)，以及融合自回歸與擴散機制的混合架構(gòu)。針對自回歸與混合類別，本文進(jìn)一步根據(jù)圖像分詞策略進(jìn)行細(xì)分，以反映該領(lǐng)域方法的多樣性。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

除架構(gòu)外，本文還整理了適配統(tǒng)一多模態(tài)模型訓(xùn)練與評估的數(shù)據(jù)集和基準(zhǔn)測試，覆蓋多模態(tài)理解、文生圖、圖像編輯等相關(guān)任務(wù)，為后續(xù)研究提供資源支持。最后，本文探討該新興領(lǐng)域面臨的核心挑戰(zhàn)，包括高效分詞策略、數(shù)據(jù)構(gòu)建、模型評估等。解決這些挑戰(zhàn)對提升統(tǒng)一多模態(tài)模型的能力與可擴展性至關(guān)重要。

學(xué)界已有關(guān)于大語言模型、多模態(tài)理解和圖像生成的優(yōu)秀綜述，而本文聚焦于理解與生成任務(wù)的整合研究。建議讀者結(jié)合這些互補性綜述以獲取更全面的領(lǐng)域認(rèn)知。本文期望激發(fā)這一快速發(fā)展領(lǐng)域的更多研究，并為學(xué)界提供有價值的參考。本文涉及的參考文獻(xiàn)、數(shù)據(jù)集和基準(zhǔn)測試等材料將很快發(fā)布于GitHub，并將持續(xù)更新以反映最新進(jìn)展。

初步

多模態(tài)理解模型

多模態(tài)理解模型是指基于LLM的架構(gòu)，能夠接收、推理并從多模態(tài)輸入生成輸出。這些模型將LLM的生成與推理能力擴展到文本數(shù)據(jù)之外，實現(xiàn)了對多種信息模態(tài)的豐富語義理解。現(xiàn)有方法的大多數(shù)研究集中于視覺-語言理解（VLU），該任務(wù)整合了視覺（如圖像和視頻）與文本輸入，以支持對空間關(guān)系、對象、場景及抽象概念的更全面理解。圖2展示了一個典型的多模態(tài)理解模型架構(gòu)。這些模型在一個混合輸入空間中運行，其中文本數(shù)據(jù)以離散形式表示，而視覺信號則被編碼為連續(xù)表示。與傳統(tǒng)LLM類似，其輸出以離散token的形式從內(nèi)部表示生成，使用基于分類的語言建模和任務(wù)特定的解碼策略。

早期的VLU模型主要通過雙編碼器架構(gòu)對視覺與文本模態(tài)進(jìn)行對齊，在該架構(gòu)中，圖像與文本首先被分別編碼，然后通過對齊的潛在表示進(jìn)行聯(lián)合推理，這些模型包括CLIP、ViLBERT、VisualBERT 和 UNITER。盡管這些開創(chuàng)性的模型確立了多模態(tài)推理的關(guān)鍵原則，但它們嚴(yán)重依賴基于區(qū)域的視覺預(yù)處理及獨立的編碼器，限制了模型的可擴展性與通用性。隨著強大LLM的出現(xiàn)，VLU模型逐步轉(zhuǎn)向采用僅解碼器架構(gòu)，這類架構(gòu)通常結(jié)合凍結(jié)或最小微調(diào)的LLM主干。這些方法主要通過結(jié)構(gòu)各異的連接器將圖像嵌入轉(zhuǎn)換，如下圖2所示。具體而言，MiniGPT-4 使用單個可學(xué)習(xí)層將CLIP提取的圖像嵌入投影到Vicuna的token空間中。BLIP-2 引入了一個查詢Transformer，用于連接凍結(jié)的視覺編碼器與凍結(jié)的LLM（如Flan-T5 或 Vicuna），以更少的可訓(xùn)練參數(shù)實現(xiàn)高效的視覺-語言對齊。Flamingo采用門控交叉注意力層將預(yù)訓(xùn)練的視覺編碼器與凍結(jié)的Chinchilla解碼器連接起來。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

VLU的最新進(jìn)展顯示出向通用多模態(tài)理解轉(zhuǎn)變的趨勢。GPT-4V 將GPT-4框架擴展為支持用戶提供的圖像輸入，盡管其為專有系統(tǒng)，但在視覺推理、圖像描述與多模態(tài)對話方面展現(xiàn)出強大能力。Gemini構(gòu)建于僅解碼器架構(gòu)之上，支持圖像、視頻與音頻模態(tài)，其Ultra版本在多模態(tài)推理任務(wù)中設(shè)立了新基準(zhǔn)。Qwen系列體現(xiàn)了可擴展的多模態(tài)設(shè)計：Qwen-VL引入視覺接收器與定位模塊，而Qwen2-VL 增加了動態(tài)分辨率處理與M-RoPE，以實現(xiàn)對多樣輸入的魯棒處理。LLaVA-1.5 與 LLaVA-Next使用基于CLIP的視覺編碼器與Vicuna風(fēng)格LLM，在VQA與指令跟隨任務(wù)中取得了有競爭力的性能。InternVL系列探索了一種統(tǒng)一的多模態(tài)預(yù)訓(xùn)練策略，同時從文本與視覺數(shù)據(jù)中學(xué)習(xí)，以提升在各種視覺-語言任務(wù)中的表現(xiàn)。Ovis引入了一種結(jié)構(gòu)性嵌入對齊機制，通過一個可學(xué)習(xí)的視覺嵌入查找表生成與文本token結(jié)構(gòu)一致的視覺嵌入。近期，一些模型開始探索面向多模態(tài)處理的可擴展與統(tǒng)一架構(gòu)。DeepSeek-VL2采用專家混合（Mixture-of-Experts, MoE）架構(gòu)以增強跨模態(tài)推理。總體而言，這些模型清晰展現(xiàn)了向指令調(diào)優(yōu)與token中心的框架發(fā)展的趨勢，使其能夠以統(tǒng)一且可擴展的方式應(yīng)對多樣的多模態(tài)任務(wù)。

文本生成圖像模型

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

早期的擴散模型使用 U-Net 架構(gòu)來逼近 score function。U-Net 基于 Wide ResNet 構(gòu)建，集成了殘差連接和自注意力模塊，以維持梯度傳播并恢復(fù)圖像的細(xì)節(jié)。這些方法大致可分為像素級方法和潛特征級方法：

像素級方法：直接在像素空間執(zhí)行擴散過程。例如，GLIDE 引入了“無分類器引導(dǎo)”（classifier-free guidance），Imagen 使用預(yù)訓(xùn)練的大語言模型 T5-XXL 作為文本編碼器。但這些方法計算開銷大，訓(xùn)練與推理成本高。
隱空間擴散模型（LDMs）：在預(yù)訓(xùn)練的變分自編碼器的隱空間中操作擴散過程，如[14] 所提出。LDMs 在保持高質(zhì)量生成效果的同時顯著提升了計算效率，啟發(fā)了多種擴散生成模型的發(fā)展，包括 VQ-Diffusion、SD 2.0、SD XL 和 UPainting。

隨著 Transformer 架構(gòu)的發(fā)展，出現(xiàn)了基于 Transformer 的擴散模型。例如：

Diffusion Transformers (DiT)：將輸入圖像分割為 patch 序列，并通過一系列 Transformer 塊進(jìn)行處理。DiT 以擴散時間步t和條件信號c作為附加輸入。

DiT 的成功催生了更多先進(jìn)的生成方法：

REPA：在擴散訓(xùn)練中注入自監(jiān)督視覺特征以提升大規(guī)模性能；
SD 3.0：使用兩組獨立權(quán)重分別建模文本與圖像模態(tài)；
其他方法。

文本編碼器方面，這些方法主要采用對比學(xué)習(xí)，將圖文模態(tài)對齊到共享的隱空間中，在大規(guī)模圖文對 (image-caption pairs) 上共同訓(xùn)練圖像和文本編碼器。例如：

GLIDE：探索了 CLIP 指導(dǎo)與無分類器指導(dǎo)，展示出 CLIP 條件擴散方法優(yōu)于早期 GAN 方法，且支持強大的文本編輯；
SD：使用凍結(jié)的 CLIP-ViT-L/14 編碼器作為條件輸入，生成高質(zhì)量圖像并具有良好計算效率；
SD 3.0：使用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 將文本轉(zhuǎn)為嵌入以用于生成指導(dǎo)。

近期擴散模型的進(jìn)展還融合了大語言模型（LLMs），進(jìn)一步提升了文本到圖像生成的對齊能力和生成質(zhì)量：

RPG：利用多模態(tài) LLM 的視覺語言先驗，從文本提示中推理出補充的空間布局，并在文本引導(dǎo)圖像生成與編輯中操控對象組合。

不過，這些方法通常需為特定任務(wù)設(shè)計不同的模型架構(gòu)、訓(xùn)練策略和參數(shù)配置，增加了管理復(fù)雜性。更具可擴展性的解決方案是構(gòu)建統(tǒng)一的生成模型，能夠處理多種數(shù)據(jù)生成任務(wù)：

OmniGen：支持文本生成圖像、圖像編輯、主體驅(qū)動生成與視覺條件生成等多種任務(wù)；
UniReal：將圖像任務(wù)視為不連續(xù)視頻生成，統(tǒng)一支持生成、編輯、定制和合成；
GenArtist：通過多模態(tài)大模型協(xié)調(diào)統(tǒng)一圖像生成與編輯；
UniVG：用一套權(quán)重處理多模態(tài)輸入，實現(xiàn)多種下游應(yīng)用。

隨著該領(lǐng)域研究不斷深入，預(yù)計將出現(xiàn)越來越統(tǒng)一的模型，能夠處理更廣泛的圖像生成與編輯任務(wù)。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

如下圖4所示，現(xiàn)有方法根據(jù)序列表示策略可分為三類：基于像素的模型、基于token的模型和基于多token的模型。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

1）基于像素的模型。PixelRNN是首個用于預(yù)測下一個像素的前沿方法。它將二維圖像轉(zhuǎn)換為一維像素序列，并使用 LSTM 層根據(jù)先前生成的值逐個生成像素。盡管在建模空間依賴方面效果顯著，但其計算成本較高。PixelCNN 引入膨脹卷積以更高效地捕捉遠(yuǎn)距離像素依賴關(guān)系，而 PixelCNN++采用離散化的邏輯混合似然函數(shù)和架構(gòu)改進(jìn)來提升圖像質(zhì)量和生成效率。一些進(jìn)階方法也提出了并行化策略，以降低計算開銷，尤其是在高分辨率圖像生成中提升速度。

2）基于token的模型。受自然語言處理范式啟發(fā)，基于token的自回歸（AR）模型將圖像轉(zhuǎn)換為離散token的緊湊序列，極大地縮短了序列長度，并支持高分辨率合成。這一過程始于向量量化（VQ）：通過重建損失和承諾損失訓(xùn)練的編碼器-解碼器學(xué)習(xí)到一個緊湊的潛在索引碼本，之后僅用一個解碼器Transformer對這些token建模條件分布。典型的VQ模型包括 VQ-VAE-2、VQGAN、ViT-VQGAN 等。許多工作專注于提升解碼器Transformer的能力。LlamaGen將VQGAN的分詞器應(yīng)用于LLaMA骨干網(wǎng)絡(luò)，在性能上可與DiTs媲美，且隨著參數(shù)數(shù)量增加，生成質(zhì)量也有所提升。與此同時，數(shù)據(jù)高效變體如 DeLVM在顯著減少數(shù)據(jù)需求的前提下仍能保持圖像質(zhì)量；而像 AiM、ZigMa 和 DiM 等模型則引入了Mamba中的線性或門控注意力機制，以實現(xiàn)更快推理和更優(yōu)性能。為了增強上下文建模，研究者提出了隨機和混合解碼策略。如 SAIM、RandAR 和 RAR 通過隨機打亂patch預(yù)測順序來克服固定掃描順序的偏差，而 SAR 將因果學(xué)習(xí)泛化到任意順序與跳躍間隔。混合框架進(jìn)一步融合不同范式：如 RAL 使用對抗策略梯度緩解暴露偏差，ImageBART 將分層擴散更新與AR解碼交替進(jìn)行，DisCo-Diff則結(jié)合了離散潛變量與擴散解碼器，獲得領(lǐng)先的FID得分。

3）基于多token的模型。為提升生成效率，近來的AR模型由單token生成轉(zhuǎn)向同時預(yù)測多個token，從而在不損失質(zhì)量的前提下實現(xiàn)顯著加速。Next Patch Prediction（NPP）將圖像token聚合為高信息密度的patch級token，從而大幅減少序列長度。類似地，Next Block Prediction（NBP）將聚合擴展到更大的空間塊（如整行或整個幀）。Neighboring AR（NAR）提出基于局部“鄰居”機制向外預(yù)測，而 Parallel Autoregression（PAR）則將token劃分為不重疊子集并發(fā)解碼。MAR 放棄了離散token化和固定順序，轉(zhuǎn)而采用用擴散損失訓(xùn)練的連續(xù)表示。除空間聚合外，VAR引入粗到細(xì)的多尺度預(yù)測范式，并激發(fā)出一系列進(jìn)階方法，包括 FlowAR、M-VAR、FastVAR 和 FlexVAR。一些基于頻率的方法則從頻域分解生成過程：FAR 和 NFIG 先生成低頻結(jié)構(gòu)再細(xì)化高頻細(xì)節(jié)。xAR 抽象統(tǒng)一了自回歸單元，包括patch、cell、scale或整張圖像，在統(tǒng)一框架下處理不同生成粒度。這些多token方法突顯出合理定義自回歸單元的重要性，在圖像質(zhì)量、生成效率和模型可擴展性之間實現(xiàn)平衡。

在自回歸解碼器中也逐步引入了控制機制，以實現(xiàn)更精細(xì)的圖像編輯。ControlAR在解碼過程中引入邊緣圖、深度圖等空間約束，支持對token級的細(xì)粒度編輯。ControlVAR 在此基礎(chǔ)上引入了尺度感知的條件機制，從圖像整體特征進(jìn)行調(diào)控，提升了圖像的一致性與可編輯性。CAR 進(jìn)一步擴展了上述思路，著重于構(gòu)建更先進(jìn)的控制機制，以增強圖像細(xì)節(jié)和適應(yīng)能力。對于多物體或時序一致性強的復(fù)雜場景，Many-to-Many Diffusion（M2M）將自回歸框架擴展用于多幀生成，以保證圖像間語義與時序的一致性。MSGNet 結(jié)合了VQ-VAE和AR建模，維持場景中多實體的空間-語義對齊。在醫(yī)學(xué)領(lǐng)域，MVG 將自回歸圖像到圖像的生成方式擴展到分割、圖像合成與去噪等任務(wù)，并通過配對的提示圖與圖像進(jìn)行條件建模。這些圖像生成中的自回歸方法提供了基礎(chǔ)模型架構(gòu)和視覺建模策略，有效推動了統(tǒng)一多模態(tài)理解與生成研究的發(fā)展。

統(tǒng)一的多模態(tài)模型：理解與生成

統(tǒng)一多模態(tài)模型旨在構(gòu)建一個能夠同時進(jìn)行多模態(tài)數(shù)據(jù)理解與生成的統(tǒng)一架構(gòu)。這類模型被設(shè)計用于處理多種形式的輸入（如文本、圖像、視頻、音頻），并以統(tǒng)一的方式生成一個或多個模態(tài)的輸出。一個典型的統(tǒng)一多模態(tài)框架通常包含三個核心組件：模態(tài)特定編碼器，用于將不同輸入模態(tài)投影到同一表示空間；模態(tài)融合骨干網(wǎng)絡(luò)，用于整合多模態(tài)信息并實現(xiàn)跨模態(tài)推理；以及模態(tài)特定解碼器，用于在期望的模態(tài)中生成輸出（如文本生成或圖像合成）。

本節(jié)重點關(guān)注支持視覺-語言理解與生成的統(tǒng)一多模態(tài)模型，即以圖像和文本為輸入，并輸出文本或圖像的模型。如下圖5所示，現(xiàn)有統(tǒng)一模型大致可分為三類：擴散模型（diffusion models）、自回歸模型（autoregressive models），以及融合的AR+擴散模型（fused AR + diffusion models）。其中，自回歸模型根據(jù)其模態(tài)編碼方法進(jìn)一步劃分為四個子類：基于像素的編碼（pixel-based encoding）、基于語義的編碼（semantic-based encoding）、基于可學(xué)習(xí)查詢的編碼（learnable query-based encoding）以及混合編碼（hybrid encoding）。每種編碼策略代表了處理視覺和文本數(shù)據(jù)的不同方式，導(dǎo)致其多模態(tài)表示在集成度和靈活性方面各有差異。而融合的AR+擴散模型根據(jù)模態(tài)編碼方式分為兩類：基于像素編碼和混合編碼。這類模型結(jié)合了自回歸與擴散技術(shù)的優(yōu)勢，為實現(xiàn)更統(tǒng)一、高效的多模態(tài)生成提供了有前景的路徑。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

接下來的各節(jié)將深入探討每一類模型：

第3.1節(jié)探討基于擴散的模型，分析其在從噪聲表示中生成高質(zhì)量圖像和文本方面的獨特優(yōu)勢。
第3.2節(jié)聚焦自回歸模型，細(xì)致解析不同編碼方法如何影響其在視覺-語言任務(wù)中的表現(xiàn)。
第3.3節(jié)介紹融合AR+擴散模型，探討兩種范式結(jié)合如何增強多模態(tài)生成能力。最后，本文將討論任意對任意（any-to-any）多模態(tài)模型，它們將該框架擴展至圖像與語言之外，支持音頻、視頻、語音等更多模態(tài)，目標(biāo)是構(gòu)建通用的生成模型。

3.1 擴散模型

擴散模型因具備多項關(guān)鍵優(yōu)勢，在圖像生成領(lǐng)域取得了顯著成功。首先，與生成對抗網(wǎng)絡(luò)（GAN）相比，它們在樣本質(zhì)量方面表現(xiàn)更優(yōu)，擁有更好的模式覆蓋能力，并能緩解常見問題如模式崩潰和訓(xùn)練不穩(wěn)定性。其次，擴散模型的訓(xùn)練目標(biāo)是預(yù)測添加噪聲后的數(shù)據(jù)中的噪聲部分，這是一項簡單的監(jiān)督學(xué)習(xí)任務(wù)，避免了對抗式訓(xùn)練的復(fù)雜性。第三，擴散模型具有高度靈活性，可在采樣過程中加入各種條件控制信號，如分類器引導(dǎo) 和無分類器引導(dǎo)，從而提升可控性和生成質(zhì)量。此外，隨著噪聲調(diào)度機制和加速采樣技術(shù)的改進(jìn)，擴散模型的計算開銷大幅降低，變得更加高效和可擴展。

基于這些優(yōu)勢，研究人員將擴散模型從單一模態(tài)任務(wù)擴展至多模態(tài)生成，目標(biāo)是在統(tǒng)一框架下同時支持文本和圖像的輸出。如圖5(a)所示，在多模態(tài)擴散模型中，去噪過程不僅依賴于時間步和噪聲，還依賴于多模態(tài)上下文，如文本描述、圖像或聯(lián)合嵌入。這一擴展使得不同模態(tài)的同步生成成為可能，并促成了生成結(jié)果之間豐富的語義對齊。

一個具有代表性的例子是 Dual Diffusion，其提出了一個雙分支擴散過程，用于聯(lián)合文本和圖像生成。具體來說，給定一個文本-圖像對，Dual Diffusion 首先使用預(yù)訓(xùn)練的 T5 編碼器對文本進(jìn)行 softmax 概率建模，從而獲得離散的文本表示；同時使用 Stable Diffusion中的 VAE 編碼器對圖像進(jìn)行編碼，以獲得連續(xù)的圖像潛表示。這兩個模態(tài)的潛表示會分別通過各自的正向擴散過程添加噪聲，得到每個時間步上的噪聲潛變量。

在反向去噪過程中，模型使用兩個模態(tài)特定的去噪器聯(lián)合去噪文本和圖像潛表示：一個基于 Transformer 的文本去噪器和一個基于 UNet 的圖像去噪器。關(guān)鍵在于，在每個時間步，兩個去噪器都引入了跨模態(tài)的條件控制：文本潛表示關(guān)注圖像潛表示，反之亦然，這使得在整個去噪軌跡中實現(xiàn)了模態(tài)間的語義對齊。

去噪完成后，文本潛表示通過 T5 解碼器解碼為自然語言，而圖像潛表示則通過 VAE 解碼器解碼為高保真圖像。訓(xùn)練過程中采用兩個獨立的損失項進(jìn)行監(jiān)督：圖像分支最小化標(biāo)準(zhǔn)的噪聲預(yù)測損失，文本分支則最小化對比式對數(shù)損失（contrastive log-loss）。通過耦合兩個擴散鏈，并引入明確的跨模態(tài)交互，Dual Diffusion 實現(xiàn)了從純噪聲出發(fā)的連貫、可控的多模態(tài)生成。

盡管 Dual Diffusion 在聯(lián)合文本與圖像生成方面展現(xiàn)了潛力，但仍面臨若干局限。其計算效率受限于多次擴散迭代的需求，速度慢于 GAN 或自回歸模型。雙分支架構(gòu)增加了模型復(fù)雜性與訓(xùn)練不穩(wěn)定性。此外，雖然跨模態(tài)條件有助于模態(tài)對齊，但對噪聲水平仍較為敏感，可能導(dǎo)致輸出質(zhì)量不佳。最后，對于生成細(xì)節(jié)的精細(xì)控制仍具挑戰(zhàn)，模型在處理分布外數(shù)據(jù)時的泛化能力也有待提升。

3.2 自回歸模型（Auto-Regressive Models）

在統(tǒng)一多模態(tài)理解與生成模型中，一個主要方向是采用自回歸（AR）架構(gòu)，其中視覺和語言標(biāo)記（tokens）通常被串行化并按順序建模。在這些模型中，主干 Transformer 模型（通常是從大語言模型 LLMs，如 LLaMA 系列，Vicuna，Gemma 系列以及 Qwen 系列中適配而來）作為統(tǒng)一的模態(tài)融合模塊，用于自回歸地預(yù)測多模態(tài)輸出。

如圖 5 所示，為了將視覺信息整合進(jìn) AR 框架，現(xiàn)有方法提出了多種圖像標(biāo)記化策略。這些策略大致可分為四類：基于像素的編碼、基于語義的編碼、基于可學(xué)習(xí)查詢的編碼，以及混合式編碼方法。

1）基于像素的編碼（Pixel-based Encoding）

如圖 5 (b-1) 所示，基于像素的編碼通常是指將圖像表示為從預(yù)訓(xùn)練自動編碼器中獲得的連續(xù)或離散標(biāo)記，這些編碼器通常僅在圖像重建任務(wù)上進(jìn)行監(jiān)督訓(xùn)練，例如 VQGAN 類模型。這些編碼器將高維像素空間壓縮為緊湊的潛在空間，其中每個空間補丁對應(yīng)一個圖像標(biāo)記。在統(tǒng)一的多模態(tài)自回歸模型中，從這類編碼器序列化得到的圖像標(biāo)記可類比于文本標(biāo)記進(jìn)行處理，從而實現(xiàn)單序列內(nèi)的兩種模態(tài)建模。

近期工作中，不同模型采用并增強了像素標(biāo)記化的編碼設(shè)計。LWM 使用 VQGAN 標(biāo)記器將圖像編碼為離散潛在代碼，而無需語義監(jiān)督，并提出了多模態(tài)世界建模框架，在該框架中圖像和文本標(biāo)記被串聯(lián)處理，實現(xiàn)統(tǒng)一的自回歸建模。通過僅使用重建驅(qū)動的圖像標(biāo)記與文本描述進(jìn)行世界動態(tài)建模，LWM 展示了即使不使用語義標(biāo)記化，也能實現(xiàn)大規(guī)模的多模態(tài)生成。

Chameleon和 ANOLE均采用了 VQ-IMG，這是一種改進(jìn)型 VQ-VAE 變體，適用于內(nèi)容豐富的圖像生成。VQ-IMG 擁有更深的編碼器、更大的感受野，并加入了殘差預(yù)測機制，以更好地保留復(fù)雜的視覺細(xì)節(jié)。通過這些增強，Chameleon 和 ANOLE 能夠更忠實地序列化圖像內(nèi)容，支持高質(zhì)量的多模態(tài)生成。此外，這些模型還支持交錯生成（interleaved generation），即在統(tǒng)一的自回歸框架中交替生成文本和圖像標(biāo)記。

Emu3、SynerGen-VL 和 UGen 采用了 SBER-MoVQGAN，這是一種多尺度的 VQGAN 變體，能編碼包含全局結(jié)構(gòu)和細(xì)粒度細(xì)節(jié)的潛在圖像表示。通過多尺度標(biāo)記化，這些模型增強了視覺表示的表達(dá)力，同時保持了訓(xùn)練的效率。

與 LWM類似，Liquid 也使用 VQGAN 式的標(biāo)記器，并揭示了一個新發(fā)現(xiàn)：在統(tǒng)一的自回歸目標(biāo)和共享的視覺標(biāo)記表示下，視覺理解與生成可以互相促進(jìn)。此外，MMAR、Orthus 和 Harmon 引入了使用連續(xù)值圖像標(biāo)記的框架，通過提取連續(xù)潛在表示來避免離散化所帶來的信息損失。這些方法還通過在每個自動回歸圖像塊嵌入上添加輕量級擴散頭，將擴散過程從 AR 主干中解耦，從而避免主干表示局限于最終的去噪步驟，有助于更好的圖像理解。

除 MMAR 和 Harmon外，這類模型在預(yù)訓(xùn)練和生成階段均使用因果注意力掩碼，確保每個標(biāo)記只能關(guān)注其序列中之前的標(biāo)記。它們采用“下一個標(biāo)記預(yù)測”損失函數(shù)進(jìn)行訓(xùn)練，圖像與文本標(biāo)記均以自回歸方式進(jìn)行預(yù)測，從而實現(xiàn)了跨模態(tài)統(tǒng)一的訓(xùn)練目標(biāo)。

在基于像素的編碼方法中，圖像重建通常采用 VQGAN 類模型中提出的配對解碼器結(jié)構(gòu)。這些解碼器是輕量級卷積架構(gòu)，主要用于將離散潛在網(wǎng)格準(zhǔn)確還原為像素空間，專注于低級別的重建，而非高級語義推理。

此外，部分方法如 MMAR、Orthus 和 Harmon 采用連續(xù)潛變量進(jìn)行圖像標(biāo)記化，因此它們使用輕量擴散 MLP 解碼器將連續(xù)潛變量映射回像素空間。

盡管有效，基于像素的編碼方法仍面臨一些固有局限：

首先，視覺標(biāo)記僅為像素重建而優(yōu)化，通常缺乏高級語義抽象能力，使圖文之間的對齊更加困難；
其次，該方法傾向于生成密集的標(biāo)記網(wǎng)格，尤其是在高分辨率圖像下，造成相比文本模型更長的序列長度，從而顯著增加自回歸訓(xùn)練和推理的計算與內(nèi)存開銷，限制了可擴展性；
最后，由于視覺編碼器以重建為主的目標(biāo)進(jìn)行訓(xùn)練，生成的視覺標(biāo)記可能保留過多模態(tài)特定的偏差，如對紋理或低級圖案的過度敏感，這不利于語義理解或細(xì)粒度跨模態(tài)推理。

2）語義編碼（Semantic Encoding）

為克服像素編碼中缺乏語義的問題，越來越多的工作采用語義編碼，即使用預(yù)訓(xùn)練的、與文本對齊的視覺編碼器（如 OpenAI-CLIP、SigLIP、EVA-CLIP 或更新的統(tǒng)一標(biāo)記器 UNIT）來處理圖像輸入，如圖 5 (b-2) 所示。這類模型通常在大規(guī)模圖文對數(shù)據(jù)集上，以對比學(xué)習(xí)或回歸目標(biāo)進(jìn)行訓(xùn)練，生成的視覺嵌入能夠與語言特征在共享語義空間中對齊，從而更有效地實現(xiàn)跨模態(tài)對齊，有利于多模態(tài)理解與生成任務(wù)。

多種代表性模型基于不同語義編碼器和架構(gòu)設(shè)計，支持統(tǒng)一的多模態(tài)任務(wù)。Emu、Emu2和 LaViT均采用 EVA-CLIP作為視覺編碼器。Emu 首次提出了將凍結(jié)的 EVA-CLIP 編碼器、大語言模型和擴散解碼器結(jié)合的架構(gòu)，統(tǒng)一支持 VQA、圖像描述和圖像生成。Emu2 在此基礎(chǔ)上，提出了更簡潔、可擴展的預(yù)訓(xùn)練框架，將模型參數(shù)規(guī)模擴大到 37B，顯著提升理解與生成能力。LaViT在 EVA-CLIP 基礎(chǔ)上引入了動態(tài)視覺標(biāo)記機制，利用選擇器與合并模塊，根據(jù)圖像內(nèi)容復(fù)雜度自適應(yīng)選擇視覺標(biāo)記序列長度，從而減少冗余信息并保留關(guān)鍵視覺特征，提升了訓(xùn)練效率和生成質(zhì)量，適用于圖像描述、問答和生成等任務(wù)。

DreamLLM、VL-GPT、MM-Interleaved 和 PUMA 采用 OpenAI-CLIP 編碼器。

DreamLLM 使用輕量線性投影對 CLIP 嵌入與語言標(biāo)記對齊；VL-GPT在 CLIP 視覺編碼器后接強大的因果 Transformer，有效保留語義信息與圖像細(xì)節(jié)。MM-Interleaved和 PUMA 利用簡單的 ViT-Adapter 或池化操作從 CLIP 編碼器中提取多粒度圖像特征，支持豐富的多模態(tài)生成。

Mini-Gemini 引入了視覺標(biāo)記增強機制，采用雙語義編碼器：一個 CLIP 預(yù)訓(xùn)練的 ViT 編碼器提取全局視覺標(biāo)記，另一個 LAION 預(yù)訓(xùn)練的 ConvNeXt 編碼器提供密集的局部信息。通過交叉注意模塊將局部視覺信息注入到全局標(biāo)記中，再與文本標(biāo)記融合輸入至 LLM 進(jìn)行聯(lián)合建模，有效融合語義抽象與像素細(xì)節(jié)。

MetaMorph使用 SigLIP提取視覺嵌入，并在語言模型多個 Transformer 層中插入模態(tài)特定適配器，支持更深層的視覺語言交互，相較淺層投影方法效果更好。ILLUME采用 UNIT作為視覺編碼器，提供語義對齊與像素保真之間平衡的統(tǒng)一表示。不同于僅使用對比損失的 CLIP 類模型，UNIT 同時以圖像重建和對比對齊目標(biāo)進(jìn)行訓(xùn)練，生成兼顧理解與生成任務(wù)的圖像標(biāo)記。ILLUME 基于 UNIT 的強大標(biāo)記器，在圖像描述、問答、文本生成圖像與交錯生成等任務(wù)上表現(xiàn)優(yōu)異。

類似地，VILA-U和 Unitok 模仿 UNIT，引入圖文對比學(xué)習(xí)，提出一種新型的文本對齊視覺標(biāo)記器，在語義對齊與像素保真之間實現(xiàn)有效平衡。

在大多數(shù)此類模型中，在MLLM（多模態(tài)大語言模型）訓(xùn)練期間會應(yīng)用因果注意力掩碼，并采用下一標(biāo)記預(yù)測損失來同時優(yōu)化文本和視覺標(biāo)記的生成。在圖像生成方面，大多數(shù)模型通常采用基于擴散的解碼器，如SD-v1.5、SD-v2.1、SDXL 或 IP-adapter，這些解碼器與MLLM是獨立訓(xùn)練的。在推理階段，MLLM生成語義級視覺標(biāo)記，然后將其傳遞給擴散解碼器以進(jìn)行最終圖像合成。這種將語義編碼器與擴散解碼器配對的設(shè)計選擇，是基于以下事實：語義嵌入編碼了高層次的概念信息，但缺乏直接進(jìn)行像素重建所需的空間密度和低層次細(xì)節(jié)。擴散模型通過其迭代去噪機制，特別適合此場景：即使輸入標(biāo)記稀疏或抽象，它們也能逐步將語義表示細(xì)化為高分辨率、逼真的圖像。相比之下，盡管一些方法（如 VILA-U 和 Unitok）采用像素級解碼器，但其生成的圖像質(zhì)量通常不如擴散解碼器。因此，擴散解碼器為語義壓縮的視覺標(biāo)記提供了更強大、更具表現(xiàn)力的解碼路徑，顯著提升了文本-圖像對齊、整體連貫性和視覺保真度。

盡管語義編碼具有上述優(yōu)勢，但也存在一些局限性。首先，由于缺乏低層次細(xì)節(jié)，生成的視覺標(biāo)記在像素級控制上較弱，難以進(jìn)行精細(xì)圖像編輯、局部修復(fù)或結(jié)構(gòu)保持的變換。其次，語義編碼器通常僅提供全局或中層表示，對于需要空間對應(yīng)關(guān)系的任務(wù)（如指代表達(dá)分割或姿態(tài)精確合成）來說可能不夠充分。最后，由于語義編碼器與擴散解碼器通常是分開訓(xùn)練的，缺乏端到端的優(yōu)化，這可能導(dǎo)致MLLM輸出與解碼器預(yù)期之間的不匹配，進(jìn)而偶發(fā)語義漂移或生成偽影。

3）可學(xué)習(xí)查詢編碼（Learnable Query Encoding）

可學(xué)習(xí)查詢編碼作為一種生成自適應(yīng)、任務(wù)相關(guān)圖像表示的有效策略逐漸興起。如圖5(b-3)所示，該方法不再完全依賴固定的視覺標(biāo)記器或密集圖像塊，而是引入一組可學(xué)習(xí)的查詢標(biāo)記，這些標(biāo)記從圖像特征中動態(tài)提取信息。這些查詢標(biāo)記充當(dāng)感知內(nèi)容的探針，與視覺編碼器交互，以生成緊湊且語義對齊的嵌入，適用于多模態(tài)理解與生成。

當(dāng)前的可學(xué)習(xí)查詢編碼實現(xiàn)可大致分為兩類代表性范式。第一類由SEED代表，提出一種種子標(biāo)記器（seed tokenizer）以學(xué)習(xí)因果視覺嵌入。具體來說，輸入圖像首先通過BLIP-2的ViT編碼器被編碼為密集標(biāo)記特征，然后將其與一組可學(xué)習(xí)查詢標(biāo)記拼接，并通過因果Q-Former處理以生成因果視覺嵌入。該設(shè)計在圖像-文本對比學(xué)習(xí)與圖像重建監(jiān)督下訓(xùn)練，使得所學(xué)嵌入同時保留低層視覺細(xì)節(jié)與高層語義對齊信息。基于這一基礎(chǔ)，SEED-LLAMA 與 SEED-X 通過將OPT主干替換為更強的LLaMA2模型并將解碼器升級為UnCLIP-SD或 SDXL ，從而提升了模型在理解與生成任務(wù)中的性能。

第二種方法由MetaQueries提出，提供了一個簡化版本的可學(xué)習(xí)查詢編碼方案。在此方法中，圖像特征通過一個凍結(jié)的SigLIP編碼器提取，然后與可學(xué)習(xí)查詢標(biāo)記拼接，并直接輸入到如LLaVA 或 Qwen2.5-VL等凍結(jié)的視覺-語言主干模型中。輸出的因果嵌入用于擴散解碼器的條件輸入，從而實現(xiàn)高質(zhì)量圖像生成。由于主干模型保持凍結(jié)，該方案在保留預(yù)訓(xùn)練模型視覺語言理解能力的同時，提供了一種輕量且高效的多模態(tài)生成解決方案。

這些基于可學(xué)習(xí)查詢的設(shè)計具有一個共同優(yōu)勢：它們提供了自適應(yīng)、緊湊且語義豐富的表示，既支持高效圖像理解，也可實現(xiàn)高質(zhì)量圖像生成。通過聚焦于任務(wù)驅(qū)動的標(biāo)記提取，這類模型為傳統(tǒng)視覺標(biāo)記器提供了一個靈活且可擴展的替代方案，尤其適用于統(tǒng)一多模態(tài)框架。

盡管具有靈活性與良好效果，可學(xué)習(xí)查詢編碼也存在一些限制，可能會影響其廣泛應(yīng)用。首先，一個關(guān)鍵挑戰(zhàn)是可學(xué)習(xí)查詢標(biāo)記帶來的計算開銷增加。隨著查詢標(biāo)記數(shù)量增長，模型的內(nèi)存消耗與計算復(fù)雜度可能顯著上升，尤其是在擴展至大型數(shù)據(jù)集或更復(fù)雜多模態(tài)任務(wù)時。其次，如SEED 和 MetaQueries所示，依賴凍結(jié)或預(yù)訓(xùn)練的主干網(wǎng)絡(luò)可能限制視覺特征對下游任務(wù)的適應(yīng)能力。雖然凍結(jié)可降低訓(xùn)練成本并保留預(yù)學(xué)習(xí)知識，但也限制了模型在動態(tài)對齊圖像特征與不斷變化的查詢語義方面的能力，尤其在更復(fù)雜或組合性任務(wù)中更為明顯。最后，雖然可學(xué)習(xí)查詢能夠有效捕捉任務(wù)相關(guān)內(nèi)容，但其在處理多樣化視覺內(nèi)容方面未必均衡。例如，對于包含多個對象、細(xì)粒度細(xì)節(jié)或模糊視覺線索的復(fù)雜場景來說，相對少量的查詢標(biāo)記可能無法充分捕捉圖像中的豐富性與變異性。這一局限在模型需生成高度精細(xì)輸出時尤為明顯，因為固定或較少的查詢集合可能不足以涵蓋某些上下文中的全部視覺信息。

4）混合編碼（Hybrid Encoding）

為了解決單一模態(tài)視覺表示的固有限制，統(tǒng)一多模態(tài)模型中引入了混合編碼策略。基于像素的編碼方法（如 VQ-VAE 或 VQGAN）擅長保留細(xì)粒度的視覺細(xì)節(jié)，但在與文本的語義對齊方面表現(xiàn)欠佳。相比之下，基于語義的編碼器（如 SigLIP 或 CLIP 變體）生成的表示具有豐富的語義信息，但不擅長保留圖像的低層次細(xì)節(jié)。混合編碼旨在通過將像素級和語義級特征整合為統(tǒng)一表示，結(jié)合兩者的優(yōu)點。根據(jù)像素標(biāo)記和語義標(biāo)記的整合方式不同，混合編碼方法可大致分為兩類：偽混合編碼（pseudo hybrid encoding）與聯(lián)合混合編碼（joint hybrid encoding）。

偽混合編碼（Pseudo Hybrid Encoding）這一類別的代表性工作包括 Janus、Janus-Pro、OmniMamba 和 Unifluid。如圖 5(b-4) 所示，這些模型采用雙編碼器架構(gòu)——通常包括語義編碼器（例如 SigLIP）和像素編碼器（例如 VQGAN 或 VAE）——但以任務(wù)為導(dǎo)向的方式使用它們。在訓(xùn)練過程中，語義編碼器被用于視覺-語言理解任務(wù)，而像素編碼器則用于圖像生成任務(wù)。盡管兩種編碼器通過混合的理解與生成數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，但在推理階段不會啟用像素編碼器。

這種設(shè)計的動機在于：通過同時訓(xùn)練理解和生成任務(wù)，可以提升兩個方向的性能。然而，由于任一時刻僅激活一個編碼器，這些模型并未充分發(fā)揮混合編碼的潛力。具體而言，它們在圖像生成任務(wù)中錯失了利用語義信息進(jìn)行語義對齊的機會，同時在理解任務(wù)中也無法充分利用圖像的高保真細(xì)節(jié)。因此，這些模型通常使用像素解碼器從潛在編碼中重構(gòu)圖像。

聯(lián)合混合編碼（Joint Hybrid Encoding）如圖 5(b-5) 所示，聯(lián)合混合編碼方法將語義與像素令牌整合為統(tǒng)一輸入，供語言模型或解碼器使用，從而實現(xiàn)兩種表示的同時利用。代表性工作包括 MUSE-VL、VARGPT、VARGPT-1.1 和 ILLUME+。這些模型在融合策略上存在差異：MUSE-VL 在通道維度上拼接 SigLIP 與 VQGAN 的特征后輸入 LLM；而 VARGPT、VARGPT-1.1 和 ILLUME+ 則在序列維度上拼接語義與像素令牌，并同時輸入給 LLM。

通過結(jié)合語義信息與高保真視覺細(xì)節(jié)，聯(lián)合混合編碼可提升多模態(tài)理解與生成的魯棒性與表達(dá)力。這些模型支持使用像素解碼器（如 VQGAN、Infinity、VAR-D30）以及基于擴散的解碼器（如 SDXL），從而生成在語義對齊與視覺逼真度方面更優(yōu)秀的圖像。

盡管混合編碼通過整合像素級與語義級的互補優(yōu)勢展現(xiàn)出巨大潛力，但仍面臨諸多限制。許多偽混合方法在推理時并不同時啟用兩個編碼器，從而未能利用二者的協(xié)同效果。即便是聯(lián)合混合方法，在處理異質(zhì)令牌融合時也可能引入模態(tài)不平衡或冗余，若未加以妥善管理，可能影響下游任務(wù)表現(xiàn)。此外，雙編碼器架構(gòu)顯著增加了計算與內(nèi)存開銷，尤其在高分辨率或長序列任務(wù)中，存在擴展性挑戰(zhàn)。像素與語義令牌之間的對齊仍然是一項非平凡的問題，隱式的不匹配可能導(dǎo)致表征混亂或監(jiān)督信號沖突。在訓(xùn)練數(shù)據(jù)稀缺或數(shù)據(jù)噪聲較大時，這類錯配尤為明顯。

3.3 融合自回歸與擴散模型（Fused Autoregressive and Diffusion Models）

融合自回歸（AR）與擴散建模近期作為一種強大的視覺-語言統(tǒng)一生成框架快速興起。在該范式中，文本令牌采用自回歸方式生成，保留大語言模型的組合推理能力；而圖像令牌則通過多步去噪擴散過程生成，遵循擴散模型原理。該混合策略使圖像生成過程不再依賴嚴(yán)格的序列順序，從而提升視覺質(zhì)量與全局一致性。

代表性模型包括 Transfusion、Show-o、MonoFormer 和 LMFusion。在生成過程中，這些模型將噪聲添加至視覺潛表示，并通過條件化在已生成文本或跨模態(tài)上下文基礎(chǔ)上進(jìn)行多步去噪。盡管這種設(shè)計會因多輪采樣帶來更高的推理開銷，但在符號控制與圖像質(zhì)量之間實現(xiàn)了有效權(quán)衡，特別適用于高質(zhì)量的視覺-語言生成任務(wù)。

現(xiàn)有融合 AR + 擴散模型通常采用以下兩種圖像編碼策略：基于像素的編碼與混合編碼。

1）基于像素的編碼（Pixel-based Encoding）

如圖 5(c-1) 所示，該策略將圖像轉(zhuǎn)化為離散令牌或連續(xù)潛向量，隨后將其作為擴散過程的目標(biāo)，并由自回歸生成的文本令牌進(jìn)行條件引導(dǎo)。在近期工作中，Transfusion、MonoFormer 和 LMFusion 均采用由 SD-VAE 提取的連續(xù)潛表示。它們共享一個訓(xùn)練目標(biāo)，即結(jié)合語言建模的自回歸損失與圖像重構(gòu)的擴散損失，同時利用雙向注意機制保證空間一致性。

盡管整體框架相似，但各模型在架構(gòu)上各具特色：

Transfusion提出了一個統(tǒng)一 Transformer 主干網(wǎng)絡(luò)，使用模態(tài)專屬的子層同時處理離散與連續(xù)輸入；
MonoFormer則采用緊湊架構(gòu)，通過共享模塊與任務(wù)相關(guān)的注意力屏蔽機制在 AR 與擴散任務(wù)間取得平衡；
LMFusion允許凍結(jié)的 LLM 執(zhí)行高質(zhì)量圖像生成，其輕量視覺注入模塊在不影響語言能力的前提下，僅訓(xùn)練視覺分支。

相較而言，Show-o 使用基于 MAGVIT-v2 的離散像素編碼器，以符號化圖像令牌的方式適配 Transformer 解碼流程。它支持自回歸文本生成與擴散圖像合成，同時使用自回歸與擴散損失聯(lián)合監(jiān)督。

這些模型共同驗證了像素編碼在實現(xiàn)語言模型語義控制與擴散模型高保真圖像生成之間的有效平衡。

然而，這類像素編碼方法也面臨一系列問題：

使用 SD-VAE 提取連續(xù)潛表示會帶來訓(xùn)練與推理過程中的大量計算開銷，尤其是在高分辨率圖像或多輪交互任務(wù)中更為明顯；
文本與圖像模態(tài)的對齊仍是挑戰(zhàn)。盡管使用雙向注意機制促進(jìn)模態(tài)融合，但 SD-VAE 中的隱空間通常由無監(jiān)督重建目標(biāo)學(xué)習(xí)而來，可能與語言語義信息對齊不足，導(dǎo)致細(xì)粒度控制能力減弱或生成可解釋性降低；
離散編碼方案（如 Show-o）存在 VQ 模型常見的問題，例如代碼本坍塌與細(xì)節(jié)能力受限，使其在視覺多樣性與重建質(zhì)量方面略遜于連續(xù)表示方法。

2）混合編碼（Hybrid Encoding）：

如前面圖 5(c-2) 所示，混合編碼結(jié)合語義特征（如來自 CLIP 或 ViT 的編碼器）與像素級潛表示（如來自 SD-VAE），從而構(gòu)建更具表現(xiàn)力的圖像表示方式。該方法允許模型在保留語義抽象能力的同時，也捕捉視覺細(xì)節(jié)。

代表性方法是 Janus-Flow，其采用雙編碼器架構(gòu)，并提出一個精簡的架構(gòu)用于將自回歸語言模型與整流流模型（rectified flow）整合。它解耦了理解與生成編碼器，使用 SigLIP 作為視覺編碼器進(jìn)行多模態(tài)理解，使用 SDXL-VAE 執(zhí)行圖像生成。然而，由于其偽混合編碼設(shè)計，在圖像合成過程中僅激活像素編碼器，限制了模型在生成時利用語義信息的能力，從而可能影響細(xì)粒度對齊與生成任務(wù)中的多模態(tài)組合能力。

盡管取得了一定進(jìn)展，混合編碼方法仍面臨多個挑戰(zhàn)：

雙編碼器架構(gòu)與 AR+擴散流程的結(jié)合提高了模型復(fù)雜度，帶來更高的計算成本與訓(xùn)練時間，整體效率低于簡單模型；
實現(xiàn)語義特征與像素特征的有效對齊需要精心設(shè)計與優(yōu)化，而這一過程往往非常復(fù)雜，制約了模型在兩種模態(tài)間的協(xié)同能力；
在統(tǒng)一模型中同時優(yōu)化視覺-語言理解與圖像生成任務(wù)，可能導(dǎo)致權(quán)衡問題，即提升一個任務(wù)可能以犧牲另一個任務(wù)為代價。

這些限制凸顯出對更高效混合設(shè)計的迫切需求，即能在降低開銷的同時，充分利用視覺與語義特征的優(yōu)勢，并在多任務(wù)中保持高性能。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

3.4 任意對任意多模態(tài)模型

早期的統(tǒng)一多模態(tài)模型主要集中在文本-圖像對上，而最近的研究則擴展到了任意對任意的多模態(tài)建模。這種雄心勃勃的方法旨在創(chuàng)建能夠處理和生成各種模態(tài)的模型，包括音頻、視頻、語音、音樂等。這些模型的目標(biāo)是將特定模態(tài)的編碼器和解碼器統(tǒng)一到單一架構(gòu)中，從而實現(xiàn)文本到音頻、視頻到文本、語音到音樂甚至圖像到視頻的生成任務(wù)。本節(jié)回顧了該新興領(lǐng)域的代表性作品，重點介紹了它們的設(shè)計原則、模塊化結(jié)構(gòu)和當(dāng)前的局限性。

大多數(shù)任意對任意模型采用模塊化設(shè)計，每種模態(tài)配備專門的編碼器和解碼器，而共享的主干網(wǎng)絡(luò)則促進(jìn)跨模態(tài)表示學(xué)習(xí)和序列建模。例如，OmniFlow 集成了用于音頻和音樂生成的 HiFiGen，用于圖像處理的 SD-VAE，并使用類似 DiT 的擴散模型（MMDiT）作為主干。該模塊化設(shè)計使得模型能夠高效地結(jié)合不同模態(tài)進(jìn)行復(fù)雜的生成任務(wù)。

一些模型依賴于共享嵌入空間，通過特征層次上統(tǒng)一不同模態(tài)。例如，Spider、X-VILA 和 Next-GPT利用 ImageBind —— 一種對比訓(xùn)練的模型，將六種模態(tài)（文本、圖像、視頻、音頻、深度和熱成像）映射到單一的嵌入空間中。這種統(tǒng)一表示使得通過特定模態(tài)的解碼器進(jìn)行靈活的條件生成成為可能，如 Stable Diffusion、Zeroscope 或基于 LLM 的文本解碼器。雖然這一方法理論上優(yōu)雅，但其生成能力常常受到解碼器質(zhì)量和共享嵌入粒度的限制。

其他模型，如 AnyGPT 和 Unified-IO 2，將序列到序列范式擴展到處理多模態(tài)。AnyGPT 使用 EnCodec進(jìn)行音頻標(biāo)記化，SpeechTokenizer進(jìn)行語音處理，并訓(xùn)練了一個統(tǒng)一的 Transformer 模型，通過模態(tài)特定的前綴進(jìn)行訓(xùn)練。另一方面，Unified-IO 2采用了更加結(jié)構(gòu)化的編碼器-解碼器設(shè)計，包含視覺、音頻和語言模態(tài)，支持像 AST 到文本、語音到圖像或視頻字幕生成等任務(wù)。

盡管取得了令人鼓舞的進(jìn)展，當(dāng)前的任意對任意模型仍面臨一些挑戰(zhàn)。其中一個關(guān)鍵問題是模態(tài)不平衡，文本和圖像模態(tài)往往占主導(dǎo)地位，而音頻、視頻和音樂等模態(tài)則被代表不足，這限制了這些模型所能處理的任務(wù)多樣性。另一個挑戰(zhàn)是可擴展性，支持廣泛的模態(tài)增加了模型的復(fù)雜性，導(dǎo)致更高的推理延遲和更大的資源需求。此外，確保跨模態(tài)的語義一致性仍然是一個非平凡的任務(wù)，模型通常難以保持輸出的實用性和一致性。這些挑戰(zhàn)仍然是任意對任意多模態(tài)模型發(fā)展的研究方向。

盡管如此，這些模型代表了朝著開發(fā)能夠跨越整個感知和交流領(lǐng)域理解和生成的通用基礎(chǔ)模型邁出的重要一步。隨著數(shù)據(jù)、架構(gòu)和訓(xùn)練范式的不斷發(fā)展，未來的任意對任意模型預(yù)計將變得更加組合化、高效，并能夠?qū)崿F(xiàn)真正的跨模態(tài)生成。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

多模態(tài)統(tǒng)一模型的數(shù)據(jù)集

大規(guī)模、高質(zhì)量且多樣的訓(xùn)練數(shù)據(jù)是構(gòu)建強大統(tǒng)一多模態(tài)理解和生成模型的基礎(chǔ)。這些模型通常需要在大量的圖像-文本對上進(jìn)行預(yù)訓(xùn)練，以學(xué)習(xí)跨模態(tài)的相關(guān)性和表示。需要注意的是，在對大規(guī)模多模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練之前，這些模型通常會使用來自大規(guī)模自然語言語料庫（如Common Crawl 1、RedPajama、WebText等）的訓(xùn)練參數(shù)進(jìn)行初始化。由于本綜述主要集中在多模態(tài)模型上，因此本節(jié)討論將排除純文本數(shù)據(jù)。根據(jù)主要用途和模態(tài)特征，常見的預(yù)訓(xùn)練多模態(tài)數(shù)據(jù)集可以大致分為以下幾類：多模態(tài)理解數(shù)據(jù)集、文本到圖像生成數(shù)據(jù)集、圖像編輯數(shù)據(jù)集、交替圖像-文本數(shù)據(jù)集以及其他基于文本和圖像輸入的圖像生成數(shù)據(jù)集。本節(jié)將詳細(xì)介紹下表3中列出的每個類別的代表性數(shù)據(jù)集，重點關(guān)注2020年以后發(fā)布的數(shù)據(jù)集。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

多模態(tài)理解數(shù)據(jù)集

這些數(shù)據(jù)集主要用于訓(xùn)練模型的跨模態(tài)理解能力，支持圖像字幕生成、視覺問答（VQA）、圖像-文本檢索和視覺定位等任務(wù)。它們通常包含大量與相應(yīng)文本描述配對的圖像。

RedCaps：該數(shù)據(jù)集包含來自 Reddit 的1200萬個圖像-文本對，專門捕捉日常物品和時刻（如寵物、愛好、食物、休閑等），這些內(nèi)容經(jīng)常出現(xiàn)在社交媒體平臺上。
Wukong：Wukong 數(shù)據(jù)集是一個大規(guī)模的中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)集，包含1億個來自網(wǎng)絡(luò)的中文圖像-文本對。該數(shù)據(jù)集的創(chuàng)建解決了大規(guī)模高質(zhì)量中文多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)的不足，對于針對中文場景的多模態(tài)模型發(fā)展起到了重要作用。
LAION：LAION（大規(guī)模人工智能開放網(wǎng)絡(luò)）項目提供了最大規(guī)模的公開圖像-文本對數(shù)據(jù)集之一。例如，LAION-5B 包含近60億個圖像-文本對，這些數(shù)據(jù)來自網(wǎng)絡(luò)爬蟲。使用 CLIP 模型對數(shù)據(jù)進(jìn)行過濾，確保圖像和文本之間具有一定的相關(guān)性。由于其龐大的規(guī)模和多樣性，LAION 數(shù)據(jù)集已經(jīng)成為許多大型多模態(tài)模型預(yù)訓(xùn)練的基礎(chǔ)。其子集 Laion-COCO 包含6億個樣本，提供高質(zhì)量的字幕，旨在提供與 MS COCO 在風(fēng)格上更加接近的大規(guī)模數(shù)據(jù)集。
COYO：COYO 是另一個大規(guī)模圖像-文本對數(shù)據(jù)集，包含約7.47億個樣本。與 LAION 類似，它是通過網(wǎng)絡(luò)爬蟲獲得的，并經(jīng)過過濾過程。它為社區(qū)提供了 LAION 以外的另一種大規(guī)模預(yù)訓(xùn)練資源。
DataComp：DataComp 包含14億個樣本，來源于 Common Crawl，通過精心設(shè)計的過濾策略（CLIP評分和基于圖像的過濾）獲得，旨在提供比原始爬取數(shù)據(jù)更高質(zhì)量的圖像-文本對。
ShareGPT4V：該數(shù)據(jù)集提供約10萬個高質(zhì)量的圖像-文本對話數(shù)據(jù)點，專門用于增強大型多模態(tài)模型的指令跟隨和對話能力，使其成為更好的對話代理。
CapsFusion-120M：這是一個大規(guī)模的數(shù)據(jù)集，包含來自 Laion-COCO的1.2億個圖像-文本對。其字幕通過將 Laion-COCO 中的字幕與 CapsFusion-LLaMA結(jié)合獲得。
其他數(shù)據(jù)集：最近開發(fā)的其他理解數(shù)據(jù)集包括 GRIT（基于網(wǎng)格的圖像-文本表示）（20M 樣本，強調(diào)細(xì)粒度的圖像區(qū)域-文本短語對齊）。此外，雖然 SAM 數(shù)據(jù)集最初并不包含圖像-文本對，但它收錄了1100萬張高分辨率圖像和詳細(xì)的分割掩模，提供了有價值的空間和語義信息，可以增強多模態(tài)模型的細(xì)粒度理解能力，比如理解物體的位置、邊界或執(zhí)行區(qū)域特定操作。

文本到圖像數(shù)據(jù)集

這些數(shù)據(jù)集主要用于訓(xùn)練生成與文本描述相對應(yīng)的圖像的模型。它們通常由圖像-文本對組成，通常更強調(diào)圖像的審美質(zhì)量、內(nèi)容的豐富性或特定的風(fēng)格屬性。

CC-12M(Conceptual Captions 12M)：CC-12M包含約1200萬個從網(wǎng)絡(luò)Alt-text中提取并過濾的圖像-文本對。與原始的網(wǎng)頁抓取數(shù)據(jù)相比，其文本描述通常更加簡潔和描述性，使其成為訓(xùn)練文本到圖像模型的廣泛使用的數(shù)據(jù)集。
LAION-Aesthetics：這是LAION數(shù)據(jù)集的一個子集，通過使用審美評分模型進(jìn)行過濾，選擇大約1.2億張被認(rèn)為具有較高“審美價值”的圖像（及其文本）。
Mario-10M 和 AnyWord-3M：這兩個數(shù)據(jù)集關(guān)注圖像中文字的準(zhǔn)確渲染。Mario-10M（1000萬個樣本）用于訓(xùn)練TextDiffuser模型，AnyWord-3M（300萬個樣本）用于訓(xùn)練AnyText，提供專門設(shè)計的數(shù)據(jù)，用于提高生成圖像中文本的可讀性和位置。
JourneyDB：JourneyDB包含400萬個由Midjourney平臺生成的高質(zhì)量圖像-提示對。由于Midjourney以生成創(chuàng)意和藝術(shù)性圖像而聞名，這個數(shù)據(jù)集為訓(xùn)練模型學(xué)習(xí)復(fù)雜、詳細(xì)和藝術(shù)風(fēng)格的文本到圖像映射提供了寶貴的資源。
CosmicMan-HQ 1.0：該數(shù)據(jù)集包含600萬個高質(zhì)量的真實世界人像圖像，平均分辨率為1488 × 1255像素。這個數(shù)據(jù)集的特色在于其精確的文本注釋，來自1.15億個不同粒度的屬性。它可以用于提高生成人體圖像的能力。
PixelProse：PixelProse從DataComp、CC-12M和RedCaps中提取，包含豐富注釋的圖像及其對應(yīng)的文本描述。這個數(shù)據(jù)集提供了如水印存在與否、審美分?jǐn)?shù)等有價值的元數(shù)據(jù)，可以用于過濾出符合期望的圖像。
Megalith：Megalith是一個數(shù)據(jù)集，包含約1000萬個Flickr圖像鏈接，分類為“照片”，并具有不受版權(quán)限制的許可。社區(qū)使用如ShareCaptioner、Florence2和InternVL2等模型生成的字幕公開提供。
PD12M：PD12M包含1240萬張高質(zhì)量的公共領(lǐng)域和CC0許可圖像，這些圖像與使用Florence-2-large生成的合成標(biāo)題配對。該數(shù)據(jù)集專為訓(xùn)練文本到圖像模型設(shè)計，提供了大量的資源，并最大限度地減少了版權(quán)問題。
其他數(shù)據(jù)集：SAM數(shù)據(jù)集（約1100萬張高分辨率圖像）和DenseFusion（100萬個樣本）是其他可能的數(shù)據(jù)源，用于訓(xùn)練文本到圖像生成模型。需要注意的是，多模態(tài)理解數(shù)據(jù)集可以通過審美分?jǐn)?shù)過濾、NSFW過濾、分辨率過濾、水印過濾、重新標(biāo)題等方式，用于合成文本到圖像生成數(shù)據(jù)，但此處未作介紹。

圖像編輯數(shù)據(jù)集

隨著模型能力的提升，基于指令的圖像編輯已成為一個重要的研究方向。此類數(shù)據(jù)集通常包含（源圖像、編輯指令、目標(biāo)圖像）的三元組。這些數(shù)據(jù)集用于訓(xùn)練模型根據(jù)文本指令修改輸入圖像，從而增強統(tǒng)一模型的理解和生成能力。

InstructPix2Pix：該數(shù)據(jù)集采用創(chuàng)新的合成方法生成：首先，使用大語言模型（如GPT-3）生成編輯指令和目標(biāo)圖像的標(biāo)題；然后，使用文本到圖像模型（如Stable Diffusion）根據(jù)原始和目標(biāo)標(biāo)題生成“前后”圖像。此方法自動創(chuàng)建了約313K（指令、輸入圖像、輸出圖像）訓(xùn)練樣本。
MagicBrush：MagicBrush是一個高質(zhì)量的、人工注釋的數(shù)據(jù)集，用于基于指令的圖像編輯。它包含約10K樣本，涵蓋各種現(xiàn)實且精細(xì)的編輯操作（如物體添加/移除/替換、屬性修改、風(fēng)格轉(zhuǎn)換），并提供了編輯區(qū)域的掩碼。其人工注釋使得指令更加自然和多樣。
HQ-Edit，SEED-Data-Edit，UltraEdit，OmniEdit，AnyEdit：這些是近年來更大規(guī)模的圖像編輯數(shù)據(jù)集。例如，SEED-Data-Edit包含370萬個樣本，UltraEdit有400萬個樣本，AnyEdit提供250萬個樣本，OmniEdit包含120萬個樣本，HQ-Edit包含19.7萬個樣本。它們通常結(jié)合了自動生成與人工過濾/注釋，旨在提供更大規(guī)模、更高質(zhì)量和更多樣化的編輯指令和圖像對，用于訓(xùn)練更強大的指令跟隨編輯模型。

圖像-文本交織數(shù)據(jù)集

除了由配對圖像和標(biāo)題組成的數(shù)據(jù)集之外，另一個重要的類別是圖像-文本交織數(shù)據(jù)集。這些數(shù)據(jù)集包含文檔或序列，其中文本和圖像自然地交替出現(xiàn)，類似于網(wǎng)頁或文檔中的內(nèi)容。對這些交織數(shù)據(jù)進(jìn)行訓(xùn)練，可以增強模型理解和生成多模態(tài)內(nèi)容的能力，這是統(tǒng)一模型的一個重要目標(biāo)。

Multimodal C4 (MMC4)：MMC4通過算法將圖像交織到來源于Common Crawl的文本文檔中，從而增強了大規(guī)模文本-only C4語料庫。該公共數(shù)據(jù)集包含超過1.01億個文檔和5.71億張圖像，旨在為旨在處理圖像和文本混合序列的模型提供必要的交織預(yù)訓(xùn)練數(shù)據(jù)。
OBELICS：OBELICS是一個開放的、Web規(guī)模的數(shù)據(jù)集，包含從Common Crawl中提取的1.41億個多模態(tài)Web文檔，特征包括3.53億張圖像和1150億個文本標(biāo)記。該數(shù)據(jù)集側(cè)重于捕獲完整的文檔結(jié)構(gòu)，而非孤立的圖像-文本對，旨在提高模型在各種基準(zhǔn)測試中的表現(xiàn)。
CoMM：CoMM是一個高質(zhì)量的、精心策劃的數(shù)據(jù)集，專門關(guān)注圖像-文本交織序列的一致性和連貫性，包含約227K個樣本。它通過多角度過濾策略，主要來源于教程和視覺故事網(wǎng)站（如WikiHow），解決了在更大數(shù)據(jù)集中觀察到的敘事流程和視覺一致性問題。CoMM旨在提升MLLM生成邏輯結(jié)構(gòu)和視覺一致的多模態(tài)內(nèi)容的能力，并引入了新型的基準(zhǔn)任務(wù)，專門評估這些能力。

其他文本+圖像到圖像的數(shù)據(jù)集

除了前面提到的類別，為了進(jìn)一步增強統(tǒng)一模型的能力—例如根據(jù)提供的主題圖像生成圖像，或利用控制信號（如深度圖、Canny 邊緣圖）—本文在本節(jié)中介紹相關(guān)的數(shù)據(jù)集。

LAION-Face：上面討論的數(shù)據(jù)集側(cè)重于一般的主題驅(qū)動生成，而 ID 保持圖像生成代表了這一類別的一個特殊子集。利用 LAION-Face 數(shù)據(jù)集，其中包含 5000 萬個圖像-文本對，最近的進(jìn)展如 InstantID成功地在保持角色身份的同時生成圖像。
MultiGen-20M：該數(shù)據(jù)集包含 2000 萬個樣本，旨在訓(xùn)練能夠基于多個控制信號（例如文本描述、邊緣圖、深度圖、分割掩碼、草圖）進(jìn)行統(tǒng)一圖像生成的模型，如 UniControl 。它整合了來自多個來源的數(shù)據(jù)，并將它們轉(zhuǎn)換為統(tǒng)一格式，使模型能夠?qū)W習(xí)多任務(wù)、多條件的圖像生成。數(shù)據(jù)集可以結(jié)構(gòu)化為三元組，例如“深度圖、帶有提示的指令、目標(biāo)圖像”（例如提示可能為：“根據(jù)深度圖生成一幅令人印象深刻的場景。”），以有效地訓(xùn)練統(tǒng)一模型。
Subjects200K：包含 20 萬個樣本，Subjects200K 集中于主題驅(qū)動的圖像生成，對于個性化內(nèi)容創(chuàng)作至關(guān)重要。該數(shù)據(jù)集通過多階段pipeline合成生成：首先，由一個大語言模型（如 ChatGPT-4o）創(chuàng)建涉及物體類別和場景的結(jié)構(gòu)化描述；隨后，由一個圖像合成模型（如 FLUX ）根據(jù)這些描述生成多樣化且一致的配對圖像；最后，LLM 對生成的配對進(jìn)行質(zhì)量評估，以確保主題一致性、正確的構(gòu)圖和高分辨率。
SynCD：SynCD（Synthetic Customization Dataset）提供了大約 9.5 萬組專門為文本+圖像到圖像定制任務(wù)設(shè)計的圖像集，解決了缺乏多種條件下同一對象的公開數(shù)據(jù)集的問題。它通過利用現(xiàn)有的文本到圖像模型和 3D 資產(chǎn)數(shù)據(jù)集（如 Objaverse）來生成對象的多種一致視圖，具有不同的光照、背景和姿勢，并結(jié)合了共享注意力和深度引導(dǎo)等技術(shù)。主題驅(qū)動的生成，涉及單一和多個主題，是一種日益受到社區(qū)關(guān)注的圖像生成能力。這也是統(tǒng)一模型中一個重要的特性。然而，從公開數(shù)據(jù)集中獲取這種專業(yè)化的數(shù)據(jù)較為困難，因此經(jīng)常使用數(shù)據(jù)合成方法，如 Subjects200K 和 SynCD 數(shù)據(jù)集所示。這些數(shù)據(jù)集展示了利用合成數(shù)據(jù)來解決公開可用訓(xùn)練樣本短缺問題的日益增長的依賴。

為了創(chuàng)建大規(guī)模數(shù)據(jù)集，已開發(fā)出多種pipeline，用于程序化生成合適的訓(xùn)練數(shù)據(jù)，通常利用現(xiàn)成的圖像或視頻來源。以下是這些pipeline的簡要概述，供參考。

從圖像合成數(shù)據(jù)：這些pipeline通常從單張圖像開始，使用像 BLIP-2 或 Kosmos2 這樣的模型進(jìn)行初步標(biāo)注（包括使用邊界框進(jìn)行的定位標(biāo)注），然后通過物體檢測（例如 Grounding DINO）和分割（例如 SAM）來提取物體的掩碼和區(qū)域標(biāo)注。這些pipeline可以生成單一物體定制和多個物體定制的數(shù)據(jù)。
從視頻合成數(shù)據(jù)：從圖像構(gòu)建的數(shù)據(jù)通常會導(dǎo)致模型學(xué)習(xí)中的復(fù)制粘貼問題。通過從不同幀中提取物體，使用視頻分割模型（如 SAM2）的視頻合成數(shù)據(jù)pipeline可以緩解這一問題。此外，這一pipeline還可以支持圖像編輯任務(wù)的訓(xùn)練數(shù)據(jù)生成。

強大的統(tǒng)一多模態(tài)模型在很大程度上依賴于最近開發(fā)的大規(guī)模、高質(zhì)量和多樣化的訓(xùn)練數(shù)據(jù)集，這些數(shù)據(jù)集包括圖像-文本對、交織的圖像-文本文檔和特定任務(wù)格式。雖然大規(guī)模的網(wǎng)絡(luò)規(guī)模配對數(shù)據(jù)（如 LAION、COYO）和交織的文檔語料庫（如 MMC4、OBELICS）為預(yù)訓(xùn)練提供了廣泛的語義覆蓋和上下文理解，但顯著的努力集中在提高數(shù)據(jù)質(zhì)量和為特定屬性或高級能力定制資源上。專門化的數(shù)據(jù)集對于提升基于指令的編輯、精確文本渲染、一致的多模態(tài)生成和復(fù)雜的條件控制變得越來越重要。此外，認(rèn)識到高質(zhì)量公開數(shù)據(jù)的稀缺性，特別是在圖像編輯和主題定制任務(wù)等方面，開發(fā)和利用數(shù)據(jù)合成管道變得至關(guān)重要，這使得能夠創(chuàng)建針對性數(shù)據(jù)集以訓(xùn)練這些高度專業(yè)化的模型功能。最終，數(shù)據(jù)資源的持續(xù)演變、規(guī)模擴大、針對性專門化和創(chuàng)新的合成是推動統(tǒng)一多模態(tài)模型越來越復(fù)雜的理解和生成能力的根本動力。

基準(zhǔn)測試

現(xiàn)代的大規(guī)模統(tǒng)一多模態(tài)模型不僅需要在像素級對視覺和語言信息進(jìn)行對齊，還要能夠進(jìn)行復(fù)雜的推理，支持連貫的多輪對話，并整合外部知識。同時，這些模型還需要生成高保真度的視覺輸出，忠實地遵循文本提示，并為用戶提供對風(fēng)格和組成元素的精細(xì)控制。本節(jié)系統(tǒng)地總結(jié)了相關(guān)的評估基準(zhǔn)。請參閱下表 4 以獲取統(tǒng)計摘要。

多模態(tài)與生成正邁向終極大一統(tǒng)！阿里最新3萬字長文梳理統(tǒng)一的多模態(tài)理解和生成模型-AI.x社區(qū)

理解評估

感知。現(xiàn)代的視覺-語言大規(guī)模模型必須準(zhǔn)確地將視覺輸入與語言描述進(jìn)行對接，通過定位、識別和檢索。早期的圖像-文本檢索和標(biāo)題生成基準(zhǔn)（如Flickr30k，MS COCO Captions）評估模型是否能夠檢索相關(guān)標(biāo)題并將文本短語定位到圖像區(qū)域。視覺問答基準(zhǔn)（如VQA，VQA v2，VisDial，TextVQA）進(jìn)一步要求模型解釋復(fù)雜的場景并回答關(guān)于物體、屬性和關(guān)系的自由形式問題。領(lǐng)域特定的挑戰(zhàn)（如ChartQA）評估對結(jié)構(gòu)化圖表和圖形的理解，而VSR則探討現(xiàn)實世界圖像中的空間關(guān)系推理。

為了統(tǒng)一評估，大規(guī)模的元基準(zhǔn)套件測試低級別的感知和專家推理。MMBench 提供了3K個雙語多項選擇問題，涵蓋了定位、識別和檢索，支持跨語言對比。MMMU 添加了大約11.5K個大學(xué)級別的多模態(tài)問題，涵蓋六個學(xué)科，測試領(lǐng)域知識和邏輯推理。HaluEval 診斷模型生成的陳述中的幻覺識別。MM-Vet涵蓋了識別、OCR、空間推理、數(shù)學(xué)和開放式問答，其v2進(jìn)一步評估交錯的圖像-文本序列。SEED-Bench設(shè)計了一個生成多項選擇問題的管道，針對特定的評估維度，最終提供了19K個多項選擇項，涵蓋12個維度。LLaVa-Bench 提供了COCO和真實圖像集，并配有密集查詢，用于通用化檢查。LAMM提供了涵蓋2D和3D模式的指令調(diào)優(yōu)示例，用于代理開發(fā)。Open-VQA設(shè)計了分層的后續(xù)問題，以完善粗略的VQA答案。OwlEval提供了人工評定的開放式視覺問題，評估其相關(guān)性和信息量。MMStar精心策劃了涵蓋六個核心技能和18個評估軸的挑戰(zhàn)樣本，用于高精度評估。

推理。在感知級別評估的基礎(chǔ)上，推理基準(zhǔn)探討更豐富的認(rèn)知技能。CLEVR系統(tǒng)地改變物體屬性和空間關(guān)系，迫使模型執(zhí)行多跳程序，測試計數(shù)、比較和關(guān)系邏輯。轉(zhuǎn)向自然圖像，GQA利用密集場景圖生成組合問題，其功能程序用于測試一致性、定位和可信性。

常識推理擴展（如OK-VQA及其較大的后續(xù)版本A-OKVQA）選擇問題，其答案超出了圖像，需要在世界知識庫上進(jìn)行檢索或推理。VCR進(jìn)一步要求模型不僅選擇正確的答案，還要選擇一個連貫的理由，從而將識別與解釋結(jié)合起來，測試多步常識鏈條。

領(lǐng)域特定的推理數(shù)據(jù)集將這一進(jìn)展擴展到超越日常場景的范圍。ChartQA引入了將視覺感知與對條形圖、折線圖和餅圖的定量推理相結(jié)合的問題，整合數(shù)據(jù)提取、邏輯比較和算術(shù)計算。MathVista將范圍擴展到數(shù)學(xué)問題求解，在視覺上下文中結(jié)合了細(xì)粒度的視覺理解和符號操作，涵蓋了多樣化的示例。這些基準(zhǔn)測試形成了一個分層的光譜，涵蓋了結(jié)構(gòu)化邏輯推理、開放領(lǐng)域常識、視覺解釋和數(shù)字密集型任務(wù)，為多模態(tài)推理系統(tǒng)提供了全面的壓力測試。

圖像生成評估

文本到圖像生成。早期的自動化評估指標(biāo)（如FID 和 CLIPScore）為圖像質(zhì)量評估奠定了基礎(chǔ)。然而，最近的基準(zhǔn)將重點轉(zhuǎn)向了組合性、對齊性和現(xiàn)實世界的適用性。GenEval 評估六個細(xì)化任務(wù)，包括單物體生成、物體共現(xiàn)、計數(shù)、顏色控制、相對定位和屬性綁定，通過將預(yù)訓(xùn)練的檢測器輸出與真實注釋進(jìn)行比較來進(jìn)行評估。

在此基礎(chǔ)上，GenAI-Bench 提出了1600個精心設(shè)計的人類提示，涵蓋了關(guān)系、邏輯和屬性等類別。其評估框架結(jié)合了人類偏好判斷與自動對齊評分，提供了全面的評估。此外，HRS-Bench 評估了準(zhǔn)確性、魯棒性、泛化能力、公平性和偏差等13個不同的技能，將其分為五大類，從而確保了可擴展性和可靠的性能測量。此外，DPG-Bench專注于密集提示，描述了多個物體，每個物體具有多種屬性和關(guān)系。

T2I-CompBench及其后續(xù)版本T2I-CompBench++ 專門針對組合生成的泛化能力，測試生成新的屬性和關(guān)系組合，使用基于檢測器的評分。VISOR提出了一個自動化方法來評估生成模型的空間理解能力。與此互補，Commonsense-T2I 挑戰(zhàn)模型描繪需要常識基礎(chǔ)的日常概念。

為了支持大規(guī)模的概念多樣性，EvalMuse-40K提供了40K個眾包提示，專注于細(xì)致的概念表示，HEIM確定了12個方面，包括文本-圖像對齊、圖像質(zhì)量、美學(xué)、原創(chuàng)性、推理、知識、偏差、毒性、公平性、魯棒性、跨語言能力和效率。考慮到實際需求，F(xiàn)lashEval通過迭代搜索將大規(guī)模評估集縮小為多樣化的小型評估集，以加速基準(zhǔn)測試。MEMO-Bench 引入了一個全面的基準(zhǔn)，評估T2I模型和多模態(tài)大語言模型的情感理解與表達(dá)能力。

圖像編輯。指導(dǎo)性圖像編輯的基準(zhǔn)在規(guī)模和范圍上不斷擴大。MagicBrush 是第一個大規(guī)模、手動注釋的數(shù)據(jù)集，用于指導(dǎo)性的真實圖像編輯，涵蓋了多種場景：單輪、多輪、掩碼提供和無掩碼編輯。HQ-Edit包含約20萬個高分辨率編輯，計算了對齊性和一致性評分，允許通過GPT-4V定量評估圖像編輯對。

在此基礎(chǔ)上，I2EBench 整合了2000多張圖像和超過4000條跨16個編輯維度的多步驟指令。EditVAl提供了一個標(biāo)準(zhǔn)化的基準(zhǔn)，使用預(yù)訓(xùn)練的視覺-語言模型自動評估編輯類型，并且其評分與人類評估高度相關(guān)。Emu-Edit 包括七個基于指令的編輯任務(wù)，涵蓋背景更改、綜合修改、風(fēng)格變換、物體移除、物體添加、局部編輯和紋理修改，提供了帶有輸入/輸出描述的人類指令/圖像對。HumanEdit提供了5751張高分辨率圖像，配有跨六個編輯類別的開放式語言指令：動作、添加、計數(shù)、關(guān)系、移除和替換，并配有掩碼和多階段的人工反饋，以嚴(yán)格評估指導(dǎo)性圖像編輯模型。

最近，提出了GEdit-Bench，這是一個現(xiàn)實世界的圖像編輯基準(zhǔn)，包含606個圖像-指令對，來自1000多個用戶編輯示例，旨在全面評估實際圖像編輯模型的表現(xiàn)。

其他類型的圖像生成

除了文本到圖像生成和圖像編輯，其他基準(zhǔn)測試則探討了大規(guī)模條件化和個性化合成。MultiGen-20M 包含來自LAION-Aesthetics-V2的2000萬對圖像-提示-條件三元組，用于在不同視覺條件下評估對齊性，并提供每個任務(wù)100-300個圖像-條件-提示三元組的評估集。

DreamBench引入了一個個性化生成測試，涵蓋30個參考對象，配有精心策劃的提示和人工注釋的保真度評判。DreamBench++ 擴展了這個框架，包含150個多樣的參考圖像和1350個提示，采用先進(jìn)的多模態(tài)語言模型進(jìn)行自動化、人類對齊的評分，評估概念保留、組成忠實性和風(fēng)格一致性。總的來說，這些數(shù)據(jù)集提供了從大規(guī)模自動化基準(zhǔn)到聚焦于人類中心的條件和主題驅(qū)動圖像生成評估的統(tǒng)一譜系。

交替生成的評估

交替評估基準(zhǔn)挑戰(zhàn)模型無縫地在文本和圖像模態(tài)之間交替生成，反映了現(xiàn)實世界中的對話和講故事場景。InterleavedBench 是第一個專門為交替文本和圖像生成評估而精心策劃的基準(zhǔn)，涵蓋了多樣的任務(wù)，評估模型在文本質(zhì)量、感知保真度、多模態(tài)一致性和有用性方面的表現(xiàn)。基于此，ISG 引入了場景圖注釋和四級評估（整體、結(jié)構(gòu)、區(qū)塊級別和圖像特定）來對1000個樣本的八個場景和21個子任務(wù)進(jìn)行細(xì)粒度評估，提供了對交替文本-圖像輸出的深入考核。

其他基準(zhǔn)強調(diào)開放領(lǐng)域指令和端到端的交替生成。OpenING收集了5000個人工注釋的實例，涵蓋56個現(xiàn)實世界任務(wù)（例如旅游指南、設(shè)計構(gòu)思），并使用IntJudge測試開放式多模態(tài)生成方法在任意指令驅(qū)動的交替生成中的表現(xiàn)。相對地，OpenLEAF收集了30個開放領(lǐng)域的查詢，每個查詢都經(jīng)過注釋員的撰寫和審閱，旨在探討基礎(chǔ)的交替文本-圖像生成，通過LMM評估器和人工驗證來衡量實體和風(fēng)格的一致性。最后，MMIE提出了一個統(tǒng)一的交替生成基準(zhǔn)，采樣自12個領(lǐng)域和102個子領(lǐng)域，提供了多項選擇題和開放式問題格式，評估模型在多樣化方式中的表現(xiàn)。

統(tǒng)一模型的挑戰(zhàn)與機會

目前，統(tǒng)一的多模態(tài)模型仍處于初級階段，面臨一些顯著挑戰(zhàn)，必須解決這些問題才能實現(xiàn)強大且可擴展的理解與生成能力。首先，視覺和文本數(shù)據(jù)的高維度導(dǎo)致極長的標(biāo)記序列。有效的標(biāo)記化和壓縮策略對于減少內(nèi)存和計算成本同時保持表示的忠實度至關(guān)重要。

其次，隨著圖像分辨率和上下文長度的增加，跨模態(tài)注意力成為性能瓶頸。稀疏或?qū)哟位⒁饬C制等可擴展的替代方法可能有助于緩解這一問題。第三，預(yù)訓(xùn)練數(shù)據(jù)集往往包含噪聲或偏見的圖像-文本對，特別是在復(fù)雜的圖像構(gòu)圖和交替圖像-文本數(shù)據(jù)中。可靠的數(shù)據(jù)過濾、去偏和合成對于確保公平性和魯棒性至關(guān)重要。第四，評估協(xié)議通常為單一任務(wù)設(shè)計，存在對理解和生成綜合評估的需求，尤其是在圖像編輯和交替圖像-文本生成等復(fù)雜任務(wù)中。

據(jù)本文所知，目前大多數(shù)統(tǒng)一的多模態(tài)模型主要強調(diào)圖像理解和文本到圖像生成，而圖像編輯等能力僅通過后期微調(diào)實現(xiàn)。此外，像空間控制圖像生成、基于主題的圖像生成和交替圖像-文本生成等高級功能，在統(tǒng)一框架中仍未得到充分探索。因此，本文認(rèn)為，通過解決關(guān)鍵領(lǐng)域如架構(gòu)設(shè)計、訓(xùn)練效率、數(shù)據(jù)集策劃和評估方法，有豐富的機會推動該領(lǐng)域的進(jìn)步。

結(jié)論

本文提供了一個全面的視角，探討了將視覺-語言理解與圖像生成集成在單一框架中的統(tǒng)一多模態(tài)模型。首先，本文簡要概述了多模態(tài)理解和文本到圖像生成模型的基礎(chǔ)知識和近期進(jìn)展。接下來，本文通過將統(tǒng)一多模態(tài)模型分為三大范式：基于擴散的、基于自回歸的和混合型方法，對相關(guān)工作進(jìn)行系統(tǒng)的調(diào)查。對于每個范式，本文介紹了相關(guān)的工作，并進(jìn)一步細(xì)分成不同的子類別，幫助讀者更好地掌握該領(lǐng)域的全貌。此外，本文策劃了相關(guān)的數(shù)據(jù)集和基準(zhǔn)，以促進(jìn)實踐中的實現(xiàn)和評估。最后，本文討論了該領(lǐng)域的關(guān)鍵挑戰(zhàn)和機遇，強調(diào)了統(tǒng)一多模態(tài)模型的研究仍處于起步階段。本文希望本文的綜述能為推動統(tǒng)一多模態(tài)模型研究與創(chuàng)新提供寶貴的資源。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/UlnP259d6AayABCFEeNC0w??

標(biāo)簽

圖像生成

模型

贊

回復(fù)