統一多模態大模型!PUMA:多粒度策略笑傲生成、編輯、修復、著色、條件生成和理解!
文章鏈接:https://arxiv.org/pdf/2410.13861
項目鏈接:https://github.com/rongyaofang/PUMA
亮點直擊
- 多粒度特征處理: PUMA 能夠同時處理粗粒度和細粒度的視覺特征,適應不同任務的需求,如文本到圖像生成和圖像編輯,解決了現有模型在多樣性和精確可控性之間的平衡問題。
- 統一多模態框架: PUMA 通過統一的多模態大模型框架,無縫集成圖像生成與理解,適用于從多樣化圖像生成到精確圖像編輯等多種任務,擴展了多模態模型的應用范圍。
- 兩階段訓練策略: 首先微調預訓練的擴散模型進行圖像解碼,然后訓練自回歸多模態模型生成多尺度圖像特征,優化了多任務處理的性能。
- 廣泛的多模態任務適應性: PUMA 通過在語言-視覺數據集上的大規模預訓練和指令微調,展示了其在圖像理解、文本到圖像生成、圖像修復等多種任務中的出色表現。
- a) 圖像生成任務中的多樣性和可控性權衡:多樣化的文本到圖像生成需要高多樣性和保真度,而條件生成和修剪等任務需要對圖像進行高可控性。
- b) 引入的PUMA是一種統一的多模態大語言模型,可以處理和生成多粒度視覺表示,平衡視覺生成任務的多樣性和可控性。它擅長圖像理解、多樣化的文本到圖像生成、編輯、修復、著色和條件圖像生成。
總結速覽
解決的問題:
現有的多模態大模型(MLLMs)在視覺內容生成方面沒有充分解決不同圖像生成任務對粒度的需求差異,尤其是從文本到圖像生成的多樣性需求以及圖像編輯中的精確可控性。
提出的方案:
提出了一種名為PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通過統一多粒度視覺特征作為MLLMs的輸入和輸出,優雅地解決不同任務的粒度需求。
應用的技術:
采用了多模態預訓練和任務特定的指令微調,將多粒度視覺生成功能融入到統一的MLLM框架中。
達到的效果:
PUMA在廣泛的多模態任務中表現出色,能夠適應不同視覺任務的粒度需求,向真正統一的MLLM邁出了重要一步。
方法
現有的方法通常僅優化細粒度或粗粒度特征,從而在精確控制和生成多樣性之間存在權衡。為克服這一局限性,本文提出了PUMA,一個統一的多粒度MLLM范式。本文的方法能夠在統一的MLLM框架中同時處理多個層次的特征粒度,促進跨多種多模態任務的無縫轉換。
本文的框架包括三個關鍵組成部分:圖像編碼器、基于不同粒度特征的圖像解碼器集合以及多粒度自回歸MLLM。這些組件協同工作,以提取、處理和生成多尺度圖像特征,適應各種任務特定的粒度需求。為了優化MLLM,采用了預訓練和指令微調的兩階段過程,使其能夠執行包括圖像理解、生成、編輯和條件圖像生成在內的多種任務。
圖像編碼與多粒度特征提取
多粒度視覺解碼
不同粒度的圖像特征編碼了不同層次的信息。采用基于擴散模型的解碼器,因為它們能夠靈活處理多尺度特征。在處理粗粒度語義特征時,解碼器能夠有效地利用它們學習到的圖像先驗,補充缺失的細粒度信息,并生成多樣化且語義對齊的圖像。另一方面,在處理細粒度特征時,它們能夠準確重構精確的圖像細節。這種在不同粒度下生成或重構圖像的多樣性使基于擴散模型的解碼器非常適合多粒度的方法。
下圖4展示了不同粒度圖像解碼的訓練過程,其中圖像編碼器被凍結以保留語義屬性。
下圖3展示了多粒度解碼器的視覺解碼能力。這些可視化結果顯示了在不同粒度下解碼圖像的保真度,細粒度特征能夠生成與原始輸入更接近的重構圖像,而粗粒度特征則根據輸入圖像的語義引導生成圖像。這驗證了本文方法在保留和利用多粒度視覺信息方面的有效性。
該多粒度解碼框架與層次化特征提取相結合,為MLLM架構的后續階段奠定了基礎,為后期訓練階段中的多樣化視覺任務鋪平了道路。
自回歸MLLM中的漸進多粒度圖像建模
為了利用一個能夠適應各種具有不同粒度需求的視覺-語言任務的統一框架,設計了一個自回歸MLLM來處理和生成文本tokens及多粒度圖像特征。
自回歸MLLM,記為 M,逐步處理文本和多粒度圖像特征,如下圖2所示。模型逐個tokens地處理特征,在每個粒度級別內依次預測每個token,并從最粗的粒度級別N逐漸過渡到最細的粒度級別0。這種方法允許模型在獲取更多詳細信息時逐步改進其預測。
將輸入序列構建為文本tokens和來自多個粒度級別的展平圖像特征tokens的拼接。該漸進方法使模型能夠捕捉不同尺度間的依賴關系,從粗略的全局結構到精細的局部細節。
MLLM通過自回歸的下一個token預測目標進行訓練,結合了文本和圖像的損失。
多模態預訓練和指令微調
為了展示統一多粒度范式的有效性,為PUMA實施了一個全面的兩階段訓練流程:首先是多模態預訓練,隨后是任務特定的指令微調。這種方法使模型首先獲得廣泛的多模態能力,然后在后續的指令微調階段專注于目標視覺語言任務。
多模態預訓練:多模態預訓練利用了一組多樣化的大規模數據集:Laion-2B、Laion-Aesthetics、GRIT、The Pile、OCR-VQA-200K 和 LLaVAR。這些數據集的組合提供了豐富的圖文對、文本數據和特定的視覺問答樣本。為了增強模型對圖文關系的雙向理解,采用了一種動態訓練策略,隨機交替每個圖文對的文本生成圖像和圖像生成文本任務。
指令微調:在預訓練之后,進行針對性的指令微調,使模型適應特定的視覺語言任務。為了評估PUMA在不同任務類型上的表現,針對四種任務分別微調了四個模型,每個模型都從預訓練檢查點初始化。
- 高質量的文本生成圖像:利用 Laion-Aesthetics 和 JourneyDB 數據集,專注于生成美觀且多樣化的圖像。
- 精確的圖像操作:通過SEED-Edit數據集進行訓練,實現準確且可控的圖像編輯。
- 條件圖像生成:利用 MultiGen-20M 數據集的子集(包括輪廓生成、修復、和著色)使模型具備在特定條件和限制下生成圖像的能力。
- 圖像理解:通過 LLaVA-OneVision 和 Cambrian 數據集的子集進行微調,以增強模型的圖像理解能力。數據集中關于數學/推理以及重復數據被移除。
實驗
實驗結果如下:首先詳細描述了實驗設置。再評估了多粒度特征編碼和基于擴散的多粒度圖像解碼器的有效性。隨后展示了 PUMA 在多項任務中的多功能性:多樣化的文本生成圖像、圖像編輯、條件圖像生成和視覺語言理解。
設置
統一多粒度多模態語言模型 (MLLM) 采用 LLaMA-3 8B 作為語言模型骨干,使用 CLIP-Large (224×224 輸入) 作為圖像編碼器。圖像解碼器則初始化自預訓練的 SDXL 模型。
多粒度視覺解碼
細粒度圖像重構
細粒度圖像重構對于保持圖像細節至關重要,但對模型如 SEED-LLaMA、SEED-X 和 Emu2 而言是個重大挑戰。SEED-LLaMA 和 SEED-X 在詳細重構上表現不佳,限制了它們在不使用如條件圖像輸入(SEED-X 中使用的)等額外技術的情況下精確操作圖像的能力。Emu2 嘗試通過將其圖像編碼器擴大至40億參數來改進重構。本文的方法則通過更高效的架構實現了優越的重構質量。
下圖5也直觀展示了本文方法在重構質量上的優越性。
語義引導的生成
多樣化文本生成圖像
為定量評估,在 MSCOCO 30K 驗證數據集上評估了模型,并在下表2中展示了 CLIP-I、CLIP-T 和 LPIPSd 指標,前兩者衡量一致性,而 LPIPSd 衡量生成多樣性。與近期工作相比,本文的模型在生成質量、多樣性和提示詞相關性上表現出了優越的性能。
圖像編輯
為了評估PUMA的圖像編輯能力,在Emu-Edit測試基準上進行了評估。結果顯示在下表3中,包括CLIP-I、CLIP-T和DINO得分。CLIP-I和DINO得分衡量模型保留源圖像元素的能力,而CLIP-T反映輸出圖像與目標標題之間的一致性。
發現表明,PUMA展示了強大的保留能力,僅次于當前的最先進模型EMU-Edit。值得注意的是,PUMA在CLIP-T得分上顯著更高,甚至超越了最先進模型,這表明其在編輯圖像與目標標題之間的對齊能力更強。圖8中的可視化結果展示了PUMA在圖像操控任務中的有效性。
條件圖像生成
圖像理解
在多個MLLM基準(如MMB、MME、GQA、VQAv2、POPE和Vizwiz)上評估了PUMA的圖像理解性能。該評估的結果見下表4。盡管PUMA的參數數量相對較少(8B參數),且使用了224 × 224分辨率的圖像編碼器,但它在圖像理解性能上展現出競爭力,并且在許多情況下優于其他統一理解和生成模型。
值得注意的是,在某些指標上,PUMA的表現甚至超過了一些僅進行理解的基線模型。這種性能可以歸因于PUMA使用多粒度連續視覺tokens作為輸入到MLLM。關于不同尺度特征輸入對圖像理解任務影響的詳細消融研究可在附錄中找到,為PUMA的多粒度策略的有效性提供了進一步的見解。
消融研究
結論
本文介紹了PUMA,一種新的統一多粒度MLLM,它整合了視覺生成和理解中的各種粒度任務。通過利用多粒度表示,PUMA有效地解決了圖像生成任務中平衡多樣性和可控性的挑戰。本文的方法在多種視覺任務中展示了優越的性能,包括多樣化的文本到圖像生成、圖像編輯、修復、上色、條件生成和理解。PUMA在單一框架內適應不同粒度需求的能力標志著MLLM能力的重大進步。這項工作為更通用和強大的多模態人工智能系統開辟了新可能性,助力實現多模態領域的人工通用智能的更廣泛目標。
本文轉自AI生成未來 ,作者:AI生成未來
