理解生成協同促進？華為諾亞提出ILLUME，15M數據實現多模態理解生成一體化

作者：機器之心 2024-12-31 14:00:00

近期，華為諾亞方舟實驗室提出了統一多模態大模型 ——ILLUME。這一模型以 LLM 為核心，采用 “連續圖像輸入 + 離散圖像輸出” 的架構，巧妙融合了多模態理解與生成的雙重能力，并深度挖掘了統一框架下理解與生成能力協同增強的潛力，展示了對多模態任務的全新詮釋。

多模態理解與生成一體化模型，致力于將視覺理解與生成能力融入同一框架，不僅推動了任務協同與泛化能力的突破，更重要的是，它代表著對類人智能（AGI）的一種深層探索。通過在單一模型中統一理解與生成，模型能夠從語義層面真正 “洞察” 視覺、文本與世界本質之間的深層聯系，從而在復雜場景中實現更加智能、靈活的交互與任務執行。

論文標題：ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
論文地址：https://arxiv.org/pdf/2412.06673

總體來說，本文貢獻如下：

1、ILLUME 在保持整體架構可擴展與可泛化的前提下，通過合理的視覺詞表、訓練策略與數據配比策略，成功以僅約 15M 的圖文對數據用于圖文對齊，實現了在視覺理解（包括自然圖像和文檔圖表）、生成、編輯等多元任務上的出色表現，總體效果優于現有統一模型例如 Chameleon, Show-O 和 Janus，與專用單任務模型相媲美。

2、ILLUME 提出一種自提升式多模態對齊策略，通過讓模型對自身生成的負樣本進行內省式評估，統一模型在理解和生成兩方面的能力可實現協同進化。

ILLUME：理解生成一體的多模態大模型

挑戰一：如何高效訓練一個統一多模態模型？

現有的統一多模態模型構建方案多集中于在 LLM 基礎上拓展視覺詞表，以支持視覺生成任務。這些模型通常需要大量的圖文對數據來實現圖文對齊訓練。這種對海量數據的依賴，在一定程度上放緩了這一領域進一步探索與實踐的進程。

與此不同的是，我們在 ILLUME 中僅使用約 15M 的圖文對數據完成預訓練，并在視覺理解（涵蓋自然圖像與文檔圖表）、生成與編輯等多類視覺文本任務上達到與專有模型相媲美的水平。這一成果并非僅體現于數據規模的減少，更重要的是在架構、訓練策略、數據配比以及視覺詞表表征方式上的關鍵設計，使模型能夠更高效地進行圖文對齊學習。這種方法為在更廣泛和更深層的多模態語義理解與生成融合中奠定了基礎。

關鍵設計 1：視覺詞表的表征選擇

傳統基于 VQGAN 的視覺詞表往往通過重建原始像素作為目標，但這種基于底層紋理的表征不利于與文本模態進行高層語義對齊。與此相反，我們采用語義特征重建的方式構造視覺詞表，直接在高層語義空間中完成圖文對齊的特征學習。實驗表明，這一設計可顯著加速 MLLM 的預訓練過程。