多模態終極大一統!字節開源BAGEL爆火:圖文生成理解雙冠王,竟能預測未來畫面?
論文鏈接:https://arxiv.org/pdf/2505.14683
項目鏈接:https://bagel-ai.org/
模型地址:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
亮點直擊
- 可擴展生成認知模型(Scalable Generative Cognitive Model,BAGEL),一個開源的多模態基礎模型,具有 7B 活躍參數(總計14B),在大規模交錯多模態數據上訓練。
- BAGEL 在標準多模態理解排行榜上超越了當前頂級的開源視覺語言模型(VLMs),并且在文本到圖像質量方面,與領先的公開生成器如SD3和 FLUX.1-dev相當。
- BAGEL 在經典圖像編輯場景中的定性表現也始終優于主要的開源模型。
- 它擴展到自由形式的視覺操作、多視圖合成和世界導航,這些能力構成了超出以往圖像編輯模型范疇的“世界建模”任務。
總結速覽
統一多模態能力
- 輸入與輸出:處理文本和圖像輸入,生成混合格式輸出(如圖像+文本)
- 預訓練基礎:基于 Qwen2.5-7B-Instruct 和 siglip-so400m 模型初始化,結合 FLUX.1-schnell 的變分自編碼器(VAE),提供強大的推理、對話和生成能力
- 數據驅動:通過數萬億交錯多模態 tokens(語言、圖像、視頻、網絡數據)進行預訓練、持續訓練和監督微調,支持生成高保真、逼真的圖像和視頻幀
核心功能
- 生成:生成高保真圖像、視頻幀及交錯內容,如三個標有 “SDXL”、“BAGEL”、“FLUX” 的魔法藥水瓶,展示細節化生成能力
- 編輯:支持復雜圖像編輯(如風格轉換、3D 動畫風格、Jellycat 毛絨玩具風格),通過視覺-語言推理超越基礎編輯任務
- 導航:從現實世界視頻數據中學習導航知識,適應科幻、藝術畫等多樣化環境
- 多輪對話:通過統一多模態接口,支持多輪交互、物理動態建模和未來幀預測
- 思考模式:利用多模態推理(CoT),將簡短提示轉化為詳細、邏輯一致的輸出,如將“由小車組成的大車”細化為逼真圖像描述
技術架構
- 模型結構:采用 Mixture-of-Transformer-Experts (MoT) 架構,結合兩個編碼器分別捕獲像素級和語義級圖像特征,最大化多模態信息學習能力
- 訓練方法:
- Next Group of Token Prediction:預測下一組語言或視覺令牌,提升壓縮效率
- 訓練階段:包括預訓練、持續訓練和監督微調,基于數萬億多模態 token(語言、圖像、視頻、網絡數據)
- 基礎模型:基于 Qwen2.5-7B-Instruct、siglip-so400m 和 FLUX.1-schnell VAE,所有均采用 Apache 2.0 許可證
性能表現(基準測試)
- 視覺理解(與開源模型對比):
- MME:2388(優于 Qwen2.5-VL-7B 的 2347)
- MMBench:85.0(優于 Janus-Pro-7B 的 79.2)
- MMMU:55.3(略低于 Qwen2.5-VL-7B 的 58.6)
- MM-Vet:67.2(略優于 Qwen2.5-VL-7B 的 67.1)
- MathVista:73.1(優于 Qwen2.5-VL-7B 的 68.2)
- 結論:BAGEL 在多模態理解任務中整體領先,特別是在 MME 和 MathVista 上表現突出
- 文本到圖像生成(GenEval 評分,0-1,1 為最佳):
- 整體得分:0.88,優于 FLUX-1-dev(0.82)、SD3-Medium(0.74)和 Janus-Pro-7B(0.80)
- 細分表現:在單物體(0.98)、雙物體(0.95)、計數(0.84)、顏色(0.95)等任務中表現優異,展現高精度和多樣性
- 圖像編輯(GEdit-Bench-EN 和 IntelligentBench):
- 結構一致性 (SC):7.36(優于 Step1X-Edit 的 7.09 和 Gemini-2-exp 的 6.73)
- 提示質量 (PQ):6.83(優于 Step1X-Edit 的 6.76)
- 整體 (O):6.52(優于 Gemini-2-exp 的 6.32)
- GEdit-Bench-EN:
- IntelligentBench:BAGEL 得分 44.0,結合 CoT 后提升至 55.3,接近 Gemini-2-exp 的 57.6
- 結論:BAGEL 在圖像編輯任務中表現卓越,尤其在結合 CoT 后智能編輯能力顯著提升
新興特性
- 能力分階段顯現:
- 早期:多模態理解和生成能力
- 中期:基礎圖像編輯能力
- 后期:復雜智能編輯、自由視覺操作、多視角合成和世界導航能力
- 關鍵發現:結合變分自編碼器(VAE)和視覺變換器(ViT)特征顯著提升智能編輯能力,強調視覺-語義上下文對高級多模態推理的重要性
- 世界建模:BAGEL 超越傳統圖像編輯,具備多視角合成和導航等“世界建模”能力,適用于科幻場景、藝術創作等復雜任務
模型
如下圖 2 所示,BAGEL 采用 MoT 架構,由兩個 Transformer 專家組成——一個專注于多模態理解,另一個專注于多模態生成。相應地,模型使用兩個獨立的視覺編碼器:一個面向理解的編碼器,另一個面向生成的編碼器。這兩個 Transformer 專家通過每一層的共享自注意力操作,在相同的 token 序列上運行。
在預測文本 token 時,BAGEL 遵循 Next-Token-Prediction 范式,繼承了自回歸語言模型的成熟優勢。對于視覺 token 的預測,BAGEL采用Rectified Flow 方法,遵循視覺生成領域的最佳實踐。
模型設計空間
統一的多模態生成與理解模型的典型設計選擇包括:
量化自回歸(Quantized AR):使用離散視覺 tokenizer進行的自回歸視覺生成。這類方法在文本與視覺 token 生成中均采用 Next-Token-Prediction 范式,易于實現,因為它可以直接利用現有的 LLM 基礎架構。不幸的是,自回歸模型的視覺生成質量在經驗上劣于基于擴散的方法。此外,由于自回歸方法的序列性質,其推理延遲較高。
外部擴散器(External Diffuser):將LLM 主干與外部擴散模塊結合。該設計通過輕量可訓練的適配器將預訓練的 LLM/VLM 與擴散模型連接。通常,語言主干以自回歸方式生成一組潛在 token 作為“語義條件”信號,隨后由擴散模塊生成圖像。該設置通常在最小數據消耗下迅速收斂,并可能在多模態生成與理解的標準基準測試中獲得有競爭力的性能。然而,其主要缺點在于將 LLM 上下文壓縮為相對較少的潛在 token,這在理解與生成模塊之間引入了顯式瓶頸,存在顯著信息損失的風險——尤其是在長上下文多模態推理中。這種約束可能違背大型基礎模型的擴展理念。
集成式 Transformer(Integrated Transformer):在單一Transformer 中統一集成 LLM 與擴散模型。該方法受到自回歸 Transformer(強大的理解/推理能力)與擴散 Transformer(出色的視覺生成能力)互補優勢的驅動,利用它們共同的模型架構實現兩種范式之間的無縫切換。與外部擴散器方案相比,該方法需要顯著更高的訓練計算量。然而,它提供了一個關鍵優勢:在所有 Transformer 塊中保持無瓶頸的上下文,從而實現理解與生成模塊之間的無損交互,并更適合擴展。
本研究認為統一模型有能力從大規模交錯多模態數據中學習更豐富的多模態能力——這些新興能力是傳統基準測試無法捕捉的。為此,選擇無瓶頸的集成式 Transformer 方案,認為該方案在大規模訓練設置中更具潛力,并可能更適合作為長上下文多模態推理與強化學習的基礎模型。
架構
主干模型繼承自一個僅使用解碼器的 Transformer 架構的 LLM。選擇 Qwen2.5 LLM作為初始化模型,因其卓越性能且公開可用。該模型采用RMSNorm進行歸一化,使用 SwiGLU作為激活函數,采用 RoPE進行位置編碼,并使用 GQA進行 KV 緩存壓縮。此外,在每個注意力塊中加入了QK-Norm,這一做法借鑒了圖像/視頻生成模型中的通用實踐,在穩定訓練過程中表現有效。
視覺信息從兩個方面進行表示:
- 用于視覺理解,利用 ViT 編碼器將原始像素轉換為 token。采用 SigLIP2-so400m/14,分辨率固定為 384,作為 ViT 編碼器的初始化。在此基礎上,首先對位置嵌入進行插值,并將最大輸入尺寸設為980X980 ,然后集成 NaViT以支持按圖像原始寬高比進行處理。采用一個兩層的 MLP 連接器來匹配 ViT token 的特征維度與 LLM 的隱藏狀態。
- 用于視覺生成,使用來自 FLUX的預訓練 VAE 模型,將圖像從像素空間轉換為隱空間,反之亦然。該潛在表示的下采樣比例為 8,潛在通道數為 16,隨后通過一個2X2的 patch embedding 層處理,以減小空間尺寸并匹配 LLM 主干的隱藏維度。VAE 模型在訓練過程中保持凍結。
我們的框架在將 ViT 和 VAE token 融入 LLM 主干之前,對其應用二維位置編碼。對于擴散時間步編碼,我們遵循 [17],將時間步嵌入直接加到 VAE token 的初始隱藏狀態中,而不是像傳統擴散 Transformer [19, 35, 81] 那樣使用 AdaLN。這一修改在保持性能的同時帶來了更簡潔的架構。
在 LLM 內部,來自理解和生成任務的文本、ViT 和 VAE token 會根據輸入的模態結構進行交錯排列。對于屬于同一個樣本的 token,我們采用一種廣義版本的因果注意力機制。這些 token 首先被劃分為多個連續的分段,每個分段包含來自單一模態(例如文本、ViT 或 VAE)的 token。某一分段中的 token 可以關注所有前面分段中的 token。在每個分段內部,我們對文本 token 采用因果注意力,而對視覺 token 保持雙向注意力。
廣義因果注意力(Generalized Causal Attention)
在訓練過程中,一個交錯的多模態生成樣本可能包含多張圖像。對于每張圖像,我們準備三組視覺 token:
- 加噪 VAE token:被擴散噪聲擾亂的 VAE 潛變量,僅用于 Rectified-Flow 訓練;MSE 損失在此集合上計算。
- 干凈 VAE token:原始(無噪聲)潛變量,用作生成后續圖像或文本 token 時的條件。
- ViT token:由 SigLIP2 編碼器獲得,有助于在交錯的生成與理解數據之間統一輸入格式,并在經驗上提升交錯生成質量。
在交錯的圖像或文本生成中,后續的圖像或文本 token 可以關注前面圖像的干凈 VAE token 和 ViT token,但不能關注其加噪的 VAE token。
對于交錯的多圖像生成,我們采用 diffusion forcing 策略,為不同圖像添加獨立的噪聲水平,并將每張圖像條件于前面圖像的加噪表示。此外,為增強生成一致性,遵循 [17],隨機將連續圖像分組,并在每組內應用完整注意力。每組內的噪聲水平保持一致。
我們使用 PyTorch FlexAttention [71] 實現廣義因果注意力,相比于樸素的縮放點積注意力實現約 的加速。在推理階段,廣義因果結構允許我們緩存已生成多模態上下文的 key-value (KV) 對,從而加速多模態解碼。僅緩存干凈 VAE token 和 ViT token 的 KV 對;一旦圖像完全生成,上下文中的對應加噪 VAE token 將被其干凈版本替換。
為了在交錯推理中啟用無分類器引導(classifier-free guidance),以概率分別為0.1、0.5 和 0.1 隨機丟棄文本、ViT 和干凈 VAE token。廣義因果注意力的示意圖如下圖 15 所示。
Transformer 設計
遵循集成式 Transformer 方案的原則,比較了幾種 Transformer 變體:標準的 Dense Transformer、Mixture-of-Experts (MoE) Transformer,以及 Mixture-of-Transformers (MoT) 架構。
- MoE 變體:僅復制每個 Qwen2.5 LLM 塊中的前饋網絡(FFN),作為生成專家的初始化。
- MoT 變體:復制 Qwen2.5 LLM 的所有可訓練參數,以創建一個完整尺寸的生成專家。類似的架構也被 [65] 采用。
模型中的 MoE 和 MoT 都使用硬路由:新復制的生成專家專門處理 VAE token,而原始參數(理解專家)處理文本和 ViT token,遵循 Qwen-VL 系列的策略。盡管 MoE 和 MoT 架構相比于密集基線模型使總參數量大約增加了一倍,但三種模型變體在訓練和推理過程中具有相同的 FLOPs。
15 億參數的 Qwen-2.5 LLM 上進行對照實驗,保持超參數和數據配置一致,以將 Transformer 架構作為唯一變量。如下圖 3 所示,MoT 變體在性能上始終優于密集和 MoE 設計,尤其在多模態生成任務上差距最為顯著。MSE 損失(生成)呈現出平滑、單調下降的軌跡,MoT 不僅收斂最快,還達到了最低的最終損失。相比之下,CE 損失(理解)在每一步之間波動較大——這是交錯異構數據的預期結果——但 MoT 在整體上仍保持最佳性能。這些發現突顯出將用于生成的參數與用于理解的參數解耦的明顯優勢,表明這兩個目標可能會將模型引導至參數空間的不同區域——至少在本次 15 億參數規模的實驗中如此。簡言之,為多模態理解和生成分別分配容量可以緩解由模態特定學習目標之間競爭引發的優化挑戰。
數據
由于數據定義了大型基礎模型的知識邊界,BAGEL 在多個模態上的多樣化數據集上進行訓練——包括語言、圖像、視頻和網頁數據——使其能夠通過統一的多模態接口執行多模態推理、上下文預測、物理動力學建模和未來幀預測。除了標準的視覺-語言(VLM)、文本到圖像(T2I)和大規模語言建模(LLM)數據集之外,我們還從網頁和視頻來源構建了新的視覺-文本交錯數據集,以進一步增強模型的順序多模態推理能力。在下表 1 中,我們總結了不同模態下訓練數據的規模和組成。以下各節將詳細介紹我們數據集的來源、準備流程和數據混合策略。
僅文本數據
為了保持底層 LLM 的語言建模能力,我們用一組高質量的僅文本數據補充訓練語料。這些數據經過精心篩選,旨在支持廣泛的語言覆蓋能力,并實現強大的推理與生成能力,適用于通用文本任務。
視覺-文本配對數據
圖文配對數據在多模態學習中起著核心作用,為視覺-語言模型(VLM)和文本到圖像(T2I)生成提供大規模視覺監督。在本文設置中,根據下游使用方式將圖文配對數據組織為兩個子集:一個用于 VLM 預訓練,一個用于 T2I 生成。
VLM 圖文對:使用大規模圖文對進行 VLM 訓練,涵蓋廣泛的視覺概念,主要來源于網頁的 alt 文本和圖像說明。這些數據經過基于 CLIP 的相似度過濾、分辨率和寬高比限制、文本長度檢查以及去重處理,以確保質量和多樣性。為了解決長尾分布問題,采用概念感知采樣策略,以提高對稀有類別的覆蓋。此外,還引入了來自 OCR 文檔、圖表和錨定標注的結構化監督,以增強模型的閱讀和空間理解能力。
T2I 圖文對:我們引入高質量的圖文對,以及來自現有 T2I 模型的極少量合成數據。這些數據不僅具有多樣化的說明風格(如藝術性、描述性和超現實風格),還包含經過清晰度、結構完整性和語義多樣性篩選的高質量圖像。這些樣本共同提升了我們 T2I 訓練語料的視覺質量和風格多樣性。
視覺-文本交錯數據
盡管圖文配對數據提供了有用的監督,但在支持涉及多張圖像和中間文本的復雜上下文推理方面仍顯不足。訓練于此類數據的模型往往難以捕捉跨模態的視覺與語義關系,導致生成結果缺乏連貫性。為了解決這些限制,在訓練中引入了大規模的視覺-文本交錯數據。
為了提升多模態理解能力,使用 VLM 交錯數據集。對于視覺生成,引入統一協議,通過結合多種來源構建視覺-文本交錯數據,以支持更豐富的多模態交互,具體如下所述。
數據來源
為了全面涵蓋多樣的現實場景并具備可擴展的數據供給能力,訓練語料整合了兩個主要來源,這些來源為多模態推理提供了充足的知識:視頻數據 和 網頁數據。
視頻數據通過直接捕捉來自現實世界的時間和空間動態,提供了豐富的世界知識——這是最大且最自然的模擬器。它保留了細粒度的視覺細節,維持幀間的一致性,并建模復雜運動,特別適合圖像編輯、導航和三維操作等任務。我們的視頻數據集由公開可用的在線視頻資源構建,并結合兩個開源數據集:Koala36M,提供大規模的教學與交互豐富內容,以及 MVImgNet2.0,包含從不同攝像機視角捕捉的物體,用于支持多視角空間理解。
網頁數據捕捉了復雜的真實世界多模態結構,并提供了涵蓋廣泛領域的多樣化知識。它包括自然交錯的資源,如插圖百科文章、分步視覺教程以及其他具有豐富視覺基礎的文檔。這種交錯格式為訓練模型執行多模態推理提供了豐富的監督信號。我們在 OmniCorpus [39] 的基礎上構建了數據集,該數據集是從 Common Crawl預處理而來的大規模數據集,提供了大量交錯的文本和圖像網頁文檔。還引入了開源圖像編輯數據集作為結構化交錯數據,這些數據教授了細粒度的編輯行為,并增強了模型進行精確多模態推理和分步生成的能力。
數據過濾
視頻數據過濾
遵循 T2V 視頻處理流程[62]的協議,通過時間切分、空間裁剪和質量過濾,將視頻預處理為高質量訓練片段。視頻首先使用輕量級鏡頭檢測被分割為短而連貫的片段,并可根據視覺相似性選擇性地合并相關片段。隨后,我們通過裁剪檢測和幀級邊界框聚合,去除黑邊和覆蓋層(如標志或文本)。為確保質量,我們根據長度、分辨率、清晰度和運動穩定性過濾片段,并使用基于 CLIP 的相似性進行去重。該過程生成了一個干凈且多樣化的視頻數據集,適用于多模態訓練。
網頁數據過濾
為了從大規模語料中篩選高質量交錯數據,設計了一個兩階段過濾流程,目標是教程、百科條目和設計類內容等文檔,其中文本與圖像具有強語義對齊。受 DeepSeekMath啟發,我們首先執行輕量級的主題選擇過程:通過提示 LLM 對一小部分文檔進行分類,然后使用所得標簽訓練 fastText分類器,以實現高效的大規模推理。選中的數據隨后再次通過 LLM 分類器進行細粒度過濾。采用 Qwen2.5 的 14B 模型,以在性能和效率之間取得平衡。為進一步提升數據質量,我們還應用了一組基于規則的過濾器,針對圖像清晰度、相關性和文檔結構,具體如下表 2 所示。
數據構建
來自視頻的交錯數據
為了從視頻中構建圖文交錯序列,我們生成連續幀之間視覺變化的文本描述——捕捉物體運動、動作轉換和場景切換。這些幀間描述作為時間監督信號,用于學習視覺動態。雖然大型 VLM 能夠生成高質量的變化描述,但其推理成本限制了可擴展性。因此我們基于 Qwen2.5-VL-7B蒸餾出一個輕量級的描述模型,并在一小部分高質量幀間示例上進行微調。為減少幻覺,我們將描述長度限制為 30 個 token。對于每個視頻片段,我們平均采樣四幀,并為每對幀生成描述,最終得到 4500 萬個具有時間基礎的交錯序列。下圖 4a 展示了數據流程及示例。
來自網頁的交錯數據
為了從網頁文檔中構建高質量的交錯序列,旨在減少因圖像與其配文及周圍視覺上下文對齊較弱而導致的圖像生成難度。為每張圖像提供更具局部性和相關性的線索,采用“先生成描述”的策略:對每張圖像使用 Qwen2.5-VL-7B生成簡潔描述,并將其直接插入圖像前,作為概念支架。這使模型在生成圖像前,能基于前文上下文和插入的描述形成概念草圖。
通過生成描述引導模型對圖像的預期,該方法緩解了由松散或模糊輸入引起的問題。此外,還對超過 300 個 token 的圖像間文本段落使用 LLM 摘要器進行改寫,以提升上下文密度。這些步驟生成了一個更干凈、更結構化的數據集,包含 2000 萬個交錯網頁文檔。數據流程及示例見上圖 4b。
增強推理數據
受 O1和 DeepSeek-R1等近期模型啟發,利用長上下文的 Chain-of-Thoughts 數據用于多模態理解。此外,假設在圖像生成前引入基于語言的推理步驟,有助于澄清視覺目標并改善規劃。為驗證該假設,構建了 50 萬個增強推理示例,涵蓋四類結構關系:文本到圖像生成、自由形式圖像編輯和概念化編輯。
文本到圖像生成
首先手動編寫一組簡短而模糊的 T2I 查詢,每個查詢配有簡單的生成指導。通過 in-context learning,提示 Qwen2.5-72B生成更多查詢-指導對及相應詳細提示,隨后將其輸入 FLUX.1-dev生成目標圖像。該流程生成了由查詢、推理軌跡(指導 + 詳細提示)和圖像組成的訓練三元組,使模型能夠將圖像生成建立在語言推理基礎上。
自由形式圖像編輯
通過提示 VLM 輸入源圖像、目標圖像、用戶查詢和來自 DeepSeek-R1的推理軌跡示例來生成增強推理示例。R1 示例基于源圖像與目標圖像的描述、用戶查詢和推理指令生成。VLM 的推理軌跡生成提示見下表 9 和下表 10。我們主要從兩個來源采樣源-目標圖像對:開源編輯數據集(如 OmniEdit)和交錯視頻數據,這些來源提供了大量自然發生的編輯場景,具有顯著運動、視角變化和人類交互,同時保持時空一致性。
概念化編輯
概念化編輯針對那些需要高層次概念推理而非局部像素修改的圖像編輯任務,例如將物體轉化為設計草圖。對于這些任務,使用網頁交錯數據集,從每個序列中采樣候選圖像對,并應用三階段 VLM 流程構建高質量問答示例。首先,給定圖像序列,提示 VLM 識別合理的輸入-輸出對。接著,提示模型基于所選圖像對生成相應文本問題。最后,使用 VLM 評估問題質量及其與輸入輸出圖像的對齊程度,剔除低質量示例。被接受的示例隨后輸入 VLM,并提示其生成來自 DeepSeek-R1的推理軌跡示例,以輸出所需變換的有根解釋,如下表 11 所示。該設置幫助模型學習從多樣化文本指令中理解復雜視覺目標。
訓練
如下表 3 所示,采用多階段訓練策略,使用上文所述的動態混合精選數據——具體包括用于初始化 VLM 連接器的對齊階段(Alignment)、用于大規模預訓練的預訓練階段(Pre-training)、用于提升分辨率和交錯數據比例的持續訓練階段(Continued Training),以及用于高質量微調的有監督微調階段(Supervised Fine-tuning):
- 階段:對齊(Alignment)在此階段,通過僅訓練 MLP 連接器(保持視覺編碼器和語言模型凍結)來對齊 SigLIP2 ViT 編碼器與 Qwen2.5 LLM。此階段僅使用圖文對數據來執行圖像描述任務,每張圖像被調整為固定分辨率 ,以匹配預訓練 SigLIP2 的輸入尺寸。
- 階段:預訓練(Pre-training, PT)在此階段,為 LLM 添加 QK-Norm,除 VAE 外的所有模型參數均可訓練。訓練語料包含 2.5 萬億 token,由文本、圖文對、多模態對話、網頁交錯和視頻交錯數據組成。在多模態理解與生成任務中采用原生分辨率策略,對圖像的長邊最大值和短邊最小值進行限制。
- 階段:持續訓練(Continued Training, CT)相較于 PT 階段,CT 階段提高了視覺輸入分辨率,這對多模態生成與理解性能至關重要。進一步策略性地提高交錯數據的采樣比例,以強化跨模態推理學習,因為此時模型的核心理解與生成能力已更加穩定可靠。CT 階段共消耗約 2.6 萬億 token。
- 階段:有監督微調(Supervised Fine-tuning, SFT)在 SFT 階段,對于多模態生成,我們從圖文對數據集和交錯生成數據集中構建高質量子集;對于多模態理解,從 LLaVA-OV和 Mammoth-VL指令微調數據中篩選子集。該階段訓練 token 總數為 727 億。
與獨立 VLM 或 T2I 模型的預訓練不同,統一多模態預訓練需要仔細調整兩個關鍵超參數——數據采樣比例和學習率——以平衡理解與生成任務的訓練信號。下面描述指導這些選擇的經驗洞察,這些洞察也構成了上表3中總結的訓練協議的基礎。
數據采樣比例
為了在統一預訓練中選擇各數據源的采樣比例,在 Qwen2.5 的 15 億參數版本上進行了多組控制實驗,調整多模態生成數據與多模態理解數據的比例。如下圖 5 所示,將生成數據的采樣比例從 50%("1g1u")增加到 80%("4g1u")可穩定降低 MSE 損失,帶來 0.4% 的絕對下降——在實際中對 rectified-flow 模型而言是顯著的改進。相比之下,交叉熵(CE)損失在不同采樣比例下沒有一致的變化趨勢;在第 14,000 步中,"4g1u" 與 "2g1u" 之間的最大差異為 0.07,但對下游基準測試影響可以忽略不計。這些發現表明,生成示例應比理解示例被更頻繁地采樣——這是在整個訓練協議(見上表3)中采用的啟發式策略。
學習率
接著進行了一個與前文設置相同的控制實驗,唯一不同的是學習率的設置。如下圖 6 所示,兩種損失呈現相反的行為:較大的學習率使 MSE 損失收斂更快,而較小的學習率有利于 CE 損失。為了調和這一權衡,為這兩個目標分配了不同的權重因子,如上表 3 所列。
評估
為了全面評估一個統一模型,依賴于一些已有的基準測試,這些測試針對諸如多模態理解、文本生成圖像(T2I)以及經典圖像編輯等明確定義的能力。然而,對于需要強多模態推理和復雜任務組合的能力,目前仍缺乏有效的評估策略。下面首先介紹評估過程中使用的現有基準測試,然后引入一個新的用于自由形式圖像編輯(包括概念編輯)的評估套件,旨在揭示模型在多模態推理和復雜組合任務方面的能力。
多模態理解
采用六個廣泛使用的基準測試——MME、MMBench (1.0-EN)、MMVet、MMMU、MathVista和 MMVP。它們共同構成了一個簡潔但全面的測試平臺,涵蓋感知、認知和多模態推理,同時在對比最先進模型方面具有很強的判別力。
文本生成圖像(Text-to-Image generation)
遵循 [11, 56] 的做法,在流行的 GenEval基準上報告結果。我們還采用了最近提出的 WISE 基準,它對文本生成圖像中的復雜語義理解和世界知識整合能力進行了全面評估。此外,還補充了與現有最先進模型的定性對比,以輔助這些自動評估指標。
圖像編輯
采用 GEdit-Bench作為主要評估套件,原因在于其與真實世界的相關性以及多樣的編輯任務集合。該基準由從網頁中抓取的真實用戶請求構建,緊密貼合實際編輯需求。性能通過 GPT-4.1自動評分,也補充了定性示例,以提供更細致的評估。
智能圖像編輯(Intelligent Image Editing)
提出IntelligentBench作為自由形式圖像編輯能力的代理任務評估工具,該能力需要復雜的多模態推理和任務組合。IntelligentBench 的初始版本包含 350 個示例,每個示例由一個問題圖像、問題文本和參考答案圖像組成。評估使用 GPT-4o(版本:gpt-4o-2024-11-20)進行,它審閱一個完整的四元組——問題圖像、問題文本、參考答案圖像和模型生成圖像。評估標準包括請求實現度、視覺一致性和基于知識的創造性,反映該基準對任務正確性與推理深度的關注。每個答案按 0 到 2 的評分標準打分。模型的最終得分通過匯總所有單項得分并歸一化到 100 分制計算得出。借助 IntelligentBench,可以評估模型在圖像編輯中進行推理與整合世界知識的能力。部分IntelligentBench的展示與定性結果見下圖12。
涌現能力
涌現能力在大型視覺或語言模型的研究中已被廣泛探討。在本研究中,聚焦于統一多模態基礎模型的背景下,采用了一個更聚焦的涌現能力定義:
當某種能力在早期訓練階段尚未出現,而在后續預訓練中出現時,稱其為涌現能力。
這種質變,通常被稱為“相變”,表示模型行為的突然且劇烈的變化,無法通過訓練損失曲線的外推來預測。有趣的是,在統一多模態擴展中也觀察到了類似現象,即損失曲線并未明確顯示新能力的涌現。因此,通過在歷史檢查點上評估一系列任務的性能來研究模型能力的涌現。具體而言,報告標準 VLM 基準測試上的平均性能作為多模態理解的代理,GenEval 分數用于評估生成能力,GEdit 分數和 IntelligentBench 分數分別用于評估模型在簡單與復雜多模態推理中的能力。
有趣的是,不同任務呈現出不同的學習動態與飽和行為。如果以達到峰值性能 85% 所需的 token 數量作為指標,如圖 7 所示,發現傳統理解與生成基準測試相對較早飽和:分別在約 和 token 處。相比之下,編輯任務(需要理解與生成能力)收斂更慢,僅在 token 后才達到 85% 的性能。
在 Intelligent Editing 任務的定性可視化中也觀察到了涌現行為(見下圖9)。與上圖 8 中僅涉及輸入圖像部分修改的傳統編輯不同,Intelligent Editing 通常需要基于多模態推理生成全新概念。在3.5T token 之前,模型傾向于以最小變化重現輸入圖像——當任務未被充分理解時的回退策略。然而,在看到 3.5T token 后,模型開始展現出清晰的推理能力,生成連貫且語義合理的編輯結果,與下圖 7 中所示的涌現行為相一致。
主要結果
BAGEL 多模態能力定量與定性評估。首先在已有基準測試上評估其基本能力,包括圖像理解和圖像生成。隨后報告其在現有圖像編輯基準和 IntelligentBench 上的表現。然后,我們探索了帶有顯式推理的生成與編輯能力。在該設置中,允許 BAGEL 在生成最終輸出之前產生中間思考步驟。發現這種推理顯著提升了性能。最后,提供了展示 BAGEL 世界建模能力的定性可視化,包括世界導航與視頻生成。
對 BAGEL 與最先進的開源多模態模型進行了廣泛的基準對比,涵蓋專用視覺理解模型與通用統一模型。我們的評估涵蓋多種公開基準,以確保對模型能力的全面評估。
圖像理解結果總結于下表4。在激活參數規模相當(7B)的情況下,BAGEL 在理解任務上優于現有的統一模型。例如,在 MMMU 和 MM-Vet 上分別比 Janus-Pro提高了 14.3 和 17.1 分。值得注意的是,MetaQuery-XL依賴于凍結的、預訓練的 Qwen2.5-VL主干網絡,這限制了其適應性。此外,與專用理解模型(如 Qwen2.5-VL 和 InternVL2.5)相比,BAGEL 在大多數基準測試上表現更優,表明我們的 MoT 設計在保持強大視覺理解能力的同時,有效緩解了任務沖突。
圖像生成
在兩個基準上評估圖像生成性能:GenEval 和 WISE。如下表 5 所示,在與 MetaQuery-XL 相同的評估設置下,BAGEL 實現了 88% 的整體得分,優于專用生成模型(FLUX-1-dev:82%,SD3-Medium:74%)和統一模型(Janus-Pro:80%,MetaQuery-XL:80%)。即使不使用 LLM 重寫器,BAGEL 也能達到 82%,超過了此前最強的統一模型 Janus-Pro-7B。
在 WISE 基準上,BAGEL 超越了除領先私有模型GPT-4o外的所有模型。這表明 BAGEL 在結合世界知識進行推理方面具有較強能力。
我們對 BAGEL 與 Janus-Pro 7B、SD3-medium 和 GPT-4o 進行了定性比較。如下圖 10 所示,BAGEL 生成的圖像質量明顯優于 Janus-Pro 7B,同時也超越了廣泛使用的專用文本生成圖像模型 SD3-medium。此外,BAGEL 原生支持中英文提示詞,并允許以任意寬高比進行生成。
圖像編輯
使用 GEdit-Bench對 BAGEL 的經典圖像編輯能力進行了進一步評估。如下表 7 所示,BAGEL 的表現可與當前領先的專用圖像編輯模型 Step1X-Edit相媲美,并且優于 Gemini 2.0。此外,在新提出的 IntelligentBench 上報告了結果,如下表 8 所示,BAGEL 達到了 44.9 的性能,顯著超過現有開源 Step1X-Edit 模型 30 分。
還在下圖 11 和上圖 12 中提供了在多種圖像編輯場景下的定性比較,將 BAGEL 與 Gemini 2.0、GPT-4o、Step1X-Edit 和 IC-Edit進行了對比。如圖所示,BAGEL 始終表現出優于 Step1X-Edit 和 IC-Edit 的性能,并且也超越了 Gemini 2.0 的能力。雖然 GPT-4o 能夠成功處理這些場景,但它往往會對源圖像進行非預期的修改,而 BAGEL 能有效避免這一問題。
帶思維的生成/編輯
從定量和定性兩個方面驗證了增強推理的生成在各種基準測試下的有效性。
帶思維的生成。 對于文本生成圖像任務,在 WISE 上評估了 BAGEL 在生成前使用顯式思維鏈(Chain-of-Thought, CoT)推理過程的效果。如下表 6 所示,帶 CoT 的 BAGEL 得分為0.70 ,比未使用 CoT 的版本高出 0.18,并顯著優于所有現有開源模型(此前 SOTA:MetaQuery-XL,得分為 0.55)。除了定量評估,我們還在圖 13a 中提供了可視化結果,在僅給出簡短提示詞時,BAGEL 無法生成正確圖像,但在使用基于 CoT 的思維范式時則成功生成。
帶思維的編輯。 如上表 8 所示,將 CoT 融入 BAGEL 后,其 Intelligent Score 從44.9提升至55.3 。這一性能提升主要歸因于推理的引入,使模型能夠利用世界知識并提供詳細的編輯指導。我們進一步在圖 13b 中展示了 IntelligentBench 中的多個代表性案例,這些任務需要通用知識或多步推理。在這些場景中,當有思維內容引導時,BAGEL 顯著提升了圖像編輯能力。
世界建模
為了提升 BAGEL 在長序列視覺生成中的世界建模能力,通過增加訓練配方中視頻與導航數據的比例對模型進行了微調。對于導航任務,我們從視頻交錯序列中構建數據集,并使用 ParticleSfM標注攝像機軌跡。
在下圖 14 中,展示了 BAGEL 的世界建模能力,包括世界導航、旋轉以及多幀生成。
從圖中可以看出,BAGEL 展現出強大的世界理解與模擬能力。它能夠根據輸入指令生成動態數量的圖像,用于如導航與旋轉輸入圖像等任務,或根據給定提示生成多張圖像。此外,BAGEL 在世界理解方面表現出強泛化能力。例如,雖然僅在真實世界街景導航數據上訓練,但它能夠無縫擴展到水墨畫、卡通和電子游戲等多種領域。
更多定性結果
BAGEL-1.5B 的性能。 下圖 16 對比了參數激活量為 1.5B 的 BAGEL-1.5B 與 JanusPro-7B 和 Step1X-Edit(12B)在文本生成圖像(T2I)和圖像編輯任務上的表現。盡管 BAGEL-1.5B 明顯更小,但在兩個任務的定性比較中均超過了這兩個更大的模型。此外,BAGEL-1.5B 與 BAGEL-7B 之間的差距也突顯了模型擴展帶來的收益,表明更大規模的 BAGEL 版本具有更大潛力。
失敗案例。 在下圖 17 中,展示了BAGEL與其他最先進模型的代表性失敗案例。涉及特殊IP生成、復雜文本渲染、復雜人體姿態生成或多實例同時生成的任務依然對當前文本生成圖像系統構成挑戰。對于圖像編輯,諸如交換物體位置或同時修改大量實例等操作同樣對大多數現有模型構成挑戰。在某些復雜場景中,BAGEL 與 Gemini 2.0 都存在難以精確遵循指令的問題。相比之下,GPT-4o 在所有示例中都提供了最穩定成功的結果。BAGEL 的性能可通過增加包含文本的圖像數據、擴大模型容量或在最終微調階段應用 RLHF來簡單提升。
結論
BAGEL,一個統一的多模態理解與生成模型,在擴展統一預訓練規模時展現出涌現能力。BAGEL 在標準多模態理解與生成基準上取得了頂尖性能,并通過強大的世界建模與推理能力進一步展現其優勢。為了進一步推動多模態研究的發展,我們將 BAGEL 開源給研究社區。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/wNq9tZ1c5FpKzWs0uPLaLw??
