字節推出統一多模態模型 BAGEL,GPT-4o 級的圖像生成能力直接開源了!
圖片
字節推出的 BAGEL 是一個開源的統一多模態模型,他們直接開源了GPT-4o級別的圖像生成能力。(輕松拿捏“萬物皆可吉卜力”玩法~)??梢栽谌魏蔚胤綄ζ溥M行微調、提煉和部署,它以開放的形式提供與 GPT-4o 和 Gemini 2.0 等專有系統相當的功能,通過能夠實現精確、準確和逼真的輸出的原生多模態架構解鎖有用且有價值的圖像生成。
效果展示
聊天
BAGEL 是一個統一的生成和理解模型,它基于大型語言模型進行初始化預訓練,從而為其提供了推理和對話的基礎能力。BAGEL 可以處理圖像和文本的混合格式輸入和輸出。
生成效果
BAGEL 已基于大規模交錯視頻和網頁數據進行預訓練,使其能夠生成高保真、逼真的圖像、視頻幀或交錯的圖文內容。交錯數據經過適當的對齊,能夠構建自然的多模態思維鏈,使模型能夠生成視覺輸出。
編輯
通過對交錯視頻片段進行預訓練,BAGEL 能夠自然地學習保留視覺特征和精細細節,同時還能捕捉視頻中復雜的視覺運動,從而高效地進行圖像編輯。憑借源自視覺語言模型的強大推理能力,BAGEL 的智能編輯能力輕松超越了基礎編輯任務。
風格轉換
憑借對視覺內容和風格的深刻理解,BAGEL 可以輕松地將圖像從一種風格轉換為另一種風格,甚至可以將其轉換為完全不同的風格,只需使用最少的對齊數據即可。
作品
BAGEL 從視頻、網絡和語言數據中學習廣泛的知識和能力,使其能夠進行推理、建模物理動態、預測未來幀等等——所有這些都通過統一的多模態界面實現。憑借其組合能力,BAGEL 可以無縫地進行多輪對話。
相關鏈接
- 主頁:https://bagel-ai.org/
- 論文:https://arxiv.org/abs/2505.14683
- 模型:https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT
方法
BAGEL 采用混合 Transformer-專家 (MoT) 架構,以最大限度地提升模型從豐富多樣的多模態信息中學習的能力。遵循同樣的容量最大化原則,它利用兩個獨立的編碼器來捕捉圖像的像素級和語義級特征。整體框架遵循“下一組標記預測”范式,其中模型被訓練為預測下一組語言或視覺標記作為壓縮目標。
BAGEL 通過對涵蓋語言、圖像、視頻和網絡數據的數萬億個交錯多模態標記進行預訓練、持續訓練和監督微調來擴展 MoT 的容量。它在標準理解和生成基準上超越了開放模型,并展示了先進的上下文多模態能力,例如自由格式圖像編輯、未來幀預測、3D 操作、世界導航和序列推理。
隨著我們擴展 BAGEL 的預訓練,添加更多多模態標記,我們觀察到理解、生成和編輯任務的性能持續提升。不同的能力在不同的訓練階段顯現——多模態理解和生成能力出現較早,隨后是基礎編輯能力,而復雜的智能編輯能力則在后期顯現。這種階段性進展表明了一種新興模式,即高級多模態推理建立在完善的基礎技能之上。消融研究進一步表明,將 VAE 與 ViT 特征相結合可以顯著提升智能編輯能力,這凸顯了視覺語義語境在實現復雜多模態推理方面的重要性,并進一步支持了其在高級能力涌現中的作用。