最強開源多模態生成模型MM-Interleaved:首創特征同步器
想象一下,AI 不僅會聊天,還長了「眼睛」,能看懂圖片,甚至還會通過畫畫來表達自己!這意味著,你可以和它們談天說地,分享圖片或視頻,它們也同樣能用圖文并茂的方式回應你。
最近,上海人工智能實驗室聯合香港中文大學多媒體實驗室(MMLab)、清華大學、商湯科技、多倫多大學等多家高校、機構,共同發布了一個多才多藝的最強開源多模態生成模型 MM-Interleaved,借助全新提出的多模態特征同步器刷新多項任務 SOTA。它擁有對高分辨率圖像細節和微妙語義的精準理解能力,支持任意穿插的圖文輸入和輸出,帶來了多模態生成大模型的嶄新突破。
論文地址:https://arxiv.org/pdf/2401.10208.pdf
項目地址:https://github.com/OpenGVLab/MM-Interleaved
模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain
MM-Interleaved 可以輕松編寫引人入勝的旅游日志和童話故事,準確理解機器人操作,就連分析電腦和手機的 GUI 界面、創作獨特風格的精美圖片都不在話下。甚至,它還能教你做菜,陪你玩游戲,成為隨時聽候指揮的個人助理!話不多說,直接看效果:
輕松理解復雜多模態上下文
MM-Interleaved 可以根據圖文上下文自主推理生成符合要求的文本答復,它既能算水果數學題:
也能結合常識推理出 Logo 圖像對應的公司并進行介紹:
還能精確識別用紅色圓圈標注出的手寫文字內容:
此外,模型也能直接理解通過序列圖像表示的機器人動作:
以及在 Minecraft 中如何建造圍欄這樣的游戲操作:
甚至能結合上下文,手把手地教用戶如何在手機 UI 界面上配置灰度:
以及精準定位找到那架藏在后面的飛機:
腦洞全開生成不同風格圖像
MM-Interleaved 模型同樣可以出色地完成各種復雜的圖像生成任務。比如根據用戶提供的詳細描述生成一張三角鋼琴的剪影:
或者當用戶以多種形式指定所需生成的圖像應當包含的物體或風格時,MM-Interleaved 框架也可輕松應對。
比如生成一張水彩風格的大象:
按照狗的風格生成一張貓的畫:
在向日葵花叢里的一座木房子:
以及在生成海浪圖像時,根據上下文智能推斷相應的風格。
圖像生成兼顧空間一致性
更令人驚喜的是,MM-Interleaved 還具備根據輸入的分割圖和對應的文本描述生成圖像的能力,并確保生成的圖像與分割圖在空間布局上保持一致。
這一功能不僅展示了模型在圖文生成任務中的卓越表現,同時也為用戶提供了更加靈活和直觀的操作體驗。
自主生成圖文并茂的文章
此外,只需提供一個簡單的開頭,MM-Interleaved 就能自主進行續寫,生成語義連貫、圖文并茂的文章,題材多樣。
無論是關于一朵玫瑰的童話故事:
教你制作蘋果汁的教程指南:
還是卡通動漫中的情節片段:
MM-Interleaved 框架都展現出了卓越的創造力。這使得 MM-Interleaved 框架成為了一個無限創意的智能合作者,能夠幫助用戶輕松打造引人入勝的圖文作品。
MM-Interleaved 致力于解決圖文交錯多模態大模型訓練中的核心問題,通過深入研究提出了一種全新的端到端預訓練框架。
基于 MM-Interleaved 訓練的模型,在參數量更少、不使用私有數據的情況下,不僅在多個零樣本多模態理解任務上表現優越,領先于國內外最新研究工作,如 Flamingo、Emu2 等。
還能進一步通過監督微調的方式,在視覺問答(VQA),圖像描述(image caption)、指代理解(referring expression comprehension)、圖生圖(segment-to-image generation)、視覺故事生成(visual storytelling)等多個下游任務上取得更為優異的綜合性能。
目前模型的預訓練權重及相應代碼實現均已在 GitHub 開源。
多模態特征同步器攜手全新端到端訓練框架
MM-Interleaved 提出了一種全新的端到端訓練框架,專門面向圖文交錯數據。
該框架支持多尺度的圖像特征作為輸入,不對圖像和文本的中間特征添加任何額外約束,而是直接采用預測下一個文本 token 或下一張圖像的自監督訓練目標,實現單階段的統一預訓練范式。
與以往方法相比,MM-Interleaved 不僅支持交錯生成文本和圖像,還能高效捕捉圖像中更多的細節信息。
此外,MM-Interleaved 的關鍵實現還包括一個通用的多模態特征同步器(Multi-modal Feature Synchronizer)。
該同步器能夠動態注入多張高分辨率圖像的細粒度特征到多模態大模型和圖像解碼器中,實現了對文本和圖像的解碼生成的同時進行跨模態的特征同步。
這一創新設計使得 MM-Interleaved 為多模態大模型領域的發展注入了新的活力。
多項任務性能領先
如表 1 和表 3 所示,MM-Interleaved 在零樣本多模態理解和生成任務上均取得了卓越的性能。這一成就不僅證明了該框架的強大能力,也突顯了其在應對多樣化任務時的強大通用性。
表 2 和表 4 展現了 MM-Interleaved 在進行進一步微調后的實驗結果,其在指代理解、基于分割圖生成圖像、圖文交錯生成等多個下游任務上的性能也十分優異。
這表明 MM-Interleaved 不僅在預訓練階段表現出色,而且在具體任務微調后依然能夠保持領先地位,從而為多模態大模型的廣泛應用提供了可靠的支持。
結論
MM-Interleaved 的問世標志著多模態大模型的發展朝著實現全面端到端的統一建模和訓練邁出了關鍵一步。
這一框架的成功不但體現在其預訓練階段所展現的卓越性能,而且還體現在微調后在各個具體下游任務上的全面表現。
其獨特的貢獻不僅在于展示了強大的多模態處理能力,更為開源社區構建新一代多模態大模型開啟了更為廣闊的可能性。
MM-Interleaved 也為未來圖文交錯數據的處理提供了新的思路和工具,為實現更加智能、靈活的圖文生成和理解奠定了堅實基礎。
我們期待看到這一創新為更多領域相關應用帶來更多驚喜。