成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最強開源多模態生成模型MM-Interleaved:首創特征同步器

人工智能 新聞
最近,上海人工智能實驗室聯合香港中文大學多媒體實驗室(MMLab)、清華大學、商湯科技、多倫多大學等多家高校、機構,共同發布了一個多才多藝的最強開源多模態生成模型 MM-Interleaved。

想象一下,AI 不僅會聊天,還長了「眼睛」,能看懂圖片,甚至還會通過畫畫來表達自己!這意味著,你可以和它們談天說地,分享圖片或視頻,它們也同樣能用圖文并茂的方式回應你。

最近,上海人工智能實驗室聯合香港中文大學多媒體實驗室(MMLab)、清華大學、商湯科技、多倫多大學等多家高校、機構,共同發布了一個多才多藝的最強開源多模態生成模型 MM-Interleaved,借助全新提出的多模態特征同步器刷新多項任務 SOTA。它擁有對高分辨率圖像細節和微妙語義的精準理解能力,支持任意穿插的圖文輸入和輸出,帶來了多模態生成大模型的嶄新突破。

圖片


論文地址:https://arxiv.org/pdf/2401.10208.pdf

項目地址:https://github.com/OpenGVLab/MM-Interleaved

模型地址:https://huggingface.co/OpenGVLab/MM-Interleaved/tree/main/mm_interleaved_pretrain

MM-Interleaved 可以輕松編寫引人入勝的旅游日志和童話故事,準確理解機器人操作,就連分析電腦和手機的 GUI 界面、創作獨特風格的精美圖片都不在話下。甚至,它還能教你做菜,陪你玩游戲,成為隨時聽候指揮的個人助理!話不多說,直接看效果:

輕松理解復雜多模態上下文

MM-Interleaved 可以根據圖文上下文自主推理生成符合要求的文本答復,它既能算水果數學題:

圖片

也能結合常識推理出 Logo 圖像對應的公司并進行介紹:

圖片

還能精確識別用紅色圓圈標注出的手寫文字內容:

圖片

此外,模型也能直接理解通過序列圖像表示的機器人動作:

圖片

以及在 Minecraft 中如何建造圍欄這樣的游戲操作:

圖片

甚至能結合上下文,手把手地教用戶如何在手機 UI 界面上配置灰度:

圖片

以及精準定位找到那架藏在后面的飛機:

圖片

腦洞全開生成不同風格圖像

MM-Interleaved 模型同樣可以出色地完成各種復雜的圖像生成任務。比如根據用戶提供的詳細描述生成一張三角鋼琴的剪影:

圖片

或者當用戶以多種形式指定所需生成的圖像應當包含的物體或風格時,MM-Interleaved 框架也可輕松應對。

比如生成一張水彩風格的大象:

圖片

按照狗的風格生成一張貓的畫:

圖片

在向日葵花叢里的一座木房子:

圖片

以及在生成海浪圖像時,根據上下文智能推斷相應的風格。

圖像生成兼顧空間一致性

更令人驚喜的是,MM-Interleaved 還具備根據輸入的分割圖和對應的文本描述生成圖像的能力,并確保生成的圖像與分割圖在空間布局上保持一致。

圖片

這一功能不僅展示了模型在圖文生成任務中的卓越表現,同時也為用戶提供了更加靈活和直觀的操作體驗。

自主生成圖文并茂的文章

此外,只需提供一個簡單的開頭,MM-Interleaved 就能自主進行續寫,生成語義連貫、圖文并茂的文章,題材多樣。

無論是關于一朵玫瑰的童話故事:

圖片

教你制作蘋果汁的教程指南:

圖片

還是卡通動漫中的情節片段:

圖片

MM-Interleaved 框架都展現出了卓越的創造力。這使得 MM-Interleaved 框架成為了一個無限創意的智能合作者,能夠幫助用戶輕松打造引人入勝的圖文作品。

MM-Interleaved 致力于解決圖文交錯多模態大模型訓練中的核心問題,通過深入研究提出了一種全新的端到端預訓練框架。

基于 MM-Interleaved 訓練的模型,在參數量更少、不使用私有數據的情況下,不僅在多個零樣本多模態理解任務上表現優越,領先于國內外最新研究工作,如 Flamingo、Emu2 等。

還能進一步通過監督微調的方式,在視覺問答(VQA),圖像描述(image caption)、指代理解(referring expression comprehension)、圖生圖(segment-to-image generation)、視覺故事生成(visual storytelling)等多個下游任務上取得更為優異的綜合性能。

目前模型的預訓練權重及相應代碼實現均已在 GitHub 開源。

圖片

多模態特征同步器攜手全新端到端訓練框架

圖片

MM-Interleaved 提出了一種全新的端到端訓練框架,專門面向圖文交錯數據。

該框架支持多尺度的圖像特征作為輸入,不對圖像和文本的中間特征添加任何額外約束,而是直接采用預測下一個文本 token 或下一張圖像的自監督訓練目標,實現單階段的統一預訓練范式。

與以往方法相比,MM-Interleaved 不僅支持交錯生成文本和圖像,還能高效捕捉圖像中更多的細節信息。

圖片

此外,MM-Interleaved 的關鍵實現還包括一個通用的多模態特征同步器(Multi-modal Feature Synchronizer)。

該同步器能夠動態注入多張高分辨率圖像的細粒度特征到多模態大模型和圖像解碼器中,實現了對文本和圖像的解碼生成的同時進行跨模態的特征同步。

這一創新設計使得 MM-Interleaved 為多模態大模型領域的發展注入了新的活力。

多項任務性能領先

圖片

圖片

如表 1 和表 3 所示,MM-Interleaved 在零樣本多模態理解和生成任務上均取得了卓越的性能。這一成就不僅證明了該框架的強大能力,也突顯了其在應對多樣化任務時的強大通用性。

圖片


圖片

表 2 和表 4 展現了 MM-Interleaved 在進行進一步微調后的實驗結果,其在指代理解、基于分割圖生成圖像、圖文交錯生成等多個下游任務上的性能也十分優異。

這表明 MM-Interleaved 不僅在預訓練階段表現出色,而且在具體任務微調后依然能夠保持領先地位,從而為多模態大模型的廣泛應用提供了可靠的支持。

結論

MM-Interleaved 的問世標志著多模態大模型的發展朝著實現全面端到端的統一建模和訓練邁出了關鍵一步。

這一框架的成功不但體現在其預訓練階段所展現的卓越性能,而且還體現在微調后在各個具體下游任務上的全面表現。

其獨特的貢獻不僅在于展示了強大的多模態處理能力,更為開源社區構建新一代多模態大模型開啟了更為廣闊的可能性。

MM-Interleaved 也為未來圖文交錯數據的處理提供了新的思路和工具,為實現更加智能、靈活的圖文生成和理解奠定了堅實基礎。

我們期待看到這一創新為更多領域相關應用帶來更多驚喜。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-08 04:20:00

2024-08-30 14:35:00

2025-04-14 09:17:00

2025-03-19 09:30:00

2023-06-06 14:09:32

模型開源

2024-04-30 08:28:44

開源大模型Llama

2024-07-04 10:13:18

2024-04-23 07:00:00

2020-06-18 10:50:56

Java并發同步器

2025-01-08 08:21:16

2021-04-12 08:21:48

AQSjavajvm

2021-04-13 14:07:22

JUC解析AQS抽象

2024-05-28 13:03:50

2025-03-07 09:57:01

2024-03-25 12:30:18

AI訓練開源

2025-04-08 03:00:00

2023-02-03 16:31:02

模型

2017-11-06 08:52:59

Linux終端模擬器Java 9

2012-06-05 02:12:55

Java多線程

2017-12-01 08:53:28

機器學習大數據物聯網
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美福利专区 | 中文字幕不卡在线观看 | 欧美一区二区免费电影 | 一区二区三区四区国产 | 午夜精品一区二区三区免费视频 | 天天操夜夜操免费视频 | av天天看 | 国产一区久久 | 日韩www | 午夜小视频在线播放 | 日本午夜在线视频 | 国产一区 | 日韩中文一区二区三区 | 精品欧美一区二区在线观看视频 | 日韩欧美一区二区三区免费观看 | 黄色av网站在线观看 | 放个毛片看看 | 在线免费国产视频 | 91传媒在线观看 | 久久久久久国产精品 | 久久99精品久久久久久国产越南 | 女生羞羞视频 | 国产精品欧美一区二区三区不卡 | 国产精品久久久久一区二区三区 | 亚州精品天堂中文字幕 | 欧美一级免费黄色片 | 精品国产91 | 视频一区二区在线观看 | 精品二区 | 综合自拍 | 精品日本中文字幕 | 男女羞羞视频大全 | 国产精品永久免费 | 欧美激情一区二区三级高清视频 | 日韩欧美精品在线播放 | 成人av一区二区三区 | 天天插天天干 | 欧美一级做性受免费大片免费 | 四虎网站在线观看 | 亚洲一区 中文字幕 | 天天碰夜夜操 |