成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態大模型最全綜述導讀原創

發布于 2024-10-16 10:11

瀏覽

0收藏

多模態大模型最新研究綜述簡單版。

不知道最近微軟出的多模態大模型最全綜述 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 大家有沒有看~

包含5大主題一共119頁，內容又干又多，目前網上找到的中文解讀干貨內容都比較全比較長，很容易迷失其中，一直難以看完。

多模態大模型最全綜述導讀-AI.x社區

本期來給大家做一個這篇論文相對簡單的導讀；如果大家有想要著重了解部分或感興趣的內容可以先針對性地看。

下面是一個快捷目錄。

1. 章節分布

2. 具體內容解讀?

章節分布

論文從目前已經完善的和還處于最前沿的兩類多模態大模型研究方向出發，全面總結了五個具體研究主題：

視覺理解
視覺生成
統一視覺模型
LLM加持的多模態大模型
多模態agent

這里瓦力畫了一個比較簡單的圖，大致總結一下各個主題的內容，大家可以參考。

多模態大模型最全綜述導讀-AI.x社區

多模態大模型最全綜述導讀-AI.x社區

具體內容解讀

具體的模型、算法大家都可以針對性地自己了解，這里先給大家總結一些比較關鍵的點：

1. 語言或視覺多模態的開發路線

多模態大模型最全綜述導讀-AI.x社區

上述四個類別中，第一類是任務特定模型，后面三類屬于基礎模型。

下面以語言為例，聊聊AI的演進趨勢：

Task-Specific Models：可以對標以前LSTM/RNN時代，需要一個任務訓練一個模型。
Pre-trained Models：transformer（BERT、GPT）時代，先有預訓練的權重，再繼續適配下游任務進行一次訓練，但還是不同下游任務適配的不一樣權重；這個時代大家站transformer比較多，GPT此類單向注意力的模型一般在生成任務且要求序列生成較穩定的情況下使用。
Unified Models with Emerging Capabilities開始，GPT3已經展現了一些涌現能力。
General-purpose Assistant時代：OpenAI堅定地走了GPT路線，并對生成結果進行了對齊，ChatGPT就此誕生了~

2. 多模態中經典的5個問題

論文中回答了經典的5個問題，也闡述了多模態基礎模型旨在解決的三個代表性問題：視覺理解任務、視覺生成任務和具有語言理解和生成的通用界面。

多模態大模型最全綜述導讀-AI.x社區

Q1：如何學習視覺表示？

Q2：如何做視覺生成？

Q3：如何不基于大語言模型訓練一個通用視覺模型？

Q4：如何訓練多模態大語言模型

Q5：如何為大語言模型鏈接一個多模態專家？

下面是論文中各章節及經典的模型推薦，其中橙色的部分，也就是視覺理解主題部分回答了Q1；綠色的部分，視覺生成主題部分回答了Q2；藍色的部分，回答了Q3~Q5。

多模態大模型最全綜述導讀-AI.x社區

下面我從文章摘取一些內容簡單回答來上述5個問題，如果大家需要詳細了解的話可以從上圖中對應章節去研讀：

Q1：如何學習視覺表示？

多模態大模型最全綜述導讀-AI.x社區

下圖比較清晰的展現了現有的四種方法：

多模態大模型最全綜述導讀-AI.x社區

此外，論文中還列出了上述方法的代表模型。

多模態大模型最全綜述導讀-AI.x社區

監督學習

對比語言-圖像預訓練

多模態大模型最全綜述導讀-AI.x社區

多模態大模型最全綜述導讀-AI.x社區

純圖像自我監督學習（對比學習、非對比學習）

多模態大模型最全綜述導讀-AI.x社區

掩碼圖像建模

多模態大模型最全綜述導讀-AI.x社區

Q2：如何做視覺生成？

現有方法的代表模型。

多模態大模型最全綜述導讀-AI.x社區

1）具有代表性的文本到圖像生成模型

多模態大模型最全綜述導讀-AI.x社區

2）經典的擴散模型架構

多模態大模型最全綜述導讀-AI.x社區

3）未來研究趨勢：統一調優，實現人工對齊

具體又可以分為這三個方向：

統一的圖像和文本輸入。
調整以對齊為中心的損失和獎勵。
多模態內容理解和生成的閉環。

Q3：如何不基于大語言模型訓練一個通用視覺模型？

現有方法的代表模型。

多模態大模型最全綜述導讀-AI.x社區

1）從封閉集到開放集

通過引入對比語言-圖像預訓練方法來訓練開放集模型，解決了傳統封閉集模型的局限性。如圖 4.2 （a）所示，CLIP 不是學習從輸入到標簽的映射，而是使用數億個圖像-文本對學習對齊的視覺語義空間。

多模態大模型最全綜述導讀-AI.x社區

2）從特殊任務到通用

可分為I/O Unification 和Functionality Unification，也就是I/O統一和功能統一。

I/O統一：使用分詞器將各種任務中使用的不同模式的原始輸入和輸出（I/O）分詞化為連貫的序列（視覺或文本）分詞，然后利用統一的序列到序列模型。
功能統一：最近許多研究都使用了類似于transformer 的 Encoder-Decoder 架構，需要復雜的模型設計來適應各種任務。

多模態大模型最全綜述導讀-AI.x社區

3）從靜態到可提示

這里的研究主要是一些增強靜態視覺模型的能力，目的是為了支持：（i）多模態提示;（ii）上下文提示。

Q4：如何訓練多模態大語言模型？

這里文中舉了兩個例子：

1）LMM 使用圖像-文本成對實例進行訓練

大多數 LMM 都是在大量圖像-文本對上訓練的，其中每個訓練樣本都是一對。

多模態大模型最全綜述導讀-AI.x社區

多模態大模型最全綜述導讀-AI.x社區

2）使用交錯圖像文本序列實例訓練的 LMM。

論文中以Flamingo為例， Flamingo 使用僅來自 Web 的互補大規模多模態數據的混合進行訓練，而不使用任何用于機器學習目的的注釋數據。訓練完成后，Flamingo可以通過簡單的few-shot learning 直接適應視覺任務，而無需任何額外的任務特定調整。

多模態大模型最全綜述導讀-AI.x社區

多模態大模型最全綜述導讀-AI.x社區

Q5：如何為大語言模型鏈接一個多模態專家？

這里以MM-ReAct為例，其系統范式由 Chat GPT 組成了多模態工具，用于多模態推理和動作。通過使用各種多模態工具增強純語言的 ChatGPT，MM-REACT 支持多模態的輸入和輸出，包括文本、圖像和視頻。

多模態大模型最全綜述導讀-AI.x社區

再下面是MM-REAC涌現的多模態推理和動作功能。

多模態大模型最全綜述導讀-AI.x社區

那么論文的簡單導讀就是這樣了，如果大家覺得論文過長文本看不進去還可以看論文中1.4節附上的視頻，B站和youtube都有；雖然是英文的，但結合PPT整體看下來是比較容易理解的。

參考文獻：

[2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants (arxiv.org)

文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/fTiUSPZi8q3qy-Lnt6_EZQ??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態大模型

已于2024-10-16 12:45:42修改

贊

收藏

回復

舉報

回復

相關推薦

調研120+模型！騰訊AI Lab聯合京都大學發布多模態大語言模型最新綜述

laokugonggao ? 4188瀏覽 ? 0回復
《多模態大語言模型綜述》重大升級

angel ? 4032瀏覽 ? 0回復
多模態視覺-語言大模型的架構演進

angel ? 5085瀏覽 ? 0回復
最全梳理多模態大模型近期進展（26個最佳方案匯總）

angel ? 1.5w瀏覽 ? 0回復
多模態大型語言模型（MLLM）綜述

AIRoobt ? 5888瀏覽 ? 0回復
什么是多模態大模型？為什么需要多模態大模型？

AI探索時代 ? 5246瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 2632瀏覽 ? 0回復
從秒級到小時級：TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述

angel ? 6421瀏覽 ? 0回復
大模型面經——LoRA最全總結

shizhi02 ? 2973瀏覽 ? 0回復
多模態大模型中，多模態融合后怎樣知道最終結果受哪種模態影響更大？

shizhi02 ? 2337瀏覽 ? 0回復
多模態大模型：基礎架構

魯班模錘1 ? 2784瀏覽 ? 0回復
什么是多模態大模型

AI探索時代 ? 3729瀏覽 ? 0回復
多模態大模型Qwen2的深入了解

一起AI技術 ? 3873瀏覽 ? 0回復
多模態大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 9758瀏覽 ? 0回復
多模態大模型數據構造方法

shizhi02 ? 3155瀏覽 ? 0回復
EarthMarker：首個視覺提示遙感多模態大模型

AIRoobt ? 4399瀏覽 ? 0回復
2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 4682瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 2134瀏覽 ? 0回復
一篇多模態大模型推理技術最新綜述

PaperAgent ? 2028瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？ 4天前發布
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：從OmniGen的數據、模型設計與訓練策略中深度了解多模態統一生成模型

下一篇： OpenAI o1：用內部思維鏈進行復雜推理

社區精華內容

目錄

主站蜘蛛池模板：久久精品一二三影院 | 97人人澡人人爽91综合色 | 天堂资源最新在线 | 免费人成在线观看网站 | 日本不卡视频在线播放 | 一呦二呦三呦国产精品 | 亚洲第一中文字幕 | 成人性视频在线播放 | 精品亚洲永久免费精品 | 亚洲国产精品一区二区三区 | 精品乱码一区二区三四区视频 | 91久久夜色| 黄色在线播放视频 | 国产极品粉嫩美女呻吟在线看人 | 91亚洲国产成人久久精品网站 | 欧美成人精品在线 | 99精品国产成人一区二区 | 黄网站免费在线看 | 2018中文字幕第一页 | 国产一区二区久久 | 91一区二区 | 久久久久亚洲精品 | 在线看av的网址 | 亚洲国产精品久久久久秋霞不卡 | 二区在线视频 | 天天干夜夜拍 | 久久日本 | 亚洲中文欧美日韩在线观看 | 伊人久久精品一区二区三区 | 国产高潮好爽受不了了夜色 | 欧美一区二区视频 | 精品国产乱码久久久久久蜜臀 | 龙珠z在线观看 | 九九av| 一区二区三区日 | 大久 | 久久伊人精品 | 欧美色性 | 欧美h| 伊人网站在线 | 日韩欧美大片在线观看 |