成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<pre id="gaguk"></pre>

<button id="gaguk"><acronym id="gaguk"></acronym></button>

<optgroup id="gaguk"></optgroup>

<table id="gaguk"><menu id="gaguk"></menu></table><table id="gaguk"><menu id="gaguk"></menu></table>

<li id="gaguk"></li>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果

發布于 2024-10-10 14:48

瀏覽

0收藏

這篇文章給大家介紹一下阿里發表的多模態大模型工作mPLUG-Owl，共2篇文章，建立在前序圖像表征對齊預訓練大語言模型的思路，提出了不同的參數訓練方式、多模態解耦映射等優化方法，在多項任務取得了SOTA效果。

相關論文：

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

1.核心思路

多模態大模型希望構建一個能同時處理文本、圖像等不同模態信息的數據，解決復雜的圖文推理等多模態任務。在NLP中的大語言模型逐漸興起后，多模態模型的一個主要構建思路為：以預訓練的大語言模型LLM為基座，通過ViT等Vision Encoder將圖像映射成表征，和文本token embedding拼接到一起輸入大模型，結合預訓練、Instruction Tuning等方法進行訓練。

這種多模態大模型的建模方法，經過2年的研究，逐漸完善起來。阿里的mPLUG-Owl工作，就建立在這個思路基礎之上。

2.基礎模型結構

第一版本的mPLUG-Owl核心結構如下圖，主要包括一個預訓練的LLM、一個圖像編碼器、一個視覺抽象器3個部分。

其中的核心是，如何將圖像信息進行比較好的處理，和LLM的表征空間對齊。對于圖像信息，對圖像分patch后，采用預訓練ViT進行處理，生成每個patch的embedding。由于圖像中包含背景等噪聲信息，且維度較高，直接將原始圖像信息輸入語言模型難以學習且復雜度高。因此，文中引入了Visual Abstractor模塊，對基礎的圖像特征進行抽象。

Visual Abstractor由cross attention構成，使用一些可學習的token embedding和原始圖像的patch embedding進行cross attention計算，token的數量遠小于patch的數量，選擇性的將patch embedding的重要信息匯聚到可學習token上。

Visual Abstractor輸出多個視覺token embedding，和文本的token embedding拼接到一起，輸入到預訓練的LLM中。

阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果-AI.x社區

3.訓練方式

視覺特征對齊語言模型的多模態大模型，一般采用兩個階段進行訓練。在第一個階段，使用基礎的圖文數據構建生成式任務，第二階段利用Instruction Tuning的方式讓模型進一步提升復雜多模態理解能力。

在之前的很多工作中，都采用這種兩階段的訓練，但是更新的參數不同。比如MiniGPT4只更新圖像表征到LLM輸入的MLP映射網絡，其他方法也對Visual Encoder進行了凍結。為了提升多模態的聯合學習能力，本文在預訓練階段，打開Visual Encoder的參數更新，強化模型的多模態訓練過程。在第二階段，凍結Visual Encoder參數，finetune語言模型參數。

阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果-AI.x社區

4.V2版本優化

在近期阿里發布的mPLUG-Owl2工作中，主要對多模態的對齊進行了優化。

這里的核心優化點是對語言模型的self-attention機制進行了優化，對于兩個模態的表征，分別使用獨立layer normalization縮放到相同scale后，使用兩組不同的MLP網絡分別進行兩個模態表征到同空間的映射。

相比之前共享MLP的映射方法，這種獨立映射的方法保留了兩個模態個性化的信息，又能映射到相同空間。在attention后再分別接各自模態的layer normalization生成最終預測結果。

阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果-AI.x社區

在知識星球中，也為大家整理了這種視覺對齊LLM的多模態大模型歷史工作，感興趣的同學可以加入學習。

5.實驗效果

文中對比了mPLUG-Owl在各項任務上和MiniGPT、BLIP、LLaVA等多模態大模型的效果，均取得了SOTA效果，驗證了mPLUG-Owl的多模態理解能力。

阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果-AI.x社區

本文轉載自??圓圓的算法筆記??，作者： Fareise ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

大模型融合！最新「進化算法」全自動組合開源模型，刷榜多項基準測試

duhorse ? 2283瀏覽 ? 0回復
字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

Crystalcxt ? 2678瀏覽 ? 0回復
AI讀論文新神器：多欄密集文字、中英圖文混排文檔都能讀的多模態大模型Fox

Crystalcxt ? 3436瀏覽 ? 0回復
超越CVPR 2024方法，DynRefer在區域級多模態識別任務上，多項SOTA

輕薄滴假象 ? 2409瀏覽 ? 0回復
模型圖文多模態能力評測結果全公開

戀戀青鳥 ? 8689瀏覽 ? 0回復
多模態與偽多模態大模型

AI探索時代 ? 2632瀏覽 ? 0回復
阿里開源多模態視覺語言模型，多項超越GPT4o與Claude 3.5-Sonnet

angel ? 1.1w瀏覽 ? 0回復
上交最新時空預測模型PredFormer，純Transformer架構，多個數據集取得SOTA效果

海因斯DK ? 5473瀏覽 ? 0回復
南大&阿里發布多模態大模型WINGS，解決基于LLM的多模態訓練災難遺忘問題

海因斯DK ? 3280瀏覽 ? 0回復
支持20+視覺任務，多項SOTA！可擴展多任務視覺基礎模型LaVin-DiT：融合時空VAE與DiT

angel ? 2457瀏覽 ? 0回復
M3DocRAG：文檔問答用哪個多模態大模型效果最好？

大語言模型論文跟蹤 ? 3094瀏覽 ? 0回復
如何全面評估多模態大模型能力？MLLM評測任務與指標總結

shizhi02 ? 7809瀏覽 ? 0回復
文生圖擊敗所有擴散SOTA方案！智源研究院等提出NOVA：邁向統一的多任務大模型

angel ? 2329瀏覽 ? 0回復
多模態大模型在表格解析任務上效果如何？親身經歷全是淚！

NLP工作站 ? 1998瀏覽 ? 0回復
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 2256瀏覽 ? 0回復
Tiktok多模態大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2677瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3774瀏覽 ? 0回復
AI鏡頭控制黑科技喜提多項SOTA！浙大&上交等發布統一多模態視頻生成框架OmniCam

angel ? 1552瀏覽 ? 0回復
一篇多模態大模型推理技術最新綜述

PaperAgent ? 2028瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

ICML'25 | 兼容不同數據源周期性差異的時間序列基礎模型 3天前發布
中科大&騰訊：通過提升各個專家網絡差異性提升基于MoE的CTR預估效果 3天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：時序預測數據處理新方法匯總：多粒度和頻域的可逆歸一化

下一篇：上交最新時空預測模型PredFormer，純Transformer架構，多個數據集取得SOTA效果

社區精華內容

目錄

主站蜘蛛池模板：九九热精品在线 | 久草在线| 国产成人免费 | 精品视频一区二区三区 | 欧美精品久久一区 | 九色在线视频 | 色婷婷综合久久久中字幕精品久久 | 久久99成人 | 国产乱码精品1区2区3区 | 看黄在线| 国产精品国产 | 一区二区三区在线播放 | 日韩欧美一区二区三区免费观看 | 久久欧美高清二区三区 | 亚洲一二三区在线观看 | 亚洲国产成人精品一区二区 | 欧洲亚洲一区 | 国产亚洲高清视频 | 91就要激情 | 一区在线免费视频 | 一区二区成人 | 成人在线h | 欧美精品在线播放 | 午夜成人免费视频 | 久久免费精品 | xnxx 日本免费| 青青草国产在线观看 | 久久久久久99| 夜夜爽99久久国产综合精品女不卡 | 一区二区免费在线 | 激情五月激情综合网 | 99精品国产一区二区三区 | 亚洲精品av在线 | 在线电影日韩 | 中文字幕免费视频 | 国产精品高清一区二区 | 毛片99| 免费一看一级毛片 | 亚洲国产小视频 | 欧美一区免费 | 久久综合伊人 |

<tr id="u6k4c"><sup id="u6k4c"></sup></tr><optgroup id="u6k4c"><bdo id="u6k4c"></bdo></optgroup>

<pre id="u6k4c"></pre>