成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里mPLUG-Owl新升級(jí),魚與熊掌兼得,模態(tài)協(xié)同實(shí)現(xiàn)MLLM新SOTA

人工智能 新聞
MLLM 在多種視覺-語言開放任務(wù)中取得了出色的指令跟隨能力。盡管以往多模態(tài)學(xué)習(xí)的研究表明不同模態(tài)之間能夠相互協(xié)同和促進(jìn),但是現(xiàn)有的 MLLM 的研究主要關(guān)注提升多模態(tài)任務(wù)的能力,如何平衡模態(tài)協(xié)作的收益與模態(tài)干擾的影響仍然是一個(gè)亟待解決的重要問題。

OpenAI GPT-4V 和 Google Gemini 都展現(xiàn)了非常強(qiáng)的多模態(tài)理解能力,推動(dòng)了多模態(tài)大模型(MLLM)快速發(fā)展,MLLM 成為了現(xiàn)在業(yè)界最熱的研究方向。

MLLM 在多種視覺-語言開放任務(wù)中取得了出色的指令跟隨能力。盡管以往多模態(tài)學(xué)習(xí)的研究表明不同模態(tài)之間能夠相互協(xié)同和促進(jìn),但是現(xiàn)有的 MLLM 的研究主要關(guān)注提升多模態(tài)任務(wù)的能力,如何平衡模態(tài)協(xié)作的收益與模態(tài)干擾的影響仍然是一個(gè)亟待解決的重要問題。

圖片

  • 論文地址:https://arxiv.org/pdf/2311.04257.pdf
  • 代碼地址:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2
  • ModelScope 體驗(yàn)地址: https://modelscope.cn/studios/damo/mPLUG-Owl2/summary
  • HuggingFace 體驗(yàn)地址:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2

針對(duì)這一問題,阿里多模態(tài)大模型 mPLUG-Owl 迎來大升級(jí),通過模態(tài)協(xié)同同時(shí)提升純文本和多模態(tài)性能,超過 LLaVA1.5,MiniGPT4,Qwen-VL 等模型,取得多種任務(wù) SOTA。具體的,mPLUG-Owl2 利用共享的功能模塊來促進(jìn)不同模態(tài)之間的協(xié)作,并引入模態(tài)自適應(yīng)模塊來保留各個(gè)模態(tài)自身的特征。通過簡潔有效的設(shè)計(jì),mPLUG-Owl2 在包括純文本和多模態(tài)在內(nèi)的多種任務(wù)上取得了 SOTA 性能,對(duì)模態(tài)協(xié)作現(xiàn)象的研究也有助于啟發(fā)未來多模態(tài)大模型的發(fā)展。

圖片

圖 1 與現(xiàn)有 MLLM 模型性能對(duì)比

方法介紹

mPLUG-Owl2 模型主要由三部分組成:

  • Visual Encoder:以 ViT-L/14 作為視覺編碼器,將輸入的分辨率為 H x W 的圖像,轉(zhuǎn)換為 H/14 x W/14 的視覺 tokens 序列,輸入到 Visual Abstractor 中。
  • Visual Abstractor:利用一組可學(xué)習(xí)的 query,提取高層次的語義特征,同時(shí)降低輸入語言模型的視覺序列的長度。
  • 語言模型:使用了 LLaMA-2-7B 作為文本解碼器,并設(shè)計(jì)了如圖 3 所示的模態(tài)自適應(yīng)模塊。

圖片

圖 2 mPLUG-Owl2 模型結(jié)構(gòu)

為了對(duì)齊視覺和語言模態(tài),現(xiàn)有的工作通常是將視覺特征映射到文本的語義空間中,然而這樣的做法忽視了視覺和文本信息各自的特性,可能由于語義粒度的不匹配影響模型的性能。為了解決這一問題,本文提出模態(tài)自適應(yīng)模塊 (Modality-adaptive Module, MAM),來將視覺和文本特征映射到共享的語義空間,同時(shí)解耦視覺 - 語言表征以保留模態(tài)各自的獨(dú)特屬性。

圖 3 Modality-adaptive 模塊示意圖

如圖 3 所示,與傳統(tǒng) Transformer 相比,模態(tài)自適應(yīng)模塊的主要設(shè)計(jì)在于:

  • 在模塊的輸入、輸出階段,分別對(duì)視覺和語言模態(tài)進(jìn)行 LayerNorm 操作,以適應(yīng)兩種模態(tài)各自的特征分布。
  • 在自注意力操作中,對(duì)視覺和語言模態(tài)采用分離的 key 和 value 投影矩陣,但采用共享的 query 投影矩陣,通過這樣解耦 key 和 value 投影矩陣,能夠在語義粒度不匹配的情況下,避免兩種模態(tài)之間的干擾。
  • 兩種模態(tài)共享相同的 FFN,從而促進(jìn)模態(tài)間的協(xié)作。

圖 4 mPLUG-Owl2 訓(xùn)練策略

如圖 4 所示,mPLUG-Owl2 的訓(xùn)練包含預(yù)訓(xùn)練和指令微調(diào)兩個(gè)階段。預(yù)訓(xùn)練階段主要是為了實(shí)現(xiàn)視覺編碼器和語言模型的對(duì)齊,在這一階段,Visual Encoder、Visual Abstractor 都是可訓(xùn)練的,語言模型中則只對(duì) Modality Adaptive Module 新增的視覺相關(guān)的模型權(quán)重進(jìn)行更新。在指令微調(diào)階段,結(jié)合文本和多模態(tài)指令數(shù)據(jù)(如圖 5 所示)對(duì)模型的全部參數(shù)進(jìn)行微調(diào),以提升模型的指令跟隨能力。

圖片

圖 5 mPLUG-Owl2 使用的指令微調(diào)數(shù)據(jù)

實(shí)驗(yàn)及結(jié)果

圖片

圖 6 圖像描述和 VQA 任務(wù)性能

圖片

圖 7 MLLM 基準(zhǔn)測(cè)試性能

如圖 6、圖 7 所示,無論是傳統(tǒng)的圖像描述、VQA 等視覺 - 語言任務(wù),還是 MMBench、Q-Bench 等面向多模態(tài)大模型的基準(zhǔn)數(shù)據(jù)集上,mPLUG-Owl2 都取得了優(yōu)于現(xiàn)有工作的性能。

圖片

圖 8 純文本基準(zhǔn)測(cè)試性能

圖片

圖 9 模態(tài)自適應(yīng)模塊對(duì)純文本任務(wù)性能的影響

此外,為了評(píng)估模態(tài)協(xié)同對(duì)純文本任務(wù)的影響,作者還測(cè)試了 mPLUG-Owl2 在自然語言理解和生成方面的表現(xiàn)。如圖 8 所示,與其他指令微調(diào)的 LLM 相比,mPLUG-Owl2 取得了更好的性能。圖 9 展示的純文本任務(wù)上的性能可以看出,由于模態(tài)自適應(yīng)模塊促進(jìn)了模態(tài)協(xié)作,模型的考試和知識(shí)能力都得到了顯著提高。作者分析,這是由于多模態(tài)協(xié)作使得模型能夠利用視覺信息來理解語言難以描述的概念,并通過圖像中豐富的信息增強(qiáng)模型的推理能力,并間接強(qiáng)化文本的推理能力。

mPLUG-Owl2 展示了很強(qiáng)的多模態(tài)理解能力,有效的緩解多模態(tài)幻覺。相關(guān)多模態(tài)技術(shù)已應(yīng)用于通義星塵、通義智文等核心通義產(chǎn)品,并已在 ModelScope,HuggingFace 開放 Demo。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-12-10 16:32:06

IDC虛擬化惠普

2016-05-12 15:21:32

IBM大型機(jī)LinuxONE

2017-04-06 22:33:43

with磁盤數(shù)據(jù)

2013-08-30 13:56:57

2012-10-08 10:19:46

虛擬化

2017-12-27 22:49:48

云服務(wù)網(wǎng)絡(luò)云計(jì)算

2012-01-17 10:31:21

惠普激光打印機(jī)

2017-05-17 16:10:03

PC

2017-09-29 11:07:00

IPS優(yōu)勢(shì)缺憾

2023-05-08 10:14:07

模型AI

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2017-06-12 12:23:46

打印機(jī)文印產(chǎn)品Brother

2022-08-12 11:37:16

優(yōu)化實(shí)踐

2024-08-19 13:35:09

2024-06-05 09:22:43

2024-03-25 12:40:19

訓(xùn)練模型

2011-11-09 17:10:19

Windows 8系統(tǒng)

2023-10-07 09:29:09

2020-11-13 09:32:58

JPA Mybatis數(shù)據(jù)庫

2020-12-14 11:40:27

Next.js SSRReact
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线视频 中文字幕 | 久久高清国产 | 中文字幕视频三区 | 国产精品网页 | 欧美一级二级视频 | 亚洲精品国产区 | 日日天天 | 国产精品亚洲一区 | 国产丝袜一区二区三区免费视频 | 日本国产一区二区 | 亚洲精品中文字幕在线观看 | 国产福利在线播放 | 日韩久久久久久久 | 中文字幕在线不卡 | 成人国产网站 | 亚洲精品日韩视频 | 91天堂网| 欧美视频日韩 | 五月婷亚洲 | 免费的av网站 | 888久久久| 日韩在线视频一区二区三区 | 色网在线播放 | 97国产精品视频人人做人人爱 | 国产在线拍偷自揄拍视频 | 午夜一区二区三区在线观看 | 久久国产视频一区 | 欧美精品久久久久久久久久 | 欧美一区二区三区视频 | 全免费a级毛片免费看视频免 | 国产美女在线精品免费 | 国产精品久久二区 | 欧美 日韩 国产 成人 在线 91 | 欧美在线观看一区二区 | 日韩午夜 | 日韩亚洲视频 | 日韩av电影在线观看 | 黄视频免费在线 | 拍真实国产伦偷精品 | av一区二区三区 | 精品久久久久久久久久久久 |