成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于模塊化思想,阿里達(dá)摩院提出多模態(tài)基礎(chǔ)模型mPLUG-2

人工智能 新聞
達(dá)摩院的研究者提出了 mPLUG-2,其通過模塊化的?絡(luò)結(jié)構(gòu)設(shè)計來平衡多模態(tài)之間的協(xié)作和糾纏問題。

對于多模態(tài)基礎(chǔ)模型,我們希望其不僅可以處理特定的多模態(tài)相關(guān)任務(wù),還希望其處理單模態(tài)任務(wù)時也具有優(yōu)異的性能。阿?達(dá)摩院團(tuán)隊發(fā)現(xiàn)現(xiàn)有的模型往往不能很好的平衡模態(tài)協(xié)作和模態(tài)糾纏的問題,這限制了模型在各種單模態(tài)和跨模態(tài)下游任務(wù)的性能。

基于此,達(dá)摩院的研究者提出了 mPLUG-2,其通過模塊化的?絡(luò)結(jié)構(gòu)設(shè)計來平衡多模態(tài)之間的協(xié)作和糾纏問題,mPLUG-2 在 30 + 多 / 單模態(tài)任務(wù),取得同等數(shù)據(jù)量和模型規(guī)模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超?模型取得絕對SOTA。此外,mPLUG-Owl 是阿?巴巴達(dá)摩院 mPLUG 系列的最新工作,延續(xù)了 mPLUG 系列的模塊化訓(xùn)練思想,把 LLM 升級為?個多模態(tài)?模型。mPLUG-2 的研究論文已被 ICML 2023 接收。

圖片

  • 論?地址:https://arxiv.org/pdf/2302.00402.pdf
  • mPLUG-2 地址:https://github.com/X-PLUG/mPLUG-2
  • mPLUG-Owl 地址:https://github.com/X-PLUG/mPLUG-Owl

研究背景

?規(guī)模預(yù)訓(xùn)練基礎(chǔ)模型是??智能領(lǐng)域的新興范式,涉及語?、視覺和多模態(tài)等多個領(lǐng)域。隨著 Transformer 體系結(jié)構(gòu)的?泛成功,近年來已經(jīng)出現(xiàn)了語?、視覺和多模態(tài)預(yù)訓(xùn)練的?融合趨勢。

該趨勢下的?條主要線路是采?統(tǒng)?的序列?成框架來統(tǒng)?任務(wù)和模態(tài),如 T5、OFA 和 Flamingo 等。另?條主要線路則是將所有任務(wù)都視為實(shí)例區(qū)分 (instance discrimination),并采用純編碼器架構(gòu),如 BERT、Florence 和 BEIT-3 模型。

以上主流基礎(chǔ)模型提出為多模態(tài)數(shù)據(jù)建模共享的單?網(wǎng)絡(luò) (single network),以此來利用模態(tài)協(xié)作的信息,如 Flamingo。然而,由于不同模態(tài)涉及到的任務(wù)的巨?差異,這種策略將?臨模態(tài)糾纏的問題,多個模態(tài)可能會相互干擾,特別是當(dāng)存在多種模態(tài)和任務(wù)時。單模塊基礎(chǔ)模型難以平衡模態(tài)協(xié)作的收益和模態(tài)糾纏對多個跨模態(tài)下游任務(wù)的影響。

為了緩解這個挑戰(zhàn),在這項?作中,阿?達(dá)摩院團(tuán)隊引?了?種新的多模態(tài)基礎(chǔ)模型的統(tǒng)?范式,如下圖 1 所示。它采?基于模塊的?絡(luò)設(shè)計來考慮到模態(tài)協(xié)作和模態(tài)糾纏之間的平衡。mPLUG-2 的研究者設(shè)計了特定的共享功能模塊 (functional modules),以?勵模態(tài)協(xié)作,同時保留特定于模態(tài)的模塊 (modality-specific modules) 以解決模態(tài)糾纏的問題。

圖片

基于模塊化的設(shè)計,不同的模塊可以靈活地選取和組合,以適應(yīng)?量的單模態(tài)和多模態(tài)的理解和?成任務(wù)。支持的下游任務(wù)的詳細(xì)信息在表 1 中給出,可以看到 mPLUG-2 可以處理多種跨?本、圖像和視頻的不同類型的下游任務(wù)。下表 2 中也提供了不同的下游任務(wù)所需要的模塊組合。

圖片

圖片

方法概覽

圖片

模型框圖如上圖 2 所示:(1) mPLUG-2 設(shè)計了?個統(tǒng)?的雙 (dual) 視覺編碼器模塊,其中視頻與圖像輸?共享的標(biāo)準(zhǔn) Transformer 模塊,?于建模空間信息。局部時域建模模塊?于視頻相關(guān)任務(wù)的時域關(guān)系建模。(2) mPLUG-2 設(shè)計了?個新穎的通?層模塊 ( universal layers module),?于作為不同模態(tài)之間的樞紐,其通過共享?注意?模塊將視覺和語?模態(tài)投影到共同的以語?為導(dǎo)向的語義空間中。(3) mPLUG-2 使?額外的交叉注意?模塊將通?視覺表示 (universal vision representation) 與原始細(xì)粒度視覺表示融合。詳細(xì)的模塊設(shè)計如圖 2 所示。最后,mPLUG-2 的不同模塊通過任務(wù)和模態(tài)指令 (task and modality instructions) 在單模態(tài)和跨模態(tài)任務(wù)上進(jìn)?聯(lián)合預(yù)訓(xùn)練。在推理過程中,mPLUG-2 可以使?模塊化 Transformer 架構(gòu)為各種單模態(tài)和交叉模態(tài)任務(wù)選擇不同的模塊。

mPLUG-2 的卓越性能

mPLUG-2 在 30 多個有挑戰(zhàn)性的單模態(tài)和跨模態(tài)理解和?成基準(zhǔn)測試中評估了 mPLUG-2 的性能,它在相似的模型大小和數(shù)據(jù)規(guī)模下取得了最先進(jìn)或有競爭力的結(jié)果。

這里展示幾個有代表性的實(shí)驗結(jié)果:

多模態(tài)任務(wù)

研究者在多模態(tài)理解型和生成型的相關(guān)任務(wù)上評測 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,實(shí)驗結(jié)果表明其可以得到 SOTA 的性能。

圖片

圖片

圖片

圖片

純語言任務(wù)

研究者發(fā)現(xiàn),相比于專?語?預(yù)訓(xùn)練模型和其他多模態(tài)預(yù)訓(xùn)練模型,mPLUG-2 在 GLUE benchmark 上可以取得可?的性能。實(shí)驗結(jié)果證明了使? universal layer 做模態(tài)協(xié)作的有效性。

圖片

純視覺任務(wù)

研究者發(fā)現(xiàn),mPLUG-2 在純視覺任務(wù)上,如行為識別,圖像分類任務(wù),可以取得具有競爭力的性能。

圖片

圖片

消融:用于模態(tài)協(xié)作的通用層 (universal layer) 的作用有多大?

研究者在 baseline 的基礎(chǔ)上,添加他們設(shè)計的通?層 universal layer。可以發(fā)現(xiàn),通過鼓勵模態(tài)協(xié)作,在單模態(tài)或者跨模態(tài)任務(wù)上,都會有明顯的性能提升,證明了通?層 universal layer 的有效性。

圖片

圖片

另外,研究者還發(fā)現(xiàn),?勵模態(tài)協(xié)作的通?層 universal layer 可以得到更小的 modality gap。

圖片

更多技術(shù)和實(shí)驗細(xì)節(jié)請參閱原論?。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-05-08 10:14:07

模型AI

2023-08-14 07:20:10

2022-07-12 14:45:54

達(dá)摩院模型

2024-08-19 13:35:09

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2018-06-07 16:00:28

阿里巴巴語音識別開源

2023-01-14 14:59:05

達(dá)摩院

2025-02-08 13:30:00

2020-04-10 15:07:45

優(yōu)化代碼圖像

2022-08-17 10:39:44

AI阿里達(dá)摩院文檔智能

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2023-04-03 10:32:56

模型數(shù)據(jù)集

2023-07-05 09:57:11

2025-01-13 09:17:41

2020-09-18 15:10:25

阿里達(dá)摩院數(shù)據(jù)

2025-01-08 08:21:16

2023-03-06 14:07:31

系統(tǒng)訓(xùn)練

2019-08-28 16:18:39

JavaScriptJS前端

2018-04-20 09:08:10

AI芯片阿里巴巴
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美video| 人人插人人 | 亚洲一区 中文字幕 | 365夜爽爽欧美性午夜免费视频 | 亚av在线 | 国产福利91精品一区二区三区 | 免费永久av | 毛片在线免费 | 免费一级毛片 | 天天精品在线 | 伊人网综合在线观看 | 在线观看免费观看在线91 | 黄色片在线看 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 久久精品中文 | 在线观看av网站永久 | 成人片免费看 | 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 国产91色在线 | 亚洲 | 欧美日一区 | 免费一级欧美在线观看视频 | 久久综合久色欧美综合狠狠 | 午夜视频免费在线观看 | 国产色99精品9i | 中文字幕视频在线看 | 国产精品成人在线 | 成人在线亚洲 | 亚洲三级国产 | 国产激情视频在线观看 | 高清av一区 | 99热热精品 | 亚洲成人福利在线观看 | 日韩国产欧美一区 | 欧美理伦片在线播放 | 欧美一区二区三区 | 亚洲一区二区三区免费 | 婷婷不卡 | 污片在线免费观看 | 欧美一区二区在线 | 国产999精品久久久久久 | 国产欧美日韩 |