成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

12種模態(tài),一個學習框架,Meta-Transformer實現(xiàn)骨干網(wǎng)絡大一統(tǒng)

人工智能 新聞
近日,香港中文大學多媒體實驗室聯(lián)合上海人工智能實驗室的研究團隊提出一個統(tǒng)一多模態(tài)學習框架 ——Meta-Transformer,采用全新的設計思路,通過統(tǒng)一學習無配對數(shù)據(jù),可以理解 12 種模態(tài)信息。

在邁向通用人工智能(AGI)的諸多可能的方向中,發(fā)展多模態(tài)大模型(MLLM)已然成為當前炙手可熱的重要路徑。在 GPT4 對圖文理解的沖擊下,更多模態(tài)的理解成為學術界關注的焦點,通感時代真要來了嗎?

我們知道,人類在學習的過程中不僅僅會接觸到文字、圖像,還會同時接觸聲音、視頻等各種模態(tài)的信息,并在腦中對這些信息同時進行加工處理和統(tǒng)一學習。

那么:人工智能可以具備人類統(tǒng)一學習多模態(tài)信息的能力嗎?事實上,多模態(tài)之間的互補性可以增強人工智能的學習能力,比如,CLIP 將圖像與文本進行統(tǒng)一學習的方式就取得了巨大的成功。但受限于多種模態(tài)之間巨大的差異性以及現(xiàn)有多模態(tài)模型對配對數(shù)據(jù)的依賴性,實現(xiàn)模態(tài)通用感知存在著艱巨挑戰(zhàn)。

為了解決上述挑戰(zhàn),近日,香港中文大學多媒體實驗室聯(lián)合上海人工智能實驗室的研究團隊提出一個統(tǒng)一多模態(tài)學習框架 ——Meta-Transformer,采用全新的設計思路,通過統(tǒng)一學習無配對數(shù)據(jù),可以理解 12 種模態(tài)信息

圖片圖片



圖片


  • 網(wǎng)站地址:https://kxgong.github.io/meta_transformer/
  • 代碼地址:https://github.com/invictus717/MetaTransformer

Meta-Transformer 實現(xiàn)骨干網(wǎng)絡的大一統(tǒng),具有一個模態(tài)共享編碼器,并且無需配對數(shù)據(jù),能夠在 12 個不同的模態(tài)上完成 16 個不同的感知任務。該工作不僅為當前多模態(tài)學習提供了強大的工具,也給多模態(tài)領域帶來新的設計思路。

圖 1:Meta-Transformer 框架下統(tǒng)一的多模態(tài)感知,能夠處理 12 種不同的模態(tài)圖 1:Meta-Transformer 框架下統(tǒng)一的多模態(tài)感知,能夠處理 12 種不同的模態(tài)

表 1:相比于現(xiàn)有工作,Meta-Transformer 可以利用統(tǒng)一的模態(tài)共享編碼器來處理更多的模態(tài),并且擺脫了多模態(tài)訓練過程中對于配對數(shù)據(jù)的依賴性。

接下來,一起詳細看一看 Meta-Transformer 的創(chuàng)新與貢獻體現(xiàn)在哪些方面。

Meta-Transformer 通向無限模態(tài)的感知范式

1、統(tǒng)一的模態(tài)共享編碼器

相比于先前 CLIP 使用不同的圖像和文本編碼器,以及 BEIT-3 的部分共享編碼器框架,Meta-Transformer 的核心設計在于一個所有模態(tài)完全共享的編碼器。該設計在編碼器層面統(tǒng)一多達 12 個模態(tài),證明了多模態(tài)數(shù)據(jù)完全共享編碼器的可行性。共享編碼器有助于在編碼器階段減小由不同的網(wǎng)絡參數(shù)引入的表征差異,這離統(tǒng)一的多模態(tài)感知智能更近了一步,即一個通用的網(wǎng)絡結(jié)構(gòu)處理任意模態(tài)的信息。

Meta-Transformer 可以有效地處理和學習高達 12 種模態(tài)的數(shù)據(jù),從常見的文本、圖像到音頻、視頻,甚至在其他更復雜的數(shù)據(jù)類型上也有所突破,如點云和高光譜數(shù)據(jù)。該設計有助于拓寬未來的多模態(tài)工作的設計思路。

圖 2:Meta-Transformer 的框架圖:對于不同模態(tài)的數(shù)據(jù),研究人員基于不同模態(tài)的信息特性設計了相應的特征序列構(gòu)造方式,接著將得到的特征序列輸入到預訓練后參數(shù)凍結(jié)的編碼器中,由此提取的表征能夠在多個模態(tài)上解決下游多個任務。

2、無需配對數(shù)據(jù):更加靈活的訓練方式

當前許多模態(tài)工作依賴于內(nèi)容配對的多模態(tài)數(shù)據(jù)來語義對齊兩個模態(tài),但收集生成多個模態(tài)兩兩之間配對的數(shù)據(jù)的高難度限制了當前的多模態(tài)工作推廣到更廣泛的數(shù)據(jù)模態(tài)上。為了緩解這一限制,該研究提出 Data2Seq 方法, 將不同模態(tài)的原數(shù)據(jù)嵌入到一個共同編碼空間,轉(zhuǎn)換成各自對應 token 序列,隨后使用統(tǒng)一的模態(tài)共享編碼器繼續(xù)編碼 token 序列,因而任一模態(tài)的數(shù)據(jù)就可以訓練 Meta-Transformer 感知相應的模態(tài)的能力。實驗表明,Meta-Transformer 能夠在缺少配對數(shù)據(jù)訓練場景下展現(xiàn)優(yōu)異性能。

3、更多模態(tài):通向模態(tài)通用感知

現(xiàn)有的多模態(tài)模態(tài)框架多側(cè)重于視覺和語言,較少衍生到更多其他模態(tài)。相比之下,Meta-Transformer 能夠?qū)τ?12 種不同的數(shù)據(jù)模態(tài)提供一套統(tǒng)一的學習框架,包括文本、圖像、點云、音頻、視頻、紅外、超光譜、X 射線、表格、圖形、時間序列和慣性測量單元(IMU)數(shù)據(jù)。這種廣泛的數(shù)據(jù)模態(tài)覆蓋,極大擴展了 Meta-Transformer 的應用范圍,并且 Meta-transformer 框架對于擴展到更多的模態(tài)有著易擴展、低成本、高訓練效率的優(yōu)勢。

Meta-Transformer 的方法介紹

Meta-Transformer 統(tǒng)一處理來自不同模態(tài)的數(shù)據(jù),并通過共享編碼器完成對十二種模態(tài)的編碼。為了實現(xiàn)這一目標,Meta-Transformer 由三個部分組成:Data2Seq tokenization 模塊、統(tǒng)一的共享編碼模塊和下游任務學習模塊。

首先,研究人員提出了一套處理多模態(tài)數(shù)據(jù)的核心方案:數(shù)據(jù)分組 — 卷積提取局部語義 — 語義聚合 —— 空間映射,將各種模態(tài)的數(shù)據(jù)轉(zhuǎn)換為在同一個共享的嵌入空間內(nèi)的 token 序列。

圖 3:Data-to-Sequence 的設計方案能夠有效地將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為同一個流行嵌入空間內(nèi)的 token 序列,具有極強的模態(tài)拓展性。

緊接著,Meta-Transformer 將使用統(tǒng)一的共享編碼器對上一步得到的的不同模態(tài)的 token 序列進行編碼。研究人員使用 LAION-2B 數(shù)據(jù)集對于骨干網(wǎng)絡進行預訓練,在預訓練之后凍結(jié)了模型參數(shù),得到深度為 L 的 Transformer 編碼器由多個堆疊的多頭自注意力(MSA)層和 MLP 塊組成。輸入的 token 首先進入 MSA 層,然后進入 MLP 塊。然后第 (?- 1) 個 MLP 塊的輸出作為第?個 MSA 層的輸入,層歸一化(LN)被添加到每一層之前。MLP 包含兩個線性 FC 層和一個 GELU 非線性激活層。

最后,在獲得學習表征后,研究人員將表征輸入特定任務的頭,它主要由 MLP 組成,因模態(tài)和任務而異。Meta-Transformer 的學習目標可以概括為

圖片


其中 h (?),g (?),與 f (?),分別表示 tokenizer,模型骨干網(wǎng)絡,以及下游任務網(wǎng)絡中的運算過程。

實驗結(jié)果

Meta-Transformer 具有豐富且優(yōu)秀的實驗結(jié)果。下表 2 展示了 Meta-Transformer 在不同模態(tài)上的實驗內(nèi)容。可以看出,Meta-Transformer 從 12 種模態(tài)中提取表征信息,能夠有效地服務 16 個不同模態(tài)的下游任務,且擁有出色的性能。

表 2:Meta-Transformer 能處理 12 個模態(tài)的 16 個感知任務.

圖片圖片

圖 3:Meta-Transforme 有著優(yōu)秀的多模態(tài)感知能力,在文字、圖像、點云、聲音、紅外、高光譜以及醫(yī)療 X 光圖像理解任務方面與現(xiàn)有的單模態(tài) SOTA 模型性能相接近,并且在多模態(tài)理解能力方面大幅領先 ImageBind.

對于圖像理解:

如下表 3 所示,與 Swin Transformer 系列和 InternImage 相比,Meta-Transformer 在圖像理解任務中表現(xiàn)突出。在分類任務中,Meta-Transformer 與 Meta-Transformer-B16F 和 Meta-Transformer-L14F 在零鏡頭分類下的表現(xiàn)非常好,分別達到了 69.3% 和 75.3%。與此同時,當調(diào)整預訓練參數(shù)時,Meta-Transformer-B16T 和 Meta-Transformer-L14T 分別達到 85.4% 和 88. 1% 的準確率,超越了現(xiàn)有最先進的方法。在目標檢測與語義分割方面,Meta-Transformer 也提供了出色的性能,進一步證明了其對圖像理解的通用能力。

表 3:Meta-Transformer 對于圖像理解方面的能力,分別在 ImageNet-1K 圖像分類,MS COCO 目標檢測,以及 ADE-20K 的語義分割上進行了評估。

對于點云理解:

表 4 展示了 Meta-Transformer 在點云上的實驗結(jié)果。當在二維數(shù)據(jù)上進行預訓練時,Meta-Transformer 在 ModelNet-40 上僅用 0.6M 可訓練參數(shù)就達到了 93.6% 的總體準確率(OA),與表現(xiàn)最好的模型不相上下。此外,Meta-Transformer 在 ShapeNetPart 數(shù)據(jù)集中表現(xiàn)出色,僅訓練 2.3M 參數(shù)的情況下,在實例 mIoU 和類別 mIoU 方面都獲得了最好的實驗結(jié)果,分別為 87.0% 和 85.2%。由此可見,Meta-Transformer 在點云理解任務中表現(xiàn)出了顯著的優(yōu)勢,在可訓練參數(shù)較少的情況下提供了具有競爭力的性能。

表 4:Meta-Transformer 對于點云理解方面的能力,分別在 ModelNet-40 形狀分類,S3DIS 室內(nèi)場景分割,以及 ShapeNet Part 物體分割任務上進行了評估。

研究結(jié)論

Meta-Transformer 是一種統(tǒng)一的多模態(tài)學習框架,它能處理并關聯(lián)來自多種模態(tài)的信息,包括自然語言、2D 圖像、3D 點云、音頻、視頻等。它實現(xiàn)了無配對訓練數(shù)據(jù)的場景下進行多模態(tài)感知,是第一個能夠在 12 種模態(tài)上進行統(tǒng)一學習的框架。Meta-Transformer 能夠有助于將多模態(tài)大模型推廣至更多模態(tài),也為實現(xiàn)統(tǒng)一的多模態(tài)智能提供了參考。Meta-Transformer 具有的多模態(tài)感知理解能力也會為人工智能技術作為服務全社會的基礎設施,對于教育、醫(yī)療、娛樂等領域提供更智能、更便捷、更豐富多元的服務。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-30 16:05:44

多模態(tài)學習框架自然語言

2024-08-26 07:40:00

AI訓練

2023-05-10 14:58:06

開源模型

2025-06-09 09:50:00

VeactReact

2015-07-30 12:27:30

重郵華為

2017-12-15 17:14:10

云端

2024-04-23 13:38:00

AI數(shù)據(jù)

2015-05-06 13:52:52

微軟外媒

2020-12-13 13:40:22

健康碼移動應用

2025-03-13 10:18:42

2014-07-29 13:25:43

WWDC 2014 S

2023-03-13 13:40:20

機器學習AI

2024-01-24 09:24:19

自動駕駛算法

2025-03-18 09:29:54

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-12-10 09:49:53

2023-07-17 08:03:03

Shell腳本SQL

2024-03-20 09:29:41

2024-03-04 00:45:00

視頻訓練

2025-06-13 08:46:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 女人精96xxx免费网站p | 精品免费国产一区二区三区 | 亚洲激情在线观看 | 99热国产在线播放 | 黄 色 毛片免费 | 欧美亚洲另类丝袜综合网动图 | 91视频在线 | 中文字幕av中文字幕 | 日日操夜夜操天天操 | 正在播放国产精品 | 91久久精品日日躁夜夜躁欧美 | 99re视频在线 | 国产99在线 | 欧美 | 在线观看黄免费 | 91看片免费版 | 在线成人免费视频 | 91在线一区二区 | 国产精品一区二区在线 | 国产视频精品免费 | 国产真实乱全部视频 | 韩国av电影网 | 午夜小电影| 精品美女在线观看视频在线观看 | 狠狠色综合久久丁香婷婷 | 91极品尤物在线播放国产 | 日韩免费视频一区二区 | 男女一区二区三区 | 一区二区三区免费在线观看 | 色综合99| 伊人性伊人情综合网 | 欧美日韩在线综合 | 色狠狠桃花综合 | 亚洲免费人成在线视频观看 | 国产精品一区久久久 | 欧美日韩看片 | 精品国产一区一区二区三亚瑟 | 999精品视频在线观看 | av在线一区二区三区 | 自拍偷拍亚洲欧美 | 精品免费国产 | 精品96久久久久久中文字幕无 |