成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta AI推出“雜食者”:一個模型搞定圖像視頻和3D數據的分類任務

人工智能 新聞
最近,Meta AI推出了這樣一個“雜食者” (Omnivore)模型,可以對不同視覺模態的數據進行分類,包括圖像、視頻和3D數據。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

最近,Meta AI推出了這樣一個“雜食者” (Omnivore)模型,可以對不同視覺模態的數據進行分類,包括圖像、視頻和3D數據

比如面對最左邊的圖像,它可以從深度圖、單視覺3D圖和視頻數據集中搜集出與之最匹配的結果。

這在之前,都要分用不同的模型來實現;現在一個模型就搞定了

而且Omnivore易于訓練,使用現成的標準數據集,就能讓其性能達到與對應單模型相當甚至更高的水平。

實驗結果顯示,Omnivore在圖像分類數據集ImageNet上能達到86.0%?的精度,在用于動作識別的Kinetics數據集上能達84.1%,在用于單視圖3D場景分類的SUN RGB-D也獲得了67.1%

另外,Omnivore在實現一切跨模態識別時,都無需訪問模態之間的對應關系。

不同視覺模態都能通吃的“雜食者”

Omnivore基于Transformer體系結構,具備該架構特有的靈活性,并針對不同模態的分類任務進行聯合訓練。

模型架構如下:

Omnivore會將輸入的圖像、視頻和單視圖3D圖像轉換為embedding,并饋送到Transformer中。

雖然它可以使用任何vision transformer架構來處理patch embedding,但鑒于Swin transformer在圖像和視頻任務上的強大性能,這里就使用該架構作為基礎模型。

具體來說,Omnivore將圖像轉為patch,視頻轉為時空tube(spatio-temporal tube),單視圖3D圖像轉為RGB patch和深度patch。

然后使用線性層將patches映射到到embedding中。其中對RGB patch使用同一線性層,對深度patch使用單獨的。

總的來說,就是通過embedding將所有視覺模式轉換為通用格式?,然后使用一系列時空注意力(attention)操作來構建不同視覺模式的統一表示。

研究人員在ImageNet-1K數據集、Kinetics-400數據集和SUN RGB-D數據集上聯合訓練出各種Omnivore模型。

這種方法類似于多任務學習和跨模態對齊,但有2點重要區別:

1、不假設輸入觀測值對齊(即不假設圖像、視頻和3D數據之間的對應關系)

2、也不假設這些數據集共享相同的標簽空間(label space)

性能超SOTA

實驗方面,首先將Omnivore與各視覺模態對應的特定模型(?下表中指Specific)進行比較。

一共有三種不同的模型尺寸:T、S和B。

預訓練模型在七個下游任務上都進行了微調。

圖像特定模型在IN1K上預訓練。視頻特定模型和單視圖3D特定模型均使用預訓練圖像特定模型的inflation進行初始化,并分別在K400和SUN RGB-D上進行微調。

結果發現,Omnivore在幾乎所有的下游任務上的性能都相當于或優于各特定模型。

其中尺寸最大的Swin-B現了全部任務上的SOTA。

將Omnivore與具有相同模型架構和參數數量的特定模型比較也是相同的結果。

其中Omnivore在IN1K、K400和SUN數據集上從頭開始聯合訓練,而特定模態的模型針對每個數據集專門訓練:

ImageSwin模型從零開始訓練,VideoSwin和DepthSwin模型則從ImageSwin模型上進行微調。

接下來將Omnivore與圖像、視頻和3D數據分類任務上的SOTA模型行比較。

結果仍然不錯,Omnivore在所有預訓練任務中都表現出了優于SOTA模型的性能(下圖從上至下分別為圖像、視頻和3D數據)

此外,在ImageNet-1K數據集上檢索給定RGB圖像的深度圖也發現,盡管Omnivore沒有接受過于1K深度圖的訓練,但它也能夠給出語義相似的正確答案。

最后,作者表示,盡管這個“雜食者”比傳統的特定模式模型有了很多進步,但它有一些局限性。

比如目前它僅適用于單視圖3D圖像,不適用于其他3D表示,如體素圖(voxels)、點云圖等。

論文地址:
?????https://arxiv.org/abs/2201.08377??
??

代碼已開源:

????https://github.com/facebookresearch/omnivore????

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-11-26 18:52:36

AI 數據人工智能

2025-03-27 09:26:30

2024-12-18 15:02:48

2024-05-06 11:37:20

自動駕駛3D

2023-02-25 16:14:36

AIMeta語言模型

2025-01-10 14:00:00

3D模型生成

2019-11-18 10:22:01

深度學習編程人工智能

2025-01-09 12:32:18

2011-05-26 10:05:07

優派投影機

2010-09-30 10:31:43

J2ME3D

2009-12-15 16:13:11

3D圖像

2022-09-14 09:23:51

Java3D引擎

2023-12-11 09:00:00

人工智能3D模型

2022-02-10 20:50:56

騰訊QQAI

2023-12-09 14:29:32

AI算法

2024-06-17 12:33:34

2021-11-08 06:02:17

CSS 技巧代碼重構

2023-07-19 07:48:21

Llama 2 模型Azure AI

2024-07-03 14:29:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 三区在线 | 国产成人精品久久二区二区91 | 国产免费看| 天堂素人约啪 | 黄 色 毛片免费 | 狠狠爱一区二区三区 | 亚洲三区在线观看 | 中文字幕一区二区三区四区 | 国产欧美在线一区二区 | 欧美综合一区 | 99pao成人国产永久免费视频 | 精品国产女人 | 精品在线观看一区二区 | 国产成人99久久亚洲综合精品 | 久久人人网 | 精品久久久久久久久久久久久 | 久久久区 | 久久日韩精品 | 视频二区 | 超级乱淫av片免费播放 | 麻豆国产一区二区三区四区 | 美日韩免费 | 中文字幕免费视频 | 国产91网址 | 国产精品久久久久久久久久免费看 | 国产高清一区二区三区 | 亚洲成年影院 | 日韩免费av网站 | 91av在线免费播放 | 精品久久久久久亚洲精品 | 羞羞视频在线观免费观看 | 日韩在线三级 | 欧美综合一区 | 精品欧美一区二区三区久久久 | 久久不卡 | 999国产精品视频 | 最新黄色毛片 | 日韩av看片| a级性视频| 成人在线免费观看 | 91精品国产综合久久久久久蜜臀 |