成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

太全了!蘋果上新視覺模型4M-21,搞定21種模態

人工智能 新聞
來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個任意到任意模態單一模型,該模型在數十種高度多樣化的模態上進行訓練,并對大規模多模態數據集和文本語料庫進行協同訓練。

當前的多模態和多任務基礎模型,如 4M 或 UnifiedIO,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。

基于此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個任意到任意模態單一模型,該模型在數十種高度多樣化的模態上進行訓練,并對大規模多模態數據集和文本語料庫進行協同訓練。

訓練過程中一個關鍵步驟是對各種模態執行離散 tokenization,無論它們是類似圖像的神經網絡特征圖、向量、實例分割或人體姿態等結構化數據,還是可以表征為文本的數據。

圖片

  • 論文地址:https://arxiv.org/pdf/2406.09406
  • 論文主頁 https://4m.epfl.ch/
  • 論文標題:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

該研究展示了訓練單一模型,也能完成現有模型至少 3 倍多的任務 / 模態,并且不會損失性能。此外,該研究還實現了更細粒度和更可控的多模態生成能力。

該研究建立在多模態掩碼預訓練方案的基礎上,并通過在數十種高度多樣化的模態上進行訓練來提高模型能力。通過使用特定于模態的離散分詞器對其進行編碼,該研究實現了在不同模態上訓練單個統一模型。

簡單來說,該研究在幾個關鍵維度上擴展了現有模型的功能:

  • 模態:從現有最佳任意到任意模型的 7 種模態增加到 21 種不同模態,從而實現跨模態檢索、可控生成和強大的開箱即用性能。這是第一次單個視覺模型可以以任意到任意的方式解決數十個不同的任務,而不會損害性能,并且沒有任何傳統的多任務學習。
  • 多樣性:添加對更多結構化數據的支持,例如人體姿態、SAM 實例、元數據等等。 
  • tokenization:使用特定于模態的方法研究不同模態的離散 tokenization,例如全局圖像嵌入、人體姿態和語義實例。
  • 擴展:將模型大小擴展至 3B 參數,將數據集擴展至 0.5B 樣本。 
  • 協同訓練:同時在視覺和語言上協同訓練。

方法介紹

該研究采用 4M 預訓練方案(該研究同樣來自 EPFL 和蘋果,在去年發布),其被證明是一種通用方法,可以有效擴展到多模態。

具體而言,本文保持架構和多模態掩碼訓練目標不變,通過擴大模型和數據集的規模、增加訓練模型所涉及的模態類型和數量,并且在多個數據集上進行聯合訓練,可以提升模型的性能和適應性。

模態分為以下幾大類別:RGB、幾何、語義、邊緣、特征圖、元數據和文本,如下圖所示。

圖片

Tokenization

Tokenization 主要包括將不同模態和任務轉換為序列或離散 token,從而統一它們的表示空間。研究者使用不同的 tokenization 方法來離散具有不同特征的模態,如圖 3 所示。總而言之,本文采用了三種 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文本 tokenizer。

在架構選擇上,本文采用基于 Transformer 的 4M 編碼器 - 解碼器架構,并添加額外的模態嵌入以適應新模態。

實驗結果

接下來,論文展示了 4M-21 多模態能力。

多模態生成

基于迭代解碼 token ,4M-21 可以用來預測任意訓練模態。如圖 2 所示,本文可以從給定的輸入模態以一致的方式生成所有模態。

此外,由于該研究可以有條件和無條件地從其他模態的任何子集生成任何訓練模態,因此它支持幾種方法來執行細粒度和多模態生成,如圖 4 所示,例如執行多模態編輯。此外,4M-21 表現出改進的文本理解能力,無論是在 T5-XXL 嵌入上還是在常規字幕上,都可以實現幾何和語義上合理的生成(圖 4,右上)。

圖片

多模態檢索

如圖 5 所示,4M-21 解鎖了原始 DINOv2 和 ImageBind 模型無法實現的檢索功能,例如通過使用其他模態作為查詢來檢索 RGB 圖像或其他模態。此外,4M-21 還可以組合多種模態來預測全局嵌入,從而更好地控制檢索,如右圖所示。

圖片

開箱即用

4M-21 能夠開箱即用地執行一系列常見的視覺任務,如圖 6 所示。

圖片

表 1 評估了 DIODE 表面法線和深度估計、COCO 語義和實例分割、3DPW  3D 人體姿態估計等。

圖片

遷移實驗

此外,本文還訓練了三種不同尺寸的模型:B、L 和 XL。然后,將其編碼器遷移到下游任務,并在單模態 (RGB) 和多模態 (RGB + 深度) 設置上進行評估。所有遷移實驗均丟棄解碼器,而是訓練特定任務的頭部。結果如表 2 所示:

圖片

最后,本文在 NYUv2、Hypersim 語義分割和 ARKitScenes 上的 3D 對象檢測上執行多模態傳輸。如表 3 所示,4M-21 充分利用了可選的深度輸入,并顯著改進了基線。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-08 00:12:19

2014-03-19 11:05:06

Fedora 21

2023-10-23 19:51:11

Java線程

2012-09-12 09:57:44

蘋果新iPhone

2013-07-05 13:23:43

蘋果

2025-04-08 08:01:31

2021-04-20 09:00:00

數據分析數據挖掘工具

2016-12-12 14:55:01

AndroidAndroid Vie

2012-04-29 10:52:31

APP

2023-10-26 01:33:17

2011-04-20 13:14:33

BlackBerry黑莓RIM

2021-08-19 14:18:50

Windows 10 微軟預覽版

2025-02-27 09:51:04

2020-12-22 09:42:47

生物識別網絡安全

2011-11-23 16:12:00

華為E5 21M

2024-11-13 09:39:13

2021-11-12 21:13:21

蘋果蘋果 M1Linux虛擬機

2012-05-01 13:23:26

蘋果

2023-08-01 06:35:23

蘋果iOS

2023-10-12 13:05:00

谷歌AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品视频一区二区在线观看 | 久草久| 日韩精品视频一区二区三区 | 日韩在线观看视频一区 | 性视频一区 | 日韩精品一区在线 | 久在线 | 视频在线一区二区 | 黄色国产在线视频 | 久草免费电影 | 日韩视频在线一区二区 | 欧美久久一区 | 网色 | 成人夜晚看av| 精品久久中文字幕 | 日韩一区二区在线免费观看 | 中文天堂在线一区 | 玖玖视频 | 久久久久久免费毛片精品 | 91欧美激情一区二区三区成人 | 日韩精品视频在线播放 | 欧美精品一区二区三区在线 | 精品无码久久久久久国产 | 狠狠涩| 九九热精品视频 | 国产美女一区二区三区 | 免费精品 | 欧美黑人一区 | 日韩欧美一级精品久久 | 久久草视频| 国产精品美女久久久久久久网站 | 亚洲精品一二三区 | 久久久综合久久 | 一区二区三区观看视频 | 亚洲精品久久久 | 日韩在线小视频 | 日韩视频免费在线 | 盗摄精品av一区二区三区 | 国产高清精品在线 | 毛片一区二区三区 | 色婷婷综合久久久中字幕精品久久 |