成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

0微調搞定160個測試集!最強多模態分割一切大模型來了,架構參數全開源

人工智能 新聞
這是來自廈門大學等機構的最新多模態基礎感知大模型,一上來就在160個測試集上達成了SOTA或持平近似的結果,沒有針對任何下游任務進行微調。

多模態大模型來做語義分割,效果有多好?

一張圖+文字輸入想分割的物體,大模型幾秒鐘就能識別并搞定!

只需輸入想分割的對象如“擎天柱”,個目標立刻就能被精準識別、快速切割:

個物體也是手到擒來,像是指定天空、水、樹、草、女孩、龍貓(Chinchilla),同樣能火速分割:

表情包也沒問題:

圖片

這是來自廈門大學等機構的最新多模態基礎感知大模型,一上來就在160個測試集上達成了SOTA或持平近似的結果,沒有針對任何下游任務進行微調。

圖片

目前,模型架構和參數已經全部開源,一起來看看這是怎么實現的。

多模態大模型APE長啥樣?

此前,視覺基礎模型(Vision Foundation Models)方向一直在探索建立一個通用的視覺感知系統。

已有的方法可以分為三類,但都有一些不足之處:

第一類采用自監督的訓練方式,例如DINO和CLIP等,這類方法在做下游感知類任務的時候需要再訓練單獨的Head或者Adapter;

第二類方法是開集檢測,對齊圖像的局部區域和文本表達,例如GLIP、UNINEXT和GroundingDINO等,但這類方法在每次推理時只能檢測非常有限數量的類別(例如lvis的1023類單詞要拆分成30多次推理)或者單個句子,檢測類別或者句子長度的提升會給計算量和性能帶來巨大的挑戰;

第三類方法是開集語義分割,例如SAM、Xdecoder和SEEM等,但這類方法在加上語義信息時面臨著前景可數物體和背景不可數物體的粒度差異問題,導致性能下降,這類方法往往需要設計特定的網絡結構或者訓練策略來緩解前背景沖突。

針對以上問題,來自廈門大學等機構的研究人員提出了一種新的模型,名叫APE(Aligning and Prompting Everything All at Once for Universal Visual Perception)。

APE的框架如下所示:

圖片

它有以下6點值得關注的設計:

1、Independent Prompt

給定多個目標類別,例如Girl和Sky等,以往的方法通常直接聯結這些類別名組成一個單獨的Prompt:“Girl. Sky. …”,這種構造方式是期望可以建模不同類別名之間的相互關系。

但論文發現,這種類別名之間的相互關系不是必須的,每種類別名獨立建模就可以學習不同的實例。

為此,論文對每種類別名或者描述的短語都進行獨立建模:[“Girl”, “Sky”, “Little child with hat on branch”, “The big chinchilla”, . . . ],并獲得其獨立的prompt embedding。

2、Sentence-Level Embeddings

為了減少計算復雜度和內存消耗,論文進一步將Word-Level Embeddings壓縮成Sentence-Level Embeddings,也就是將一句話中所有Word Embeddings求平均。

實驗中發現,這種Sentence-Level Embeddings足夠表達語義信息。

3、Gated Cross-modality Interaction

GLIP等方法直接融合文本和視覺特征,在類別名很多的情況下融合的代價逐步提升。

論文則針對不同的Prompt類型來進行特征融合,對于純類別名(Vocabulary Prompt)的文本特征,采用一種“zero”文本token來作為它們的替代。

過往經驗表明,直接將Vocabulary Prompt和視覺特征融合容易導致過擬合現象,使得在新類別上的表現欠佳。

語言描述(Sentence Prompt)的文本特征則被融合到視覺特征中以實現語義級的理解。

4、Region-sentence Alignment

論文直接通過矩陣乘法計算Object Embeddings和Prompt Embeddings之間的相似度,從而實現一次性檢測&分割萬物。

值得注意的是論文維持了一個Embedding Bank用于構建負樣本。

5、Thing-stuff-equalizing Alignment

分割任務的前景和背景的粒度是不同的,比如背景天空即使由好幾塊組成,但仍然被認為是同一個標簽,而前景比如人則是單獨的標簽。

這種粒度差異會給模型訓練帶來挑戰,為此論文提出統一前景和背景的粒度,對于不同塊的背景論文將其視為獨立的標簽,如上圖中的“天空”。

這使得模型可以采用統一的架構訓練前景和背景數據,也可以方便地融入SA-1B這類大規模的Class-Agnostic數據。

6、數據配比

論文使用了10中常見的開源數據集進行訓練,包括:

通用檢測分割數據(COCO、Objects365),長尾檢測分割數據(LVIS),聯邦標注的數據(OpenImages),指向性檢測分割數據(VG、RefCOCO/+/g、GQA、Phrascut、Flickr30k),不帶語義的分割數據(SA-1B)。

論文提出一系列原則精心設計數據配比和損失權重。

160個測試集SOTA或近似打平

作者們進行了大規模的實驗,以驗證論文方法的有效性。

他們一共訓練了四組大模型:

  • APE (A):基礎版,基于DETA構建,并只在通常的檢測和分割數據集上訓練,包括COCO, LVIS, Objects365, OpenImages, and Visual Genome。
  • APE (B):APE (A)的基礎上加入Visual Genome和COCO的指向性檢測和分割數據進行訓練。
  • APE (C):進一步加入大規模SA-1B數據集進行訓練。
  • APE (D):除了上面的數據,進一步加入GQA, PhraseCut, Flickr30k數據集,并且修改了部分訓練策略。

其中,APE-ABCD分別對應不同的訓練數據。

實驗表明,這種方法在160種測試集上普遍取得了當前SOTA或具有競爭性的結果。

值得注意的是,論文只采用了一個模型架構和一套參數,沒有針對下游任務進行微調

性能對比總覽

整體上看,APE方法在各個檢測分割指向性檢測數據集上都比之前的方法好,特別是在D3數據集上。

圖片

開集檢測

在檢測上,論文主要比較了LVIS、OpenImages,Objects365和COCO這四個常見數據集。

APE的效果優勢非常明顯。

此前不少方法都在Objects365上預訓練過,例如GLIP、OWL和UNINEXT,但是它們在這些訓練過的數據集上效果也并不是很好。

另外,實驗還比較了RoboFlow100和ODinW評測基準。RoboFlow100和ODinW分別由100和35個獨立的小數據集組成,專門用于開集評測,APE在這兩個數據集上取得了新SOTA。

圖片

開集分割

在開集分割評測基準上,當類別數量較多時候,例如PC-459、ADE20K和SegInW分別有459、150和85個類,APE的效果比其他方法好不少。

其中,SegInW由25個差異很大的小數據集組成,專門用于開集分割評測。而在類別數量較少的數據集上,APE的效果相對差些。

圖片

視覺定位

在視覺定位D3評測基準上,APE取得的效果提升最明顯。特別在inter-scenario的設定下,大部分方法的指標都低于6,而APE可以取得21.0。

因為在inter-scenario設定下,每張圖都要用422個句子去查詢,之前模型總是會每句話預測一個物體,因此效果不理想,而APE會拒絕不相關的查詢。

在intra-scenario設定下,APE在各項指標上也取得了15+個點的提升。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-14 08:51:00

2024-07-30 10:51:51

2023-05-04 12:19:47

模型AI

2023-04-25 11:36:17

CV模型

2023-12-07 07:16:57

Meta訓練

2025-06-27 10:08:19

2025-04-27 08:30:00

2024-07-30 14:45:08

2023-06-06 14:09:32

模型開源

2023-07-05 14:06:43

視頻AI

2025-03-10 18:50:57

2023-10-30 14:59:28

2024-04-08 12:19:19

AI數據

2021-02-19 23:08:27

軟件測試軟件開發

2023-04-10 15:52:57

模型樣本

2024-12-30 00:01:00

多模態大模型Python

2021-02-28 09:47:54

軟件架構軟件開發軟件設計

2015-03-02 14:48:07

2023-08-09 17:38:47

模型AI

2023-10-19 13:48:00

數據訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费精品视频一区 | 国产 日韩 欧美 在线 | 中文字幕乱码亚洲精品一区 | 欧美日韩1区2区 | 久久久久91 | 精品国产乱码久久久久久中文 | 国产精品一区二区不卡 | 夜夜骑首页 | 99热热99| 亚洲一区二区视频在线播放 | 91久久精品国产 | 成人在线视频网站 | 国产aaaaav久久久一区二区 | 一区二区三区视频在线 | 91在线网站 | 欧美一级二级三级视频 | 中文字幕一区二区在线观看 | 断背山在线观看 | 国产午夜精品视频 | 久久大全 | 亚洲淫视频 | 成年人在线观看视频 | 成人一区二区三区在线观看 | 欧美一卡二卡在线观看 | 2018天天干天天操 | 亚洲1区 | 日本不卡一区二区三区 | 天天操人人干 | 91精品国产乱码久久久久久久久 | 亚洲国产欧美一区二区三区久久 | 黄色视频a级毛片 | 国产视频精品区 | 免费网站国产 | 区一区二在线观看 | 精品96久久久久久中文字幕无 | 伦理午夜电影免费观看 | 成人午夜电影在线观看 | 中文字幕一区二区三区在线乱码 | 亚洲成人久久久 | 亚洲精品国产第一综合99久久 | 欧美激情精品久久久久 |