成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

統一細粒度感知!北大&阿里提出UFO:無需SAM,16個token讓MLLM實現精準分割

人工智能 新聞
UFO 提出了一種基于特征檢索的分割方法,將分割任務重新定義為計算 token 特征和圖像特征的相似度,無需 SAM,最多僅需輸出 16 個 token 即可實現 MLLM 的精細分割。

本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊,北京大學 2022 級博士生,目前主要關注統一的多模態任務建模算法。指導教授是王立威老師,北京大學智能學院教授,曾獲 NeurIPS 2024 最佳論文獎、ICLR 2023 杰出論文獎及 ICLR 2024 杰出論文提名獎。

無需 SAM 和 Grounding DINO,MLLM 也能做分割和檢測!統一細粒度感知的多模態大模型 UFO 來了!

圖片

  • 論文標題:UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
  • 論文鏈接:https://arxiv.org/abs/2503.01342
  • 開源代碼:https://github.com/nnnth/UFO
  • 開源模型:https://huggingface.co/kanashi6/UFO

具體來說,UFO 提出了一種基于特征檢索的分割方法,將分割任務重新定義為計算 token 特征和圖像特征的相似度,無需 SAM,最多僅需輸出 16 個 token 即可實現 MLLM 的精細分割。UFO 還支持文本格式的目標框輸出,通過并行解碼高效支持密集檢測和分割

圖片

背景介紹

多模態大模型(MLLM)統一了視覺-語言任務,但在細粒度感知任務中(如檢測、分割)仍依賴任務解碼器(如 SAM、Grounding DINO),結構和訓練非常復雜。

基于文本的方法采用粗糙的多邊形表示,表達能力不足,且在密集場景(如 COCO 數據集)中性能不佳。因此,亟需開發無需額外解碼器、與視覺-語言任務統一且性能優異的細粒度感知方法

為此,研究團隊提出了基于特征檢索的方式來支持分割:模型通過預測<MASK>標記,計算其特征與圖像特征的相似度實現分割

這種方式有效地挖掘了多模態大模型的圖像表征能力。研究團隊認為,既然多模態大模型可以回答物體的類別和位置,那么圖像特征中已經包含物體的分割信息。

對于檢測任務,UFO 將目標框轉換成文本格式的坐標,使得檢測和分割的任務輸出都可以通過文本統一。

針對密集感知場景,研究團隊提出了一種并行解碼策略,將多個預測拆分成多個單目標的子任務,通過局部圖像特征進行區分。這種方式可以大大簡化任務難度,同時加速推理。

方法細節

圖片

基于特征檢索的分割方式

在執行分割時,模型被訓練輸出<MASK>標記,如上圖(a)所示。給定輸入圖像圖片和分割提示圖片,模型生成文本響應圖片以及相應的文本特征圖片和圖像特征圖片

圖片

圖片中提取與<MASK>標記對應的掩碼標記特征圖片。然后通過縮放點積計算掩碼標記特征圖片與圖像特征圖片之間的相似性。檢索正分數以形成二值掩碼圖片。該過程表示為:

圖片

其中 d 是特征維度,圖片表示相似性分數,圖片是指示函數,將相似性分數轉換為二值掩碼。

通過多個掩碼標記上采樣

在上述方法中,相似度使用下采樣的圖像特征計算,導致生成的掩碼分辨率低。

為此,研究團隊提出了一種通過預測多個掩碼標記進行上采樣的方法。

給定圖像圖片,下采樣后的圖像特征為圖片 ,模型需要自回歸地預測圖片個<MASK>標記,其特征表示為圖片 。每個標記對應于 NxN 上采樣網格中的一個位置,如上圖(b)所示。

對于每個掩碼標記特征圖片 ,計算其與視覺特征圖片的相似性,得到圖片然后,這些分數被連接并重塑為上采樣后的相似性圖:

圖片

最后在圖片中檢索正分數,以生成上采樣后的二值掩碼圖片 。默認情況下,N 設置為 4,預測 16 個<MASK>標記,這將輸出掩碼上采樣 4 倍。

多任務數據模版

圖片

對于單一預測的任務,任務模板為:<Text Prompt><Image><Text Response>。

對于多預測任務,比如目標檢測和實例分割,UFO 將其拆分為多個單一預測的獨立子任務,使得他們能在同一個批處理內并行。模板結構是:<Text Prompt><Image><Local><Text Response>。其中<Local>指局部圖像特征,作為局部視覺提示,用于區分不同子任務。

如上圖右側所示,UFO 在整個圖像上均勻采樣網格點,并在每個網格位置插值局部圖像特征。每個網格點預測最近的目標,如果沒有則預測結束標記。

實驗結果

多任務訓練

圖片

UFO 在 GiT 提出的多任務基準上取得顯著提升,在 COCO 實例分割上相比 GiT-H 提升 12.3 mAP,在 ADE20K 語義分割上提升 3.3 mIoU。

視覺定位

圖片

無需任務解碼器,UFO 在引用表達式理解(REC)和分割(RES)兩種任務展現出優越的性能。

推理分割

圖片

推理分割要求模型進行深層推理得出分割目標,更加困難。UFO 可以深度融合文本推理和分割能力,性能超過基于 SAM 的 LISA。

視網膜血管分割

圖片

視網膜血管形狀不規則且狹窄,難以用多邊形表示。UFO 在 DRIVE 上進行了訓練,取得了 77.4 的 Dice 系數,驗證了在極細粒度結構上的有效性。

深度估計

圖片

UFO 可以用類似分割的方式支持深度估計,取得具有競爭力的性能。

可視化結果

UFO 可以適應任意數量的預測和任意形式的描述。

圖片

采用 4 個<MASK>標記時,每個掩碼標記能捕捉不同細節,使得融合的掩碼更精細。

圖片

結論

UFO 提出了一種統一的細粒度感知框架,通過開放式語言界面處理各種細粒度的視覺感知任務,無需修改架構即可在多模態大模型上實現出色的性能。

UFO 的核心創新是一種新穎的特征檢索方法用于分割,有效利用了模型的圖像表征能力。

UFO 的統一方式完全對齊視覺-語言任務,提供了一種靈活、有效且可擴展的解決方案,以增強多模態大模型的細粒度感知能力,為構建更通用的多模態模型鋪平了道路。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-12 03:00:00

Finer-CAM醫學影像深度學習

2025-01-20 09:43:00

AI算法

2024-06-27 08:00:00

存儲數據庫細粒度

2010-04-14 11:04:53

Oracle細粒度

2009-10-27 09:31:24

Windows Ser口令策略

2025-02-18 09:10:00

2010-04-19 09:35:58

Oracle細粒度

2009-04-16 17:59:25

細粒度權限

2025-03-04 04:00:00

擴散模型DDPM

2024-04-26 12:13:45

NameNodeHDFS核心

2010-04-16 16:39:25

Oracle細粒度

2018-02-25 04:05:16

2024-10-28 14:20:00

2018-02-07 14:53:42

2010-04-22 13:39:31

Oracle細粒度訪問

2022-06-27 17:58:42

pwrueBPF工具

2010-12-30 14:34:43

云計算供應商

2010-10-20 15:09:05

2022-11-07 12:15:13

開源深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产2区 | 久久精品中文字幕 | 日韩中文字幕免费 | 国产亚洲精品精品国产亚洲综合 | 日日草夜夜草 | 久久曰视频 | 色狠狠桃花综合 | 在线看91 | 毛片av免费在线观看 | 超碰8 | 午夜一区二区三区在线观看 | 爱爱无遮挡 | 91精品在线看| a级黄色网 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 欧美不卡一区二区三区 | 精品国产成人 | 日日久 | 波多野结衣先锋影音 | 99久久久久久| 免费一级做a爰片久久毛片潮喷 | 欧美视频免费在线 | 精品久久网 | 成人综合一区二区 | 国产成人精品一区二 | 2018天天干天天操 | 国产成人99久久亚洲综合精品 | 亚洲精品一区二三区不卡 | 欧美日韩亚洲国产 | 牛牛热在线视频 | 欧美激情视频一区二区三区在线播放 | 国产999精品久久久久久 | 97人澡人人添人人爽欧美 | 国产精品一区二区无线 | 99re视频在线| 久久久久免费 | 这里只有精品999 | 成人精品一区二区三区 | 国产欧美性成人精品午夜 | 在线观看的av | 伊人网在线综合 |