統一細粒度感知!北大&阿里提出UFO:無需SAM,16個token讓MLLM實現精準分割
本文作者來自北京大學和阿里通義萬相實驗室。其中論文第一作者是湯昊,北京大學 2022 級博士生,目前主要關注統一的多模態任務建模算法。指導教授是王立威老師,北京大學智能學院教授,曾獲 NeurIPS 2024 最佳論文獎、ICLR 2023 杰出論文獎及 ICLR 2024 杰出論文提名獎。
無需 SAM 和 Grounding DINO,MLLM 也能做分割和檢測!統一細粒度感知的多模態大模型 UFO 來了!
- 論文標題:UFO: A Unified Approach to Fine-grained Visual Perception via Open-ended Language Interface
- 論文鏈接:https://arxiv.org/abs/2503.01342
- 開源代碼:https://github.com/nnnth/UFO
- 開源模型:https://huggingface.co/kanashi6/UFO
具體來說,UFO 提出了一種基于特征檢索的分割方法,將分割任務重新定義為計算 token 特征和圖像特征的相似度,無需 SAM,最多僅需輸出 16 個 token 即可實現 MLLM 的精細分割。UFO 還支持文本格式的目標框輸出,通過并行解碼高效支持密集檢測和分割。
背景介紹
多模態大模型(MLLM)統一了視覺-語言任務,但在細粒度感知任務中(如檢測、分割)仍依賴任務解碼器(如 SAM、Grounding DINO),結構和訓練非常復雜。
基于文本的方法采用粗糙的多邊形表示,表達能力不足,且在密集場景(如 COCO 數據集)中性能不佳。因此,亟需開發無需額外解碼器、與視覺-語言任務統一且性能優異的細粒度感知方法。
為此,研究團隊提出了基于特征檢索的方式來支持分割:模型通過預測<MASK>標記,計算其特征與圖像特征的相似度實現分割。
這種方式有效地挖掘了多模態大模型的圖像表征能力。研究團隊認為,既然多模態大模型可以回答物體的類別和位置,那么圖像特征中已經包含物體的分割信息。
對于檢測任務,UFO 將目標框轉換成文本格式的坐標,使得檢測和分割的任務輸出都可以通過文本統一。
針對密集感知場景,研究團隊提出了一種并行解碼策略,將多個預測拆分成多個單目標的子任務,通過局部圖像特征進行區分。這種方式可以大大簡化任務難度,同時加速推理。
方法細節
基于特征檢索的分割方式
在執行分割時,模型被訓練輸出<MASK>標記,如上圖(a)所示。給定輸入圖像和分割提示
,模型生成文本響應
以及相應的文本特征
和圖像特征
:
從中提取與<MASK>標記對應的掩碼標記特征
。然后通過縮放點積計算掩碼標記特征
與圖像特征
之間的相似性。檢索正分數以形成二值掩碼
。該過程表示為:
其中 d 是特征維度,表示相似性分數,
是指示函數,將相似性分數轉換為二值掩碼。
通過多個掩碼標記上采樣
在上述方法中,相似度使用下采樣的圖像特征計算,導致生成的掩碼分辨率低。
為此,研究團隊提出了一種通過預測多個掩碼標記進行上采樣的方法。
給定圖像,下采樣后的圖像特征為
,模型需要自回歸地預測
個<MASK>標記,其特征表示為
。每個標記對應于 NxN 上采樣網格中的一個位置,如上圖(b)所示。
對于每個掩碼標記特征 ,計算其與視覺特征
的相似性,得到
然后,這些分數被連接并重塑為上采樣后的相似性圖:
最后在中檢索正分數,以生成上采樣后的二值掩碼
。默認情況下,N 設置為 4,預測 16 個<MASK>標記,這將輸出掩碼上采樣 4 倍。
多任務數據模版
對于單一預測的任務,任務模板為:<Text Prompt><Image><Text Response>。
對于多預測任務,比如目標檢測和實例分割,UFO 將其拆分為多個單一預測的獨立子任務,使得他們能在同一個批處理內并行。模板結構是:<Text Prompt><Image><Local><Text Response>。其中<Local>指局部圖像特征,作為局部視覺提示,用于區分不同子任務。
如上圖右側所示,UFO 在整個圖像上均勻采樣網格點,并在每個網格位置插值局部圖像特征。每個網格點預測最近的目標,如果沒有則預測結束標記。
實驗結果
多任務訓練
UFO 在 GiT 提出的多任務基準上取得顯著提升,在 COCO 實例分割上相比 GiT-H 提升 12.3 mAP,在 ADE20K 語義分割上提升 3.3 mIoU。
視覺定位
無需任務解碼器,UFO 在引用表達式理解(REC)和分割(RES)兩種任務展現出優越的性能。
推理分割
推理分割要求模型進行深層推理得出分割目標,更加困難。UFO 可以深度融合文本推理和分割能力,性能超過基于 SAM 的 LISA。
視網膜血管分割
視網膜血管形狀不規則且狹窄,難以用多邊形表示。UFO 在 DRIVE 上進行了訓練,取得了 77.4 的 Dice 系數,驗證了在極細粒度結構上的有效性。
深度估計
UFO 可以用類似分割的方式支持深度估計,取得具有競爭力的性能。
可視化結果
UFO 可以適應任意數量的預測和任意形式的描述。
采用 4 個<MASK>標記時,每個掩碼標記能捕捉不同細節,使得融合的掩碼更精細。
結論
UFO 提出了一種統一的細粒度感知框架,通過開放式語言界面處理各種細粒度的視覺感知任務,無需修改架構即可在多模態大模型上實現出色的性能。
UFO 的核心創新是一種新穎的特征檢索方法用于分割,有效利用了模型的圖像表征能力。
UFO 的統一方式完全對齊視覺-語言任務,提供了一種靈活、有效且可擴展的解決方案,以增強多模態大模型的細粒度感知能力,為構建更通用的多模態模型鋪平了道路。