視覺理解大突破!PAM模型讓AI"一眼洞穿萬物":分割+語義+描述,一鍵全知全能!
文章鏈接:https://arxiv.org/pdf/2506.05302
項目地址:https://perceive-anything.github.io/
亮點直擊
- PAM(Perceive Anything Model),一種端到端的區域級視覺-語言模型,旨在實現圖像和視頻中快速、全面、細粒度的視覺理解。
- Semantic Perceiver(語義感知器)的組件,有效利用 SAM 2 主干網絡中的中間視覺特征,將通用視覺信息、定位信息和語義先驗融合為視覺 token。
- 開發了一套先進的數據精煉與增強流程,結合領先的 VLM(如 GPT-4o)與人工專家驗證,對現有區域級標注數據集進行精煉和擴展。
- PAM 在多種圖像和視頻的區域理解任務中表現出強大的性能,同時相比以往方法,運行速度提升1.2至2.4 倍,GPU 顯存消耗更少。
總結速覽
解決的問題
- 缺乏區域級深層語義理解能力:
- 盡管如 SAM / SAM 2 等分割模型在目標定位上表現出色,但它們無法解釋目標的類別、定義、功能或上下文語義。
- 現有方法局限性明顯:
- 語義輸出有限,僅支持簡單標簽或簡短描述;
- 模態適應性差,往往只能處理圖像或視頻中的一種;
- 串行設計依賴外部 mask 生成器,計算冗余且對 mask 質量敏感。
- 缺乏高質量細粒度的區域語義數據:
- 現有區域級標注數據集粒度粗,不能滿足細致語義理解任務的需求。
提出的方案
- 提出 PAM:端到端的區域級視覺-語言模型:
- 基于 SAM 2 擴展,融合大語言模型(LLM),實現圖像和視頻中區域級目標分割 + 多樣化語義輸出的統一處理。
- 引入 Semantic Perceiver(語義感知器):
- 作為 SAM 2 與 LLM 之間的橋梁,將視覺特征轉化為 LLM 可理解的多模態 token,便于語義生成。
- 并行設計 mask 解碼器與語義解碼器:
- 同時生成區域 mask 與語義內容,提高計算效率,避免串行瓶頸。
- 構建高質量區域語義數據集:
- 150 萬條圖像區域語義三元組;
- 60 萬條視頻區域語義三元組;
- 首創流式視頻區域級字幕數據;
- 支持中英文雙語標注。
- 開發數據精煉與增強流程,結合 VLM(如 GPT-4o)與人工驗證,生成:
應用的技術
- SAM 2:作為視覺特征提取主干網絡,提供強大的分割能力。
- 大語言模型(如 GPT-4o):用于理解視覺 token 并生成多樣化語義輸出。
- Semantic Perceiver:將 SAM2 提取的視覺、定位和語義先驗融合為 LLM 可處理的 token。
- 多模態并行解碼架構: mask 與語義并行生成,提升效率。
- 數據增強與語義精煉流程:
- 利用 VLM + 人工校驗生成細粒度語義標注;
- 構建區域級流式視頻字幕數據。
達到的效果
- 全面語義輸出能力:
- 支持生成類別標簽、定義解釋、上下文功能說明、詳細描述等多種語義信息。
- 多模態統一處理:
- 同時支持圖像與視頻的區域理解任務,具備良好的通用性與可擴展性。
- 顯著提升效率與資源利用:
- 相比現有方法,運行速度提升 1.2–2.4 倍;
- GPU 顯存消耗顯著減少,適用于實際部署。
- 構建高質量語義數據集:
- 豐富的圖像與視頻區域標注,支持多語言訓練;
- 引領區域級視覺理解數據標準向更高質量演進。
- 成為強有力的研究基線:
- 具備端到端、輕量、高效、語義豐富等優勢,預期將推動視覺-語言領域的進一步發展。
感知萬物模型(PAM)
給定用于指定感興趣區域的視覺提示(如點、框或 mask),感知萬物模型(PAM)可以同時完成以下任務:
(1) 分割:在圖像或視頻中為指定區域生成精確的分割mask。 (2) 識別:識別指定區域或目標的類別。 (3) 解釋:提供該區域或目標的定義、屬性及其在上下文中的功能的清晰解釋。 (4) 描述:為圖像、視頻和視頻流中的區域生成簡潔或詳細的描述。
模型架構
如下圖3所示,PAM 可以分為兩部分。
第一部分是 SAM 2 框架,包括圖像編碼器、提示編碼器、記憶模塊和 mask 解碼器。該框架提供了強大的時空視覺特征提取與分割能力。
第二部分是基于大語言模型(LLM)的語義解碼器。關鍵在于提出的 Semantic Perceiver(語義感知器),它作為橋梁,有效利用來自 SAM 2 主干網絡的中間視覺特征,生成視覺 token。這些 token 隨后由 LLM 處理,以生成多樣化的語義輸出。
在解碼方面,PAM 采用 mask 解碼器與語義解碼器的并行設計,可以在分割目標的同時生成其多樣化語義輸出。組件設計與訓練過程如下所述。
語義感知器(Semantic Perceiver) 如上圖 3(b) 和下圖 4 所示,語義感知器的架構借鑒了 SAM 2 的特征融合模塊(S2-FFM),采用了一個輕量的兩層 Transformer,包含自注意力、交叉注意力和逐點 MLP。
具體而言,它接收兩個主要輸入:
- 來自 S2-FFM 的增強 mask token,包含 IoU 和提示 token 信息,作為精確 mask 生成的唯一標識;
- S2-FFM 后更新的圖像嵌入,捕捉了通過與 mask token 交互所增強的通用視覺上下文和隱式特征。
投影器(Projector) 在進入 LLM 之前,投影器由兩個部分組成:像素重排操作和 MLP 投影器。
- 對于圖像輸入,我們在相鄰的2X2特征塊上應用像素重排操作,以減少視覺 token 數量;
- 對于視頻輸入,提示幀與單張圖像處理方式相同,而視頻片段中的其余幀則使用更激進的4X4像素重排操作,以顯著減少視覺 token,并進一步提高語義解碼器的處理效率。
隨后,使用兩個不同的 MLP [45] 分別對視覺 token 和語義 token 進行投影。
語義解碼器(Semantic Decoder) 我們采用預訓練的 Qwen2.5 LLM [72] 作為語義解碼器,利用其強大的語言處理能力。該解碼器負責解釋處理后的視覺 token 和語義 token,并結合任務指令生成所需的語義輸出。
流式視頻編碼與解碼(Streaming Video Encode and Decode) 在 SAM 2 中通過記憶模塊逐幀引入歷史信息的基礎上,我們提出了一種區域級流式視頻字幕生成的簡潔策略,無需添加復雜組件。
具體而言,在每個視頻片段的最后一幀上額外應用2X2像素重排操作,從而提高視覺 token 的密度,增強歷史視覺信息的保留能力。這些 token 隨后作為下一個視頻片段的初始幀輸入,并與該片段的其余幀一起被 LLM 處理。
該方法確保每個片段的一致處理,并有效地將前一片段的重要歷史信息傳遞至下一個片段。
此外,將前一時刻的文本描述引入提示中,以進一步增強上下文歷史,從而提升模型對當前事件的理解與描述準確性。
在實際應用中,我們的框架允許用戶靈活指定解碼時間戳。當達到指定時間戳時,模型將描述該時間戳與前一時間戳之間時間區間內指定區域的內容。
訓練策略(Training Strategies) 我們采用三階段課程學習方法構建訓練流程,逐步提升 PAM 對區域級視覺內容的理解能力,從圖像擴展至視頻。在所有訓練階段中,SAM 2 的參數保持凍結。
- 階段 1:圖像預訓練與對齊初始訓練階段致力于在視覺 token、語義 token 與語言模型嵌入空間之間建立穩健對齊關系。主要目標是使模型能夠有效理解圖像中的區域級內容。為此,我們使用了一個大規模的區域級圖像分類與描述數據集。在此階段,僅訓練語義感知器與投影器。
- 階段 1.5:視頻增強預訓練與對齊本階段在圖像訓練的基礎上引入區域級視頻字幕數據,使模型能夠通過整合時空視覺信息理解動態場景。可訓練模塊與階段 1 相同。
- 階段 2:多模態微調最后階段采用監督微調(SFT),使模型能夠執行多樣化任務并生成所需響應。該階段使用通過我們流程(下文)精煉與增強的高質量數據集。在此階段,語義感知器、投影器與語義解碼器將聯合訓練。
數據
為了增強 PAM 的全面視覺感知能力,開發了一套強大的數據精煉與增強流程,用于構建高質量的訓練數據集。該數據集具有以下三個關鍵特性:
(1) 廣泛的語義粒度:提供從粗粒度(類別、定義、上下文功能)到細粒度(詳細描述)多樣的視覺語義標注。(2) 區域級流式字幕標注:首個專門為流式視頻區域字幕生成而構建標注的數據集。(3) 雙語標注:支持英文與中文。
圖像數據集
區域識別、解釋與描述。針對區域識別,使用了多個實例檢測與分割數據集 [55, 35, 40, 23, 50, 66],以及場景文字識別數據集 [56, 31, 30, 19, 24, 14, 76, 57, 4]。在此任務中,邊界框或 mask 作為視覺提示輸入,標簽則作為輸出。
為了實現超越簡單分類的深層次、細粒度視覺理解,我們提出了一種增強流程,生成以下內容:清晰的概念解釋、上下文功能角色以及每個特定區域的詳細描述。該多維信息旨在顯著提升用戶理解力,尤其適用于生僻術語或陌生主題。
為實現上述目標,利用最新的視覺語言模型(VLMs),借助其廣泛的世界知識與強大的視覺理解能力輔助精煉。具體而言,采用 Set of Mask (SoM) 方法識別感興趣區域,并使用原始標注作為上下文,引導模型生成目標響應,隨后進行人工質檢。示例參見下圖5(左)。
視頻數據集
區域級視頻字幕。 為了擴展模型在視頻中的區域字幕生成能力,收集并分析了若干已有視頻數據集,包括指代檢測與分割數據集,以及最近的 Sa2VA對 SAV數據集的標注。這些數據集旨在根據文本描述檢測、分割并生成視頻中特定目標的字幕,但往往存在描述過于粗略、簡單、不準確或主要為靜態內容的問題,忽略了視頻中目標的運動、交互與狀態變化等關鍵時間細節。
為了解決上述問題,提出了基于故事板的字幕擴展方法。該流程包括以下關鍵階段:
(1) 關鍵幀采樣:從每個視頻中均勻提取六幀關鍵幀;(2) 故事板合成:將這些關鍵幀合成為一張高分辨率復合圖像,以故事板格式展示(如上圖5所示);(3) 目標集中高亮:在復合圖像中,通過彩色邊界框或 mask (由 SoM 實現)高亮每幀中的目標對象;(4) 由 LLM 驅動的細化:隨后,以原始標注為條件,提示 GPT-4o 生成更精細、詳細且具時間感知的描述。該多幀整合過程對提升 GPT-4o 的上下文理解至關重要,生成的描述質量顯著優于逐幀分析。
區域級流式視頻字幕。 除了對整段視頻進行描述外,我們還希望將模型能力擴展至流式字幕生成。為此,在精煉后的區域級視頻字幕數據上執行了額外的數據增強。
具體而言,首先使用 TRACE-Uni模型將輸入視頻劃分為多個不同事件片段,每個片段具有明確的時間邊界。隨后,對每個分段視頻片段應用相同的“基于故事板”的處理方法。
為了生成精確且連續的事件描述,我們重新設計了 GPT-4o 的輸入提示,使其在處理當前片段時,迭代性地引入前一視頻片段的描述作為上下文信息。整個工作流程如上圖5(右)所示。
實驗
實現細節
采用 Qwen2.5-1.5B/3B作為語義解碼器,并使用預訓練的分層 SAM 2-Large 作為基礎視覺模型。默認情況下,使用16個可學習的語義 token,并對每個視頻片段均勻采樣16幀。所有訓練均在8張 NVIDIA A100 80GB 顯卡上進行。
在所有評估實驗中,我們采用零樣本測試方式,即不在特定數據集上進行微調。最佳結果以加粗表示,次優結果以下劃線標記。
圖像基準測試
區域識別與解釋。 該任務要求模型識別指定圖像區域中的目標類別或場景文字。識別性能在以下數據集上評估:
- LVIS(目標級)與 PACO(部件級)的驗證集;
- COCO-Text與 Total-Text的測試集。
評估指標包括:語義相似度(Semantic Similarity)、語義交并比(Semantic Intersection over Union, Sem. IoU)以及準確率。
如下表1所示,PAM-1.5B 和 PAM-3B 都展現了強勁的性能。值得注意的是,PAM-3B 顯著優于其他競爭方法。它在 PACO 基準上取得了最佳性能,超過此前最優模型超過 ,并在 LVIS 基準上在語義 IoU 指標上超過了當前的 SOTA 模型 DAM-8B。此外,如下表1右欄所示,PAM-3B 在 Total-Text 上超過VP-SPHINX-13B 超過 ,并在 COCO-Text 上取得了相當的性能。這些結果展示了其在場景文字識別中的潛力。進一步在圖6中展示了定性可視化結果,說明 PAM 在生成涵蓋目標通用定義與上下文角色的解釋方面的有效性。
區域字幕。在多個基準上評估模型生成簡潔與詳細區域描述的能力。對于簡潔區域字幕,在 RefCOCOg和 Visual Genome (VG)的驗證集上進行評估。對于更具表現力的描述,則在具有挑戰性的 Ref-L4數據集上進行評估。字幕質量通過 ROUGE-L、METEOR和CIDEr進行衡量。此外,還通過 Ferret-Bench和 MDVP-Bench對指代性描述進行基準測試,使用 GPT-4o 來評估生成響應的質量。
視頻基準
視頻區域字幕。該任務要求模型在視頻上下文中為指定區域生成準確且具時間感知的描述。我們主要在四個公開基準上進行評估:Elysium、BensMOT、HC-STVG和 VideoRefer-Bench-D。如下表3所示,PAM-1.5B 和 PAM-3B 在 Elysium 和 BensMOT 基準上均取得 SOTA 性能。此外,PAM-3B 在 HC-STVG 基準上的 METEOR 指標上超過當前 SOTA 方法 DAM-8B 達2.3% 。在 VideoRefer-Bench 上,本文模型相比VideoRefer-7B 和 DAM-8B 略有遜色,顯示出進一步提升的潛力。
流式視頻區域字幕。該任務要求模型以流式方式為指定區域生成連續描述。評估時,主要使用 ActivityNet 數據集的驗證集。為確保公平比較并準確評估區域級流式字幕生成能力,人工篩選了一個包含 400 個樣本的子集。篩選過程遵循兩個關鍵標準:(1) 每個視頻中標注的事件時間上連續且無重疊;(2) 每個視頻中所有標注事件描述均涉及同一主體。隨后,為每個選定視頻中的目標主體手動標注了邊界框。
最初采用兩個標準的密集字幕評估指標:CIDEr 和 METEOR。為進一步評估連續事件描述的連貫性與實體一致性,提出了一個新指標:GPT-4o 評估的時空描述連續性得分(G-STDC),范圍為0到 5。
下表4的結果表明,近期的區域級視頻字幕模型(包括 VideoRefer 和 DAM)在流式字幕任務中能力有限。與通用流式字幕方法(如 Streaming Vid2Seq)相比,PAM-3B 在 METEOR 指標上表現更優。此外,PAM-3B 在 G-STDC 上取得最佳性能,表明其在時空連續性和保持主體描述一致性方面表現出色。
效率
如下圖8所示,與現有方法相比,PAM 展示了更優的推理效率,并且在圖像和視頻處理方面都需要更少的 GPU 內存,突顯了其在真實應用中高效部署的適用性。
消融實驗
研究了所提出關鍵技術的有效性,如下所示:
- 在下表5中,展示了可學習語義標記數量(sem.T)調整的影響。觀察到使用過少的 sem.T 會導致性能下降。相反,使用過多的 sem.T 會帶來收益遞減,同時增加計算成本。因此,選擇使用16個 sem.T,以實現性能與效率的良好權衡。
- 在下表6中,比較了不同的訓練策略。結果顯示,從圖像-視頻模型檢查點(來自階段1.5)初始化,相較于直接從階段1模型檢查點初始化或在一個統一階段直接訓練,始終能帶來更佳的性能。
- 下表7對比了來自 SAM 2 的不同中間特征的影響。結果顯示,經由 S2-FFM 更新的嵌入提升了我們模型的性能,進一步強調了特征選擇方法的關鍵作用。
結論
Perceive Anything Model(PAM),這是一種從 SAM 2 擴展而來的區域級視覺-語言模型,旨在在圖像和視頻中同時完成目標分割并生成多樣化的語義輸出。PAM 在多個區域級理解任務中展現出強健性能,同時實現了高計算效率。本文方法的簡潔性與高效性使其非常適用于真實世界應用,能夠通過單次交互實現對視覺內容的細粒度、多維度理解。
本文轉自AI生成未來 ,作者:AI生成未來
