成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4結合SAM2:免訓練多模態分割的全新解決方案!| 已開源

人工智能 新聞
中科院信工所、北航、合工大、美團等單位聯合提出了一種名為AL-Ref-SAM 2的方法。

免訓練多模態分割領域有了新突破

中科院信工所、北航、合工大、美團等單位聯合提出了一種名為AL-Ref-SAM 2的方法。

這種方法利用GPT-4和SAM-2來統一多模態分割,讓系統在免訓練的情況下,也能擁有不亞于全監督微調的性能!

圖片

≥ 全監督方法

多模態分割主要有兩種方法:一種是依據文字描述找到視頻中特定對象的分割方法(RVOS),另一種是通過聲音識別視頻中發聲對象的方法(AVS)。

免訓練的多模態視頻指代分割雖然在數據和訓練成本上有較大優勢,卻由于缺乏在特定任務數據上針對性的模型參數調整,導致性能與全監督方法有較大差距。

而研究團隊要解決的就是這個問題。

實驗中,他們對多個RVOS基準數據集進行了廣泛驗證,包括Ref-YouTube-VOS、Ref-DAVIS17和MeViS,同時在AVSBench的多個子集上也進行了測試。

最后的實驗結果顯示,AL-Ref-SAL 2在這些數據集上的表現不僅優于其他無需訓練和弱監督的方法,并且甚至在一定情況下,系統的性能可以與全監督方法相媲美

特別是在Ref-YouTube-VOS和Ref-DAVIS17這兩個數據集上,AL-Ref-SAM 2的表現甚至超過了大多數全監督方法

圖片

△ 免訓練設置下三階段分割基線方法(a)與本文方法(b)的比較

具體咋實現的?

研究團隊把AL-Ref-SAM 2的算法分成了三個階段

第一階段:獲取形式統一的指代信息,對于RVOS任務,指代信息是輸入的文本描述本身,而對于AVS任務,研究人員們利用LBRU模塊將音頻轉化為對發聲對象的語言形式描述。

第二階段:根據語言指代和視頻內容,利用GPT-4進行兩階段時空推理,從視頻中逐步選出關鍵幀和關鍵框。

第三階段:以關鍵幀為分割起點,關鍵框為初始提示,利用SAM 2獲得目標對象在整段視頻中的分割掩碼序列。

圖片

△ AL-Ref-SAM 2的整體流程

具體實驗細節,請看下文展開~

語言綁定的音頻指代轉換(LBRU)

LBRU將音頻信號轉換為與語言描述統一的格式(例如“[CLS] that is making sound”,其中[CLS]代表了具體的發聲對象類別),以減少音頻信息中的語義模糊性和冗余性。

為了獲取發聲對象的準確類別,LBRU利用了一個預訓練音頻分類器,如BEATs,對音頻進行分類,并保留置信度前k高的類別文本。

由于這些類別中可能包含了重復類別或背景聲類別,LBRU進一步引入了視頻作為視覺上下文,利用GPT-4根據視頻內容對音頻類別進行過濾、合并,并將保留的音頻類別轉化為發出該聲音的對象類別。

圖片

△ 語言綁定的音頻指代轉換模塊

GPT輔助的關鍵幀/框選擇(GPT-PS)

GPT-PS利用GPT-4分別進行時序推理選出關鍵幀,以及空間推理選出關鍵框。

在時序推理階段,為了使GPT可以處理視頻格式的內容,研究團隊首先對視頻幀進行采樣,將采樣后的若干幀拼接為一張圖并在圖上標出幀號。

為了顯式引導GPT在理解視頻內容的基礎上選擇關鍵幀,他們還針對性地設計了關鍵幀思維鏈提示模板,要求GPT首先描述整段視頻的場景,再根據語言指代選出關鍵幀。

之后,研究人員將語言指代信息和關鍵幀輸入GroundingDINO模型中,獲得多個可能的候選框

在空間推理階段,首先將候選框畫在關鍵幀上,并且依舊將其與其他采樣幀順序拼接作為視覺信號輸入GPT。

類似地,他們也設計了關鍵框思維鏈提示模板,要求GPT描述每個候選框中對象的特征和不同對象之間的關系,并對指代信息進行語法分析確定真正的指代主體,最后再根據語言指代選出包含目標對象的候選框作為關鍵框。

圖片

以下是研究團隊得出的相關數據:

圖片
圖片

論文鏈接:https://arxiv.org/pdf/2408.15876
代碼鏈接:https://github.com/appletea233/AL-Ref-SAM2

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-06-02 13:39:00

GPT-3開源GPU

2024-01-01 22:28:52

2017-09-07 13:10:34

華為

2011-07-08 11:02:23

思科視頻傳輸

2021-03-15 10:41:09

5g醫療技術

2023-05-16 13:07:57

GPT4ALL語言模型

2025-02-12 13:31:33

2023-03-10 13:30:01

微軟人工智能

2023-03-28 08:23:38

2024-08-08 13:04:28

2015-10-22 13:03:29

Dynatrace

2023-06-19 08:19:50

2015-07-20 17:34:47

解決方案

2009-12-03 10:29:22

賽門鐵克丟失防護解決方案

2009-09-14 17:42:28

戴爾解決方案中小企業

2023-09-19 13:48:31

AI數據

2023-03-10 13:03:09

人工智能模型

2024-05-20 08:20:00

OpenAI模型

2023-05-22 08:30:35

GPT-4智能編程助手

2025-03-12 09:05:02

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费播放一级片 | 91久久精品国产91久久 | 国产97视频在线观看 | 欧美成人猛片aaaaaaa | 国产精品久久一区 | 久久69精品久久久久久久电影好 | 四虎影院在线免费观看 | 亚洲精品女优 | 精品美女在线观看 | 国产亚洲一区二区精品 | 激情网五月天 | 四虎影院在线播放 | 亚洲三区在线播放 | 香蕉视频黄色 | 欧美精品在线播放 | 久久免费视频2 | 久久成人国产精品 | 欧美在线观看一区 | 国产成人在线视频播放 | 精品综合 | 日韩一区二区在线视频 | 国产有码 | 欧美成人性生活 | 日韩中文字幕在线免费 | 丝袜美腿一区 | 久久久亚洲一区 | 狠狠躁夜夜躁人人爽天天高潮 | 中文字幕乱码亚洲精品一区 | 久久精品中文字幕 | 日韩高清在线观看 | 亚洲精品中文字幕在线观看 | 久久99这里只有精品 | 欧美日韩成人在线观看 | 九七午夜剧场福利写真 | 亚洲国产精品一区二区三区 | 大陆一级毛片免费视频观看 | 久草视| 亚洲图片视频一区 | 久久精品国产一区二区 | 九九激情视频 | 成人在线免费视频 |