Meta再下一城:SAM 2 原創(chuàng)
“繼用于圖像的Meta Segment Anything Model (SAM)取得成功之后,我們發(fā)布了SAM 2,這是一種用于在圖像和視頻中實(shí)時(shí)進(jìn)行對(duì)象分割的統(tǒng)一模型,已經(jīng)達(dá)到最先進(jìn)的性能。” 模型適用于增強(qiáng)現(xiàn)實(shí)(AR)、虛擬現(xiàn)實(shí)(VR)、機(jī)器人、自動(dòng)駕駛車輛和視頻編輯等需要時(shí)間定位的應(yīng)用。
1.SAM 2
分割是計(jì)算機(jī)視覺的重要組成部分,用于識(shí)別哪些圖像像素屬于物體。它在各種現(xiàn)實(shí)世界場景中都有應(yīng)用,從分析科學(xué)圖像到編輯照片。最早在2023年,Meta宣布了Segment Anything項(xiàng)目,發(fā)布了Segment Anything模型 (SAM) 和Segment Anything 1B的MaskLet數(shù)據(jù)集 SA-1B,以加速該領(lǐng)域的研究。
Meta發(fā)布的Segment Anything Model 2 (SAM 2)比原來的SAM更準(zhǔn)確,速度快六倍。目前支持視頻和圖像中的對(duì)象分割。它專為圖像和視頻中的對(duì)象分割而設(shè)計(jì),通過支持實(shí)時(shí)處理和zero-shot的泛化、可提示的模型架構(gòu),在處理復(fù)雜的視覺數(shù)據(jù)方面表現(xiàn)出色。
SAM 2的主要特點(diǎn):
- SAM 2可以分割以前從未遇到過的物體,表現(xiàn)出強(qiáng)大的零樣本泛化能力。它在17個(gè)零樣本視頻數(shù)據(jù)集的交互式視頻分割方面明顯優(yōu)于以前的方法,并且需要的人工交互大約減少三倍。
- SAM 2在其23個(gè)數(shù)據(jù)集的零樣本基準(zhǔn)測試套件上優(yōu)于SAM,同時(shí)速度快 6倍。
- 與之前最先進(jìn)的模型相比,SAM 2在現(xiàn)有的視頻對(duì)象分割基準(zhǔn)測試(DAVIS、MOSE、LVOS、YouTube-VOS)方面表現(xiàn)出色。
- 模型實(shí)現(xiàn)了實(shí)時(shí)推理速度,每秒處理大約44幀。這使得SAM 2適用于需要即時(shí)反饋的應(yīng)用,例如視頻編輯和增強(qiáng)現(xiàn)實(shí)。
- 用于視頻分割注釋的SAM 2比使用SAM進(jìn)行手動(dòng)每幀注釋快 8.4倍。
SAM 2在Apache 2.0許可下可用,因此任何人都可以在SAM 2模型之上構(gòu)建自己的體驗(yàn)。目前Meta已經(jīng)開放如下資料:
- SAM 2代碼和權(quán)重在寬松的Apache 2.0許可證下。
- BSD-3許可證下的 SAM 2評(píng)估代碼。
- SA-V數(shù)據(jù)集,包括 ~51k真實(shí)世界視頻和超過600k個(gè)Masklet,采用 CC BY 4.0許可。
上面的表格為本次使用的數(shù)據(jù)集和開源VOS數(shù)據(jù)集的對(duì)比,比較的維度又視頻數(shù)量、持續(xù)時(shí)間、掩碼數(shù)量、掩碼、幀數(shù)和消失率。SA-V Manual僅包含手動(dòng)注釋的標(biāo)簽。SA-V Manual+Auto將手動(dòng)注釋的標(biāo)簽與自動(dòng)生成的掩碼相結(jié)合。
2.模型細(xì)節(jié)
下圖為SAM2的框架,希望通過使用基礎(chǔ)模型 (b) 解決交互式的視覺分割任務(wù) (a),這個(gè)模型是在數(shù)據(jù)引擎 (c) 上面采集到的大規(guī)模SA-V的數(shù)據(jù)集上訓(xùn)練而成。SAM 2通過流式存儲(chǔ)存儲(chǔ)先前的Prompt和預(yù)測結(jié)果,進(jìn)而達(dá)到能夠通過一個(gè)或多個(gè)視頻幀上的Prompt(點(diǎn)擊、框或蒙版)的方式分割區(qū)域<形成遮罩!>。
下圖為一個(gè)具體的例子,先在視頻的第一幀中對(duì)目標(biāo)對(duì)象進(jìn)行Prompt以獲得該對(duì)象的分割結(jié)果。綠色點(diǎn)表示正提示(正向提示,表示對(duì)象的一部分),紅色點(diǎn)表示負(fù)提示(負(fù)向提示,表示不是對(duì)象的一部分)。SAM 2 會(huì)自動(dòng)將分割結(jié)果傳播到后續(xù)幀(用藍(lán)色箭頭表示),形成一個(gè)MaskLet(綠色部分)。如果SAM 2在某一幀后(例如第 2 幀之后)失去了對(duì)對(duì)象的跟蹤,可以在新幀中提供額外提示(紅色箭頭),以糾正MaskLet。
第3幀中只需一次點(diǎn)擊即可恢復(fù)對(duì)象,并將其傳播以獲得正確的 MaskLet。與獨(dú)立的SAM +視頻跟蹤器方法相比這種方法更高效。傳統(tǒng)方法在第3幀中需要多次點(diǎn)擊以重新注釋對(duì)象。SAM 2的記憶功能使得僅需一次點(diǎn)擊即可恢復(fù)對(duì)象(如舌頭)的分割結(jié)果。這種能力在處理視頻中的對(duì)象不僅減少了用戶的操作次數(shù),還能在對(duì)象跟蹤失效時(shí)進(jìn)行快速精校。
若從模型架構(gòu)上來解釋的話,對(duì)于給定幀分割預(yù)測取決于當(dāng)前提示和/或先前觀察到的記憶。視頻以流式方式處理,圖像編碼器(綠色)一次消耗一個(gè)幀,并與先前幀中的目標(biāo)對(duì)象的記憶(粉色)交叉關(guān)注<藍(lán)色部分,Cross-Attention,其本質(zhì)上也是利用了多層的Transformer堆疊>。掩碼解碼器(橙色)(也可以選擇接受輸入提示)進(jìn)行當(dāng)前幀的分割遮罩預(yù)測。
上圖為標(biāo)注過程,每個(gè)過程都有自己的標(biāo)注器,跟蹤,識(shí)別錯(cuò)誤,持續(xù)校正
與之前的工作進(jìn)行比較,SAM 2在給出第1幀的真實(shí)遮罩之后進(jìn)行的視頻分割方面表現(xiàn)良好,尤其在準(zhǔn)確度(J &F、G)和速度(FPS)方面。所有 FPS 估計(jì)值均基于A100 GPU。
