用SAM做零樣本視頻對(duì)象分割!港科大等開源首個(gè)「稀疏點(diǎn)傳播」方法SAM-PT,性能直追有監(jiān)督SOTA
視頻分割是自動(dòng)駕駛、機(jī)器人技術(shù)、視頻編輯等應(yīng)用場(chǎng)景的基礎(chǔ)技術(shù),但目前的方法在零樣本學(xué)習(xí)設(shè)置下,或是預(yù)測(cè)未見過(guò)的樣本時(shí),會(huì)出現(xiàn)性能不一致等問(wèn)題。
今年4月,Meta AI開源了一個(gè)非常強(qiáng)大的圖像分割基礎(chǔ)模型Segment Anything Model(SAM),經(jīng)過(guò)1100萬(wàn)張圖像訓(xùn)練后,SAM具有非常強(qiáng)的泛化性能,并可以應(yīng)用于各種下游應(yīng)用。
不過(guò),雖然SAM屠榜了整個(gè)圖像分割領(lǐng)域,但它并不適用于視頻分割任務(wù)。
圖片
最近,來(lái)自蘇黎世聯(lián)邦理工學(xué)院、香港科技大學(xué)、瑞士洛桑聯(lián)邦理工學(xué)院的研究人員發(fā)布了SAM-PT模型,利用穩(wěn)健和稀疏的點(diǎn)選擇(point selection)和傳播(propagation)技術(shù)來(lái)生成遮罩,將SAM的零樣本能力擴(kuò)展到動(dòng)態(tài)視頻的跟蹤和分割任務(wù)上,在多個(gè)視頻物體分割數(shù)據(jù)集基準(zhǔn)DAVIS, YouTube-VOS和MOSE中取得了穩(wěn)定且強(qiáng)大的零樣本性能。
論文鏈接:https://arxiv.org/pdf/2307.01197.pdf
代碼鏈接:https://github.com/SysCV/sampt
與傳統(tǒng)的、以物體為中心的掩碼傳播策略相比,SAM-PT創(chuàng)新型地使用點(diǎn)傳播來(lái)利用與物體語(yǔ)義無(wú)關(guān)的局部結(jié)構(gòu)信息;并通過(guò)對(duì)零樣本開放世界不明視頻物體(Unidentified Video Objects, UVO)基準(zhǔn)的直接評(píng)估,突出了基于點(diǎn)跟蹤的優(yōu)勢(shì),也有助于保持SAM的靈活性。
為了進(jìn)一步提升模型性能,研究人員利用K-Medoids聚類來(lái)進(jìn)行點(diǎn)的始化,并同時(shí)追蹤positive和negative的點(diǎn)以明確區(qū)分目標(biāo)物體;還采用了多個(gè)掩碼解碼來(lái)完善掩碼,并設(shè)計(jì)了一個(gè)點(diǎn)重新初始化策略來(lái)提高跟蹤的準(zhǔn)確性。
SAM-PT
背景知識(shí)SAM
視覺(jué)基礎(chǔ)模型SAM可用于提示分割任務(wù)( promptable segmentation),即在給定「提示」的情況下,進(jìn)行零樣本和少樣本的圖像分割任務(wù)。
SAM的訓(xùn)練數(shù)據(jù)為SA-1B,包含1100萬(wàn)張圖像和超過(guò)10億個(gè)遮罩,比現(xiàn)有的分割數(shù)據(jù)集大400倍,大規(guī)模數(shù)據(jù)也使得SAM對(duì)新數(shù)據(jù)有著非常強(qiáng)大的零樣本泛化性能。
圖片
SAM的實(shí)驗(yàn)結(jié)果展現(xiàn)了其從單一前景點(diǎn)產(chǎn)生高質(zhì)量遮罩的能力,并在使用提示工程的零樣本設(shè)置下,對(duì)各種下游任務(wù)都展現(xiàn)出強(qiáng)大的泛化能力,包括但不限于邊緣檢測(cè)、object proposal generation和實(shí)例分割任務(wù)。
SAM由三個(gè)主要部分組成:一個(gè)圖像編碼器、一個(gè)靈活的提示編碼器和一個(gè)快速掩碼解碼器。
圖像編碼器是Vision Transformer(ViT)的主干部分,處理高分辨率的1024×1024圖像,生成64×64空間大小的圖像嵌入。
提示編碼器將稀疏的提示作為輸入,包括點(diǎn)、框和文本,或密集的提示,如遮罩等,并將這些提示翻譯成具有c個(gè)維度的token
輕量級(jí)掩碼解碼器整合圖像和提示嵌入,實(shí)時(shí)預(yù)測(cè)分割掩碼,使SAM能夠以最小的計(jì)算開銷適應(yīng)各種提示。
SAM-PT
雖然SAM在圖像分割方面展現(xiàn)出強(qiáng)大的性能,但它在處理視頻分割任務(wù)上卻有內(nèi)在的局限性。
這篇論文中提出的Segment Anything Meets Point Tracking(SAM-PT)方法有效地將SAM擴(kuò)展到了視頻,提供了強(qiáng)大的視頻分割性能,并且不需要對(duì)任何視頻分割數(shù)據(jù)進(jìn)行訓(xùn)練。
圖片
SAM-PT主要由四個(gè)步驟組成:為第一幀選擇查詢點(diǎn);使用點(diǎn)跟蹤器將選擇的查詢點(diǎn)傳播到所有視頻幀;使用SAM根據(jù)傳播的點(diǎn)生成每幀的分割掩碼;通過(guò)從預(yù)測(cè)的遮罩中采樣查詢點(diǎn)來(lái)重新初始化。
1. 查詢點(diǎn)的選擇
查詢點(diǎn)(query point)可以表示目標(biāo)物體(positive points)或指定背景和非目標(biāo)物體(negative points),用戶可以手動(dòng)和交互式地提供查詢點(diǎn),也可以從真實(shí)標(biāo)注遮罩中獲得。
例如,在半監(jiān)督視頻物體分割任務(wù)中,標(biāo)注遮罩是為物體出現(xiàn)的第一幀準(zhǔn)備的。
圖片
研究人員使用了不同的點(diǎn)取樣技術(shù),通過(guò)考慮幾何位置或特征的不相似性,從真實(shí)標(biāo)注遮罩中獲得查詢點(diǎn)。
抽樣技術(shù)包括:
隨機(jī)采樣是一種直觀的方法,從地面真實(shí)遮罩中隨機(jī)選擇查詢點(diǎn)。
K-Medoids采樣,將K-Medoids聚類的聚類中心作為查詢點(diǎn),以確保對(duì)物體不同部分的良好覆蓋以及對(duì)噪聲和異常值的穩(wěn)健性。
Shi-Tomasi 采樣,從遮罩下的圖像中提取ShiTomasi corner point,并且已經(jīng)被證明是很好的追蹤特征。
混合取樣,結(jié)合了上述技術(shù)的混合方法,可以結(jié)合不同技術(shù)的獨(dú)特優(yōu)勢(shì)。
雖然每種方法在影響模型性能方面都有不同的特點(diǎn),但消融研究顯示,K-Medoids采樣的結(jié)果是最好的,可以完整地覆蓋各種物體;其次是Shi-Tomasi采樣方法。
2. 點(diǎn)追蹤(Point Tracking)
用查詢點(diǎn)初始化后,使用穩(wěn)健的點(diǎn)追蹤器在視頻的所有幀中進(jìn)行點(diǎn)傳播,從而可以得到點(diǎn)軌跡和occulusion分?jǐn)?shù)。
研究人員采用最先進(jìn)的點(diǎn)跟蹤器PIPS對(duì)點(diǎn)進(jìn)行傳播,因?yàn)镻IPS對(duì)長(zhǎng)序列追蹤等有挑戰(zhàn)性的場(chǎng)景下(如object occulusion和re-sppearance)上更加穩(wěn)健,實(shí)驗(yàn)結(jié)果也顯示出比鏈?zhǔn)焦饬鱾鞑ィ╟hained optical flow propagation)或第一幀對(duì)應(yīng)(first-frame correspondence)等方法更有效。
3. 分割
在預(yù)測(cè)的軌跡中,non-occulded點(diǎn)作為目標(biāo)物體在整個(gè)視頻中的指示器,可以用來(lái)提示SAM,并利用其固有的泛化能力來(lái)輸出每幀分割掩碼預(yù)測(cè)。
與需要對(duì)視頻分割數(shù)據(jù)進(jìn)行訓(xùn)練或微調(diào)的傳統(tǒng)跟蹤方法不同,該方法在零樣本視頻分割任務(wù)中表現(xiàn)出色。
圖片
研究人員通過(guò)兩次調(diào)用SAM來(lái)結(jié)合正樣本點(diǎn)和負(fù)樣本點(diǎn):首先用正樣本點(diǎn)提示SAM來(lái)定義物體的初始位置;然后同時(shí)用正負(fù)點(diǎn)以及之前的掩碼預(yù)測(cè)來(lái)提示SAM,其中負(fù)樣本點(diǎn)在物體和背景之間提供了更細(xì)微的區(qū)別,并有助于消除錯(cuò)誤的分割區(qū)域。
最后通過(guò)重復(fù)第二次的SAM提示來(lái)執(zhí)行數(shù)量不等的遮罩優(yōu)化迭代,利用SAM將模糊的遮罩細(xì)化為更精確的遮罩,從消融實(shí)驗(yàn)中也可以看到這步可以明顯提高視頻物體分割的性能。
4. 點(diǎn)追蹤重初始化
一旦prediction horizon中h=8幀,研究人員可以選擇使用預(yù)測(cè)的遮罩對(duì)查詢點(diǎn)進(jìn)行重新初始化,并將該變體表示為SAM-PT-reinit;在達(dá)到8之前,使用最后一個(gè)預(yù)測(cè)遮罩對(duì)新點(diǎn)進(jìn)行采樣。
在這個(gè)階段,所有之前的點(diǎn)都會(huì)被丟棄,并用新的采樣點(diǎn)來(lái)代替。
對(duì)新的點(diǎn)重復(fù)步驟1-4,直到視頻中的所有幀都被處理完畢;重新初始化過(guò)程的作用是通過(guò)丟棄已經(jīng)變得不可靠或被遮擋的點(diǎn)來(lái)提高跟蹤的準(zhǔn)確性,同時(shí)納入視頻中后來(lái)變得可見的物體分割的點(diǎn)。
實(shí)驗(yàn)部分
視頻對(duì)象分割
從實(shí)驗(yàn)結(jié)果來(lái)看,SAM方法在DAVIS 2017數(shù)據(jù)集上優(yōu)于其他沒(méi)有在任何視頻對(duì)象上訓(xùn)練過(guò)的方法。
圖片
J&F指標(biāo)的平均得分是76.6分,比PerSAM-F高出4.7分,比SegGPT通用模型高出一個(gè)百分點(diǎn),實(shí)驗(yàn)重復(fù)測(cè)試了8次,表中列出了平均值和標(biāo)準(zhǔn)差。
SAM-PT方法在YouTube-VOS 2018和MOSE 2023數(shù)據(jù)集上的表現(xiàn)也超過(guò)了PerSAM-F,取得了67.0和41.0的平均分;但在不同的遮罩訓(xùn)練數(shù)據(jù)下,SAM-PT這兩個(gè)數(shù)據(jù)集上的表現(xiàn)弱于SegGPT
圖片
雖然SAM-PT的零樣本學(xué)習(xí)性能很有競(jìng)爭(zhēng)力,但某些限制仍然存在,主要是由于點(diǎn)追蹤器在處理遮擋、小物體、運(yùn)動(dòng)模糊和重新識(shí)別方面的限制,錯(cuò)誤可能會(huì)傳播到未來(lái)的視頻幀中。
圖片