讓AI更懂物理世界!人大北郵上海AI Lab等提出多模態分割新方法
讓AI像人類一樣借助多模態線索定位感興趣的物體,有新招了!
來自人大高瓴GeWu-Lab、北郵、上海AI Lab等機構的研究人員提出Ref-AVS(Refer and Segment Objects in Audio-Visual Scenes,視聽場景下的指代分割),讓AI能看、會聽,更懂真實物理世界。
相關論文已入選頂會ECCV2024。
圖片
舉個例子,在下面這張圖中,機器如何準確定位真正在演奏樂器的人?
圖片
搞單打獨斗肯定不行,但這正是已有研究正在做的。(各自從視覺、文本和音頻線索的角度出發)
- 視頻對象分割(VOS,Video Object Segmentation):通常以第一幀中的對象掩碼作為參考,指導后續幀中特定對象的分割。(嚴重依賴于第一幀的精確標注)
- 視頻對象參考分割(Ref-VOS,Referring Video Object Segmentation):基于自然語言描述分割視頻中的物體,取代了VOS中的掩碼標注。(雖然更易于訪問,但能力有限)
- 視聽分割(AVS,Audio-Visual Segmentation):以音頻為指導來分割視頻中發聲的物體。(無法應對不發聲的物體)
而新方法Ref-AVS,整合了多個模態(文本,音頻和視覺)之間的關系來適應更真實的動態視聽場景。
這下,同時在唱歌和彈吉他的人也能被輕松找到了。
且同一段素材還能拿來反復用,找出正在發聲的吉他也不在話下。
與此同時,研究人員構建了一個名為Ref-AVS Bench的數據集,并設計了一個端到端框架來高效處理多模態線索。
具體如下。
構建了數據集Ref-AVS Bench
概括而言,數據集Ref-AVS Bench共有40020個視頻幀,包含6888個物體和20261個指代表達式(Reference Expression)。
每個數據都包含與視頻幀對應的音頻,并提供逐幀的像素級標注。
為了確保所指代對象(Object)的多樣性,團隊選擇了包含背景的52個類別, 其中48個類別的可發聲物體,以及3個類別的靜態、不可發聲物體。
在視頻收集過程中,所有視頻均來自油管并截取10秒。
在整個手動收集過程中,團隊刻意避免以下情況的視頻:
a) 包含大量相同語義實例的視頻;
b) 有大量編輯和相機視角切換的視頻;
c) 包含合成創作的非現實視頻。
同時,為了提高與真實世界分布的一致性,團隊挑選了有助于數據集內場景多樣化的視頻。
比如涉及多個對象(如樂器、人、車輛等)之間交互的視頻。
另外,表達式(Expression)的多樣性是Ref-AVS數據集構建的核心要素之一。
除去本身固有的文本語義信息,表達式還由聽覺、視覺和時間三個維度的信息組成。
聽覺維度包含音量、節奏等特征,而視覺維度則包含物體的外觀和空間等屬性。
團隊還利用時間線索來生成具有時序提示的引用,例如“先發出聲音的(物體)”或“后出現的(物體)”。
通過整合聽覺、視覺和時間信息,研究設計出豐富的表達式,不僅可以準確反映多模態場景,還可以滿足用戶對精確引用的特定需求。
而且,表達式的準確性也是一個核心關注點。
研究遵循三個規則來生成高質量的表達式:
1)唯一性:一個表達式所指代的對象必須是唯一的,不能同時指代多個對象。
2)必要性:可以使用復雜的表達式來指代對象,但句子中的每個形容詞都應該縮小目標對象的范圍,避免對所要指代的對象進行不必要和冗余的描述。
3)清晰度:某些表達模板涉及主觀因素,例如“聲音更大的__”。只有在情況足夠清晰時才應使用此類表達,以避免產生歧義。
團隊將每段10秒的視頻分成十個相等的1秒片段,利用Grounding SAM來分割和標記關鍵幀,隨后要求標注員手動檢查和更正這些關鍵幀。
此過程使團隊能夠在關鍵幀內為多個目標對象生成掩碼和標簽。
一旦確定了關鍵幀的掩碼,研究就會應用跟蹤算法來跟蹤目標對象,并在10s的跨度內獲得目標對象的最終掩碼標簽(Ground Truth Mask)。
到了數據分割與統計,測試集中的視頻及其對應的注釋會經過訓練過的標注人員的細致審查和校正。
為了全面評估模型在Ref-AVS任務中的表現,測試集進一步被劃分為三個不同的子集。
具體而言,三個測試子集包括:
- 已見子集 (Seen):包括那些在訓練集中出現過的物體類別,建立該子集的目的是評估模型的基本性能。
- 未見子集 (Unseen):專門用于評估模型在未見音視頻場景中的泛化能力。
- 空指代子集 (Null):測試模型對空引用的魯棒性,即表達式與視頻中的任何對象都不相關。
具體咋實現的?
完成了數據集準備后,團隊利用多模態線索來增強表達式指代能力(Expression Enhancing with Multimodal Cues, EEMC),以實現更好的視聽指代分割。
具體而言,在時序雙模態融合(Temporal Bi-Modal Transformer)模塊中,團隊將包含時序信息的視聽模態信息(FV, FA)分別與文本信息FT進行融合。
注意, 為了讓模型更好的感知時序信息,研究提出了一種直觀的Cached memory機制(CV,CA )。
Cached memory需要存儲從開始到當前時刻的時序平均模態特征,以捕捉時序變化中多模態信息的變化幅度。多模態特征(QV, QA)計算方式如下:
其中,??表示時序中的特定時間步, ??則是一個可調節的超參數用于控制時序過程中模型對特征時序變化的敏感度。
當此刻的音頻或視覺特征與過去特征的均值相比變化不大時, 輸出的特征保持幾乎不變。
然而,當變化較為明顯時,cached memory可以放大當前特征的差異,從而產生具有顯著特征的輸出。
此后,拼接的多模態特征被送入Multimodal Integration Transformer模塊中進行多模態融合, 產生包含多模態信息的指代表達式的最終特征(QM)作為掩碼解碼器的輸入。
掩碼解碼器是一個Transformer架構的分割基礎模型如MaskFormer,Mask2Former或者SAM。
團隊選擇Mask2Former作為分割基礎模型,將其預訓練的mask queries作為??,將多模態指代表達式特征作為 ?? 和 ?? 。
經過一個cross-attention transformer(CATF)將多模態指代表達式特征遷移到mask queries中,從而實現讓分割基礎模型根據多模態特征進行分割。
實驗結果
在定量實驗中,團隊將研究提出的基線方法與其它方法進行對比,且為了公平補充了其他方法缺失的模態信息。
在Seen子集上的測試結果顯示,新方法Ref-AVS超越了其它方法的性能。
同時在Unseen子集和Null子集上,Ref-AVS展示了可泛化性,并且可以準確地跟隨指代表達。
在定性實驗中, 團隊在Ref-AVS Bench測試集上對分割掩碼進行可視化,并與AVSegFormer和ReferFormer進行比較。
結果顯示,ReferFormer在Ref-VOS任務中的表現以及AVSegFormer在AVS任務中的表現都未能準確分割出表達中描述的對象。
具體來說,AVSegFormer在理解表達時遇到困難,往往直接生成聲音源。
例如,在左下角的樣本中,AVSegFormer錯誤地將吸塵器分割為目標,而不是男孩。
另一方面,Ref-VOS可能無法充分理解音頻-視覺場景,因此誤將幼童識別為鋼琴演奏者,如右上角的樣本所示。
相比之下,Ref-AVS方法展現了更出色的能力,能夠同時處理多模態表達和場景,從而準確地理解用戶指令并分割出目標對象。
未來,可以考慮更優質的多模態融合技術、模型應用的實時性以及數據集的擴展與多樣化, 以將多模態指代分割應用到視頻分析、醫療圖像處理、自動駕駛和機器人導航等挑戰中。
更多詳情歡迎查閱原論文。
論文地址:https://arxiv.org/abs/2407.10957項目主頁:https://gewu-lab.github.io/Ref-AVS/