ICLR 2024 | 單卡訓練僅需1天!川大、北郵等提出多模態噪聲關聯學習
在 2024 世界經濟論壇的一次會談中,圖靈獎得主 Yann LeCun 提出用來處理視頻的模型應該學會在抽象的表征空間中進行預測,而不是具體的像素空間 [1]。借助文本信息的多模態視頻表征學習可抽取利于視頻理解或內容生成的特征,正是促進該過程的關鍵技術。
然而,當下視頻與文本描述間廣泛存在的噪聲關聯現象嚴重阻礙了視頻表征學習。因此本文中,研究者基于最優傳輸理論,提出魯棒的長視頻學習方案以應對該挑戰。該論文被機器學習頂會 ICLR 2024 接收為了 Oral。
論文題目:
Multi-granularity Correspondence Learning from Long-term Noisy Videos
論文地址:
??https://openreview.net/pdf?id=9Cu8MRmhq2??
項目地址:
???https://lin-yijie.github.io/projects/Norton??
代碼地址:
???https://github.com/XLearning-SCU/2024-ICLR-Norton??
01 背景與挑戰
視頻表征學習是多模態研究中最熱門的問題之一。大規模視頻 - 語言預訓練已在多種視頻理解任務中取得顯著效果,例如視頻檢索、視覺問答、片段分割與定位等。目前大部分視頻 - 語言預訓練工作主要面向短視頻的片段理解,忽略了長視頻中存在的長時關聯與依賴。
如下圖 1 所示,長視頻學習核心難點是如何去編碼視頻中的時序動態,目前的方案主要集中于設計定制化的視頻網絡編碼器去捕捉長時依賴 [2],但通常面臨很大的資源開銷。
▲ 圖1. 長視頻數據示例 [2]。該視頻中包含了復雜的故事情節和豐富的時序動態。每個句子只能描述一個簡短的片段,理解整個視頻需要具有長時關聯推理能力。
由于長視頻通常采用自動語言識別(ASR)得到相應的文本字幕,整個視頻所對應的文本段落(Paragraph)可根據 ASR 文本時間戳切分為多個短的文本標題(Caption),同時長視頻(Video)可相應切分為多個視頻片段(Clip)。對視頻片段與標題進行后期融合或對齊的策略相比直接編碼整個視頻更為高效,是長時時序關聯學習的一種優選方案。
然而,視頻片段與文本句子間廣泛存在噪聲關聯現象(Noisy correspondence [3-4],NC),即視頻內容與文本語料錯誤地對應 / 關聯在一起。如下圖 2 所示,視頻與文本間會存在多粒度的噪聲關聯問題。
▲ 圖2. 多粒度噪聲關聯。該示例中視頻內容根據文本標題切分為 6 塊。(左圖)綠色時間線指示該文本可與視頻內容對齊,紅色時間線則指示該文本無法與整個視頻中的內容對齊。t5 中的綠色文本表示與視頻內容 v5 有關聯的部分。(右圖)虛線表示原本給定的對齊關系,紅色指示原本對齊中錯誤的對齊關系,綠色則指示真實的對齊關系。實線表示通過 Dynamic Time Wraping 算法進行重新對齊的結果,其也未能很好地處理噪聲關聯挑戰。
粗粒度 NC(Clip-Caption 間):粗粒度 NC 包括異步(Asynchronous)和不相關(Irrelevant)兩類,區別在于該視頻片段或標題能否與現有標題或視頻片段相對應。其中「異步」指視頻片段與標題間存在時序上的錯位,例如圖 2 中 t1。由于講述者在實際執行動作的前后進行解釋,導致陳述與行動的順序不匹配。「不相關」則指無法與視頻片段對齊的無意義標題(例如 t2 和 t6),或是無關的視頻片段。
根據牛津 Visual Geometry Group 的相關研究 [5],HowTo100M 數據集中只有約 30% 的視頻片段與標題在視覺上是可對齊的,而僅有 15% 是原本就對齊的。
細粒度 NC(Frame-Word 間):針對一個視頻片段,可能一句文本描述中只有部分文字與其相關。在圖 2 中,標題 t5 中「糖撒在上面」與視覺內容 v5 強相關,但動作「觀察釉面脫落」則與視覺內容并不相關。無關的單詞或視頻幀可能會阻礙關鍵信息提取,從而影響片段與標題間的對齊。
02 方法
本文提出噪聲魯棒的時序最優傳輸(NOise Robust Temporal Optimal transport, Norton),通過視頻 - 段落級對比學習與片段 - 標題級對比學習,以后期融合的方式從多個粒度學習視頻表征,顯著節省了訓練時間開銷。
▲ 圖3. 視頻 - 段落對比算法框架圖
1)視頻 - 段落對比。如圖 3 所示,研究者以 fine-to-coarse 的策略進行多粒度關聯學習。首先利用幀 - 詞間相關性得到片段 - 標題間相關性,并進一步聚集得到視頻 - 段落間相關性,最終通過視頻級對比學習捕捉長時序關聯。針對多粒度噪聲關聯挑戰,具體應對如下:
面向細粒度 NC。研究者采用 log-sum-exp 近似作為 Soft-maximum 算子去識別幀 - 詞和詞 - 幀對齊中的關鍵詞和關鍵幀,以細粒度的交互方式實現重要信息抽取,累計得到片段 - 標題相似性。
面向粗粒度異步 NC。研究者采用最優傳輸距離作為視頻片段和標題之間的距離度量。給定視頻片段 - 文本標題間相似性矩陣
表示片段與標題個數,最優傳輸目標為最大化整體對齊相似性,可天然處理時序異步或一對多(如 t3 與 v4,v5 對應)的復雜對齊情況。
,其中
其中
為均勻分布給予每個片段、標題同等權重,
為傳輸指派或重對齊矩,可通過 Sinkhorn 算法求解。
面向粗粒度不相關 NC。受特征匹配中 SuperGlue [6] 啟發,我們設計了自適應的可對齊提示桶去嘗試過濾不相關的片段與標題。提示桶是一行一列的相同值向量,拼接于相似性矩陣上,其數值代表是否可對齊的相似度閾值。提示桶可無縫融入最優傳輸 Sinkhorn 求解中。
通過最優傳輸來度量序列距離,而非直接對長視頻進行建模,可顯著減少計算量。最終視頻 - 段落損失函數如下,其中表示第
個長視頻與第
個文本段落間的相似性矩陣。
2)片段 - 標題對比。該損失確保視頻 - 段落對比中片段與標題對齊的準確性。由于自監督對比學習會將語義相似的樣本錯誤地作為負樣本優化,我們利用最優傳輸識別并矯正潛在的假陰性樣本:
其中代表訓練批次中的所有視頻片段和標題個數,單位矩陣
代表對比學習交叉熵損失中的標準對齊目標,
代表融入最優傳輸矯正目標后的重對齊目標,?
為權重系數。
03 實驗
本文旨在克服噪聲關聯以提升模型對長視頻的理解能力。我們通過視頻檢索、問答、動作分割等具體任務進行驗證,部分實驗結果如下。
1)長視頻檢索
該任務目標為給定文本段落,檢索對應的長視頻。在 YouCookII 數據集上,依據是否保留文本無關的視頻片段,研究者測試了背景保留與背景移除兩種場景。他們采用 Caption Average、DTW 與 OTAM 三種相似性度量準則。
Caption Average 為文本段落中每個標題匹配一個最優視頻片段,最終召回匹配數最多的長視頻。DTW 和 OTAM 按時間順序累計視頻與文本段落間距離。結果如下表 1、2 所示。
▲ 表1、2在YouCookII數據集上的長視頻檢索性能比較
2)噪聲關聯魯棒性分析
牛津 Visual Geometry Group 對 HowTo100M 中的視頻進行了手工重標注,對每個文本標題重新標注正確的時間戳。產出的 HTM-Align 數據集 [5] 包含 80 個視頻與 49K 條文本。在該數據集上進行視頻檢索主要驗證模型是否過度擬合了噪聲關聯,結果如下表 9 所示。
▲ 表9. 在HTM-Align數據集上針對噪聲關聯的有效性分析
04 總結與展望
本文是噪聲關聯學習 [3][4]—— 數據錯配 / 錯誤關聯的深入延續,研究多模態視頻 - 文本預訓練面臨的多粒度噪聲關聯問題,所提出的長視頻學習方法能夠以較低資源開銷擴展到更廣泛的視頻數據中。
展望未來,研究者可進一步探討多種模態間的關聯問題,例如視頻往往包含視覺、文本及音頻信號;可嘗試結合外部大語言模型(LLM)或多模態模型(BLIP-2)來清洗和重組織文本語料;以及探索將噪聲作為模型訓練正激勵的可能性,而非僅僅抑制噪聲的負面影響。
本文轉自 PaperWeekly ,作者:林義杰
