成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一句話精準視頻片段定位!清華新方法拿下SOTA|已開源

人工智能 新聞
ADPN的特點在于能夠高效利用視頻中視覺和音頻模態的一致性與互補性來增強視頻片段定位性能。

只需一句話描述,就能在一大段視頻中定位到對應片段!

比如描述“一個人一邊下樓梯一邊喝水”,通過視頻畫面和腳步聲的匹配,新方法一下子就能揪出對應起止時間戳:

圖片

就連“大笑”這種語義難理解型的,也能準確定位:

方法名為自適應雙分支促進網絡(ADPN),由清華大學研究團隊提出。

具體來說,ADPN是用來完成一個叫做視頻片段定位(Temporal Sentence Grounding,TSG)的視覺-語言跨模態任務,也就是根據查詢文本從視頻中定位到相關片段。

ADPN的特點在于能夠高效利用視頻中視覺和音頻模態的一致性互補性來增強視頻片段定位性能。

相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態獲取了更顯著地性能提升,多項測試拿下新SOTA。

目前該工作已經被ACM Multimedia 2023接收,且已完全開源。

一起來看看ADPN究竟是個啥~

一句話定位視頻片段

視頻片段定位(Temporal Sentence Grounding,TSG)是一項重要的視覺-語言跨模態任務。

它的目的是根據自然語言查詢,在一個未剪輯的視頻中找到與之語義匹配的片段的起止時間戳,它要求方法具備較強的時序跨模態推理能力。

然而,大多數現有的TSG方法只考慮了視頻中的視覺信息,如RGB、光流(optical flows)、深度(depth)等,而忽略了視頻中天然伴隨的音頻信息。

音頻信息往往包含豐富的語義,并且與視覺信息存在一致性和互補性,如下圖所示,這些性質會有助于TSG任務。

圖片
△圖1

(a)一致性:視頻畫面和腳步聲一致地匹配了查詢中的“走下樓梯”的語義;(b)互補性:視頻畫面難以識別出特定行為來定位查詢中的“笑”的語義,但是笑聲的出現提供了強有力的互補定位線索。

因此研究人員深入研究了音頻增強的視頻片段定位任務(Audio-enhanced Temporal Sentence Grounding,ATSG),旨在更優地從視覺與音頻兩種模態中捕獲定位線索,然而音頻模態的引入也帶來了如下挑戰:

  • 音頻和視覺模態的一致性和互補性是與查詢文本相關聯的,因此捕獲視聽一致性與互補性需要建模文本-視覺-音頻三模態的交互。
  • 音頻和視覺間存在顯著的模態差異,兩者的信息密度和噪聲強度不同,這會影響視聽學習的性能。

為了解決上述挑戰,研究人員提出了一種新穎的ATSG方法“自適應雙分支促進網絡(Adaptive Dual-branch Prompted Network,ADPN)

通過一種雙分支的模型結構設計,該方法能夠自適應地建模音頻和視覺之間的一致性和互補性,并利用一種基于課程學習的去噪優化策略進一步消除音頻模態噪聲的干擾,揭示了音頻信號對于視頻檢索的重要性。

ADPN的總體結構如下圖所示:

圖片

△圖2:自適應雙分支促進網絡(ADPN)總體示意圖

它主要包含三個設計:

1、雙分支網絡結構設計

考慮到音頻的噪聲更加明顯,且對于TSG任務而言,音頻通常存在更多冗余信息,因此音頻和視覺模態的學習過程需要賦予不同的重要性,因此本文涉及了一個雙分支的網絡結構,在利用音頻和視覺進行多模態學習的同時,對視覺信息進行強化。

具體地,參見圖2(a),ADPN同時訓練一個只使用視覺信息的分支(視覺分支)和一個同時使用視覺信息和音頻信息的分支(聯合分支)

兩個分支擁有相似的結構,其中聯合分支增加了一個文本引導的線索挖掘單元(TGCM)建模文本-視覺-音頻模態交互。訓練過程兩個分支同時更新參數,推理階段使用聯合分支的結果作為模型預測結果。

2、文本引導的線索挖掘單元(Text-Guided Clues Miner,TGCM)

考慮到音頻與視覺模態的一致性與互補性是以給定的文本查詢作為條件的,因此研究人員設計了TGCM單元建模文本-視覺-音頻三模態間的交互。

參考圖2(b),TGCM分為”提取“和”傳播“兩個步驟。

首先以文本作為查詢條件,從視覺和音頻兩種模態中提取關聯的信息并集成;然后再以視覺與音頻各自模態作為查詢條件,將集成的信息通過注意力傳播到視覺與音頻各自的模態,最終再通過FFN進行特征融合。

3、課程學習優化策略

研究人員觀察到音頻中含有噪聲,這會影響多模態學習的效果,于是他們將噪聲的強度作為樣本難度的參考,引入課程學習(Curriculum Learning,CL)對優化過程進行去噪,參考圖2(c)。

他們根據兩個分支的預測輸出差異來評估樣本的難度,認為過于難的樣本大概率表示其音頻含有過多的噪聲而不適于TSG任務,于是根據樣本難度的評估分數對訓練過程的損失函數項進行重加權,旨在丟棄音頻的噪聲引起的不良梯度。

(其余的模型結構與訓練細節請參考原文。)

多項測試新SOTA

研究人員在TSG任務的benchmark數據集Charades-STA和ActivityNet Captions上進行實驗評估,與baseline方法的比較如表1所示。

ADPN方法能夠取得SOTA性能;特別地,相較其他利用音頻的TSG工作PMI-LOC、UMT,ADPN方法從音頻模態獲取了更顯著地性能提升,說明了ADPN方法利用音頻模態促進TSG的優越性。

圖片

△表1:Charades-STA與ActivityNet Captions上實驗結果

研究人員進一步通過消融實驗展示了ADPN中不同的設計單元的有效性,如表2所示。

圖片

△表2:Charades-STA上消融實驗

研究人員選取了一些樣本的預測結果進行了可視化,并且繪制了TGCM中”提取“步驟中的”文本 to 視覺“(T→V)和”文本 to 音頻“(T→A)注意力權重分布,如圖3所示。

可以觀察到音頻模態的引入改善了預測結果。從“Person laughs at it”的案例中,可以看到T→A的注意力權重分布更接近Ground Truth,糾正了T→V的權重分布對模型預測的錯誤引導。

圖片

△圖3:案例展示

總的來說,本文研究人員提出了一種新穎的自適應雙分支促進網絡(ADPN)來解決音頻增強的視頻片段定位(ATSG)問題。

他們設計了一個雙分支的模型結構,聯合訓練視覺分支和視聽聯合分支,以解決音頻和視覺模態之間的信息差異。

他們還提出了一種文本引導的線索挖掘單元(TGCM),用文本語義作為指導來建模文本-音頻-視覺交互。

最后,研究人員設計了一種基于課程學習的優化策略來進一步消除音頻噪音,以自感知的方式評估樣本難度作為噪音強度的度量,并自適應地調整優化過程。

他們首先在ATSG中深入研究了音頻的特性,更好地提升了音頻模態對性能的提升作用。

未來,他們希望為ATSG構建更合適的評估基準,以鼓勵在這一領域進行更深入的研究。

論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
倉庫鏈接:https://github.com/hlchen23/ADPN-MM

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-11 09:10:00

2015-08-03 10:21:04

設計模式表達

2020-11-27 09:57:11

Python代碼PyPy

2023-09-05 23:34:52

Kubernetes云原生

2022-09-30 15:35:43

AI視頻

2021-04-06 15:31:48

開源技術 軟件

2010-03-29 11:55:12

無線上網報錯

2023-05-08 15:44:23

3D數字人

2019-09-05 10:13:28

2023-03-20 10:01:57

人工智能模型

2018-01-15 10:45:43

社交網絡互聯網巨頭百度

2014-05-07 10:47:51

移動金融互聯網金融GMIC

2020-12-16 10:43:44

PythonPyPy代碼

2025-01-22 15:17:43

2019-08-15 11:42:56

程序員電腦軟件

2023-09-06 15:23:30

Docker容器K8S

2021-11-29 09:45:32

模型人工智能深度學習

2011-06-03 16:42:47

SEO

2014-12-16 08:58:17

甲骨文Oracle數據庫選件

2023-12-13 21:50:59

騰訊AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久久久91香蕉国产 | 黄色片网站在线观看 | 欧美成人一区二区 | 国产在线视频在线观看 | 嫩草影院网址 | 国产精品免费在线 | 精品视频一区二区三区 | 亚洲欧美在线观看视频 | 2018天天干天天操 | 黄视频在线网站 | 久久r精品 | 亚洲日韩欧美一区二区在线 | 好好的日在线视频 | 91精品国产色综合久久 | 国产大片黄色 | 91丨国产 | 久久人操 | 国产精品一区二区免费 | 亚洲国产成人精品女人久久久 | 日韩中文字幕视频在线观看 | 精品国产99 | 日韩三级一区 | 国产精品一区二区免费 | 国产一区二区三区在线 | 国产精品国产三级国产aⅴ浪潮 | 日韩欧美在线不卡 | 欧美另类视频在线 | 国产精品福利在线 | 武道仙尊动漫在线观看 | 美女视频一区二区三区 | 91久久国产综合久久91精品网站 | 亚洲精品中文在线 | 91亚洲国产亚洲国产 | 国产人免费人成免费视频 | 成人小视频在线免费观看 | 麻豆久久久久久 | 亚洲一区视频在线 | 欧美片网站免费 | 久久精品av麻豆的观看方式 | 黄色一级毛片 | av免费网站在线观看 |