成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人大高瓴人工智能學院讓AI學會了聽音樂,還開源9288個視頻數據集

人工智能 開源
中國人民大學高瓴人工智能學院 GeWu 實驗室提出了一種動態(tài)視音場景下的空間 - 時序問答模型,讓 AI 能像人一樣觀看和聆聽樂器演奏,并對給定的視音問題做出跨模態(tài)時空推理。論文已被 CVPR2022 接收并選為 Oral Presentation。

你知道 AI 可以自己欣賞音樂會嗎?而且 AI 可以知道演奏場景中每一個樂器的演奏狀態(tài),這是不是很神奇?對人類而言,欣賞美妙的音樂會是一件很享受的事情,但對于機器來說,如何將優(yōu)美的旋律和激昂的演奏畫面珠聯璧合來提升欣賞體驗卻頗有挑戰(zhàn)。

最近,中國人民大學高瓴人工智能學院 GeWu 實驗室就針對這一問題提出了一種新的框架,讓 AI 能像人一樣觀看和聆聽樂器演奏,并對給定的視音問題做出跨模態(tài)時空推理。

目前這一成果已被 CVPR2022 接收并選為 Oral Presentation,相關數據集和代碼已經開源。

  • 論文地址:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
  • 項目地址:https://gewu-lab.github.io/MUSIC-AVQA/

接下來讓我們一起來看一下這個有趣的工作!

1. 引言

我們在日常生活中被視覺和聲音信息所包圍,這兩種信息的結合利用提高了我們對場景的感知和理解能力。想象一下,當我們身處在一場音樂會中時,同時觀看樂器演奏動作和聆聽音樂的旋律可以很好地幫我們享受演出。受此啟發(fā),如何讓機器整合多模態(tài)信息,尤其是視覺和聲音等自然模態(tài),以達到與人類相當的場景感知和理解能力,是一個有趣且有價值的課題。因此,該研究專注于視聽問答(Audio-Visual Question Answering, AVQA)任務,旨在回答有關不同視覺對象、聲音及其在視頻中的關聯的問題。顯然,必須對視聽場景進行全面的多模態(tài)理解和時空推理才能做出正確的回答。

近年來,研究人員在聲音對象感知、音頻場景分析、視聽場景解析和內容描述等方面取得了顯著進展。盡管這些方法能將視覺對象與聲音關聯,但它們中的大多數在復雜視聽場景下的跨模態(tài)推理能力仍然有限。相比之下,人類可以充分利用多模態(tài)場景中的上下文內容和時間信息來解決復雜的場景推理任務,如視聽問答任務等。現有的視覺問答(VQA)和聲音問答(AQA)方法等往往只關注單一模態(tài),從而不能很好的在真實的視音場景中進行復雜的推理任務。

如下圖所示的單簧管雙重奏場景,當回答 “哪個單簧管先發(fā)聲?” 的問題時,需要在視聽場景中先定位出發(fā)聲的單簧管,并在時序維度上重點聚焦于哪個單簧管先發(fā)出聲音。要正確回答這個問題,本質上需要有效地對視聽場景理解和時空推理。

圖 1 AVQA 任務問題樣例展示

對于上面這個例子,若我們僅考慮基于視覺模態(tài)的 VQA 模型則很難對問題中涉及的聲音信息進行處理,相反,若我們只考慮基于聲音模態(tài)的 AQA 模型,同樣難以對問題中涉及的空間位置信息進行處理。但是,我們可以看到同時使用聽覺和視覺信息可以很容易的對場景進行理解并正確的回答上述問題。

2. 數據集

為了更好的探索視聽場景理解和時空推理的問題,該研究構建了一個專注于問答任務的大規(guī)模的視聽數據集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我們知道高質量的數據集對于視音問答任務的研究具有相當大的價值,因此,考慮到樂器演奏是一個典型的視音多模態(tài)場景,并由豐富的視聽成分及其交互組成,非常適合用于探索視聽場景理解和推理任務。因此該研究從 YouTube 上收集了大量用戶上傳的樂器演奏視頻,構建數據集中的視頻包括了獨奏、重奏的合奏等多種演奏形式。具體來說,該研究一共選取了 22 種不同的樂器(如吉他、鋼琴、二胡、嗩吶等),設計了九種問題模板并涵蓋了聲音、視覺和視音三種不同的模態(tài)場景類型。

表 1 MUCIS-AVQA 數據集與其他 QA 數據集多維對比

如表 1 所示,該研究發(fā)布的 MUSIC-AVQA 數據集具有以下優(yōu)勢:1)MUSIC-AVQA 數據集涵蓋大量的聲音問題、視覺問題和視聽問題的問答對,比其他問答類數據集更全面豐富。對于大多數問答任務數據集(ActivityNet-QA, TVQA 等)來說,僅包含了視覺問題,難以探索視聽相關的研究。雖然現有的 AVQA 數據集(AVSD, Pano-AVQA 等)也提供了視聽問答對,但它們更專注于相對簡單的問題(Existential 或 Location),只需要空間推理即可做出回答。2)MUSIC-AVQA 數據集由包含豐富視聽成分的樂器演奏場景組成,有助于更好地研究視聽交互場景理解和推理,并可以在一定程度上避免場景中的噪聲問題。大多數公開問答類數據集(ActivityNet-QA, AVSD 等)中的聲音信息通常與其視覺對象不匹配,會產生嚴重的噪聲(如背景音樂),這使得它們難以探索不同模態(tài)之間的關聯。此外,TVQA 數據集雖然包含視覺和聲音模態(tài),但其聲音是由人類說話聲組成的,在其問答對構建過程中也只使用了相應的字幕信息,并不是真正的視音關聯場景。

最終數據集包含了 9,288 個視頻并包含了 22 種樂器,其總時長超過 150 小時。并且以眾包的形式形成了 45,867 個問答對,平均每個視頻約 5 個問答對,這些問答對涵蓋了不同模態(tài)下的 9 類問題類型以及 33 個不同的問題模板。豐富而多樣復雜的數據集對 AVQA 任務的研究具有相當大的價值和意義。

圖 2 MUSIC-AVQA 數據集多維統計分析

3. 模型方法

為了解決上述 AVQA 任務,該研究分別從空間和時序感知的角度出發(fā),提出了一種動態(tài)視音場景下的空間 - 時序問答模型(如下圖所示)。

  • 首先,聲音及其視覺源的位置反映了視聽模態(tài)之間的空間關聯,這有助于將復雜的場景分解為具體的視聽關聯。因此該研究提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態(tài)的關聯。
  • 其次,由于視聽場景隨時間動態(tài)變化,因此捕捉和突出與問題密切相關的關鍵時間戳至關重要。因此,該研究提出了使用問題特征作為查詢的時間基礎模塊來聚焦關鍵時間片段,以有效地編碼問題感知音頻和視覺的嵌入。
  • 最后,融合上述空間感知和時間感知的視聽特征,得到問答的聯合表示,以預測視頻關聯問題的答案。

圖 3 動態(tài)視音場景的空間 - 時序問答模型

4. 實驗結果

如表 2 所示,引入 Audio 和 Visual 模態(tài)信息都有助于模型性能的提升。此外,能明顯看到當結合聲音和視覺模態(tài)時,AV+Q 模型的性能比 A+Q 和 V+Q 模型要好得多,這表明多感官感知有助于提升問答任務的性能。我們也能看到視音空間關聯模塊和時序關聯模塊都能夠很明顯的提升模型的性能,從而更好地對場景進行理解。

表 2 不同模態(tài)消融實驗表

表 3 展示了一些最近的 QA 方法在 MUSIC-AVQA 數據集上的結果。結果首先表明所有的 AVQA 方法都要好于 VQA、AQA 和 VideoQA 方法,這說明多模態(tài)感知可以有益于 AVQA 任務。其次該研究所用方法在大多數視聽問題上取得了相當大的進步,尤其是對于需要空間和時序推理的視聽問題更為明顯(如 Temporal 和 Localization 等)。

表 3 與其他 QA 類方法對比

為了進一步說明所提模型的有效性和可解釋性,該研究進行了一些可視化展示。其中熱力圖表示聲源的位置,熱力圖下方的表格表示時序上的注意力分數。從可視化結果可以明顯看出所提的模型在多模態(tài)視聽場景中具有很好的理解和推理能力。

圖 4 可視化結果

5. 總述

總體來說,本文探索了如何回答有關不同視覺對象、聲音及其在視頻中的關聯的問題,從而對動態(tài)復雜的視音場景進行細粒度理解和推理。作者團隊構建了一個包含 45,867 個不同視聽模態(tài)和多種問題類型問答對的大規(guī)模 MUSIC-AVQA 數據集,以及提出了一個簡單高效的視音時序 - 空間模型來很好的解決 AVQA 問題。該研究相信提出的 MUSIC-AVQA 數據集可以成為評估視聽場景細粒度理解和時空推理的基準平臺,同時也認為這項工作是探索視聽推理的開篇之作,為該領域開創(chuàng)了一個良好的開端,并借此希望能夠激勵更多的研究者同我們一道去探索這一領域。

團隊主要來自人大 AI 學院

本項研究由中國人民大學高瓴人工智能學院主導,與美國羅徹斯特大學合作完成,通訊作者為 GeWu 實驗室胡迪助理教授,主要內容由 GeWu 實驗室博士生李光耀負責。

GeWu 實驗室目前具體的研究方向主要包括多模態(tài)場景理解、多模態(tài)學習機制和跨模態(tài)交互與生成等,最近半年實驗室同學已發(fā)表多篇高質量文章,如 TPAMI(人工智能領域影響因子最高的期刊,IF=17.861)和多篇 CVPR(均為 Oral)。

PS:研究人員發(fā)現常用的多模態(tài)模型存在欠優(yōu)化的單模態(tài)表征,這是由某些場景中另一種主導模態(tài)導致的。為此他們設計了 OGM-GE 方法,通過監(jiān)控不同模態(tài)對學習目標的貢獻差異來自適應地調制每種模態(tài)的優(yōu)化,從而緩解了這種優(yōu)化上的不平衡。這篇工作也被 CVPR2022 接收為 Oral Presentation,具體內容將在后續(xù)發(fā)布中解說。

此外,GeWu 實驗室非常歡迎對上述研究方向感興趣的同學加入(本、碩、博和訪問學生),詳情請進一步查看實驗室招生宣傳 (https://zhuanlan.zhihu.com/p/496452639)。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-16 16:19:12

模型神經網絡

2021-11-18 10:17:25

AI數據人工智能

2022-05-17 09:33:52

FreeDOS聽音樂Linux

2020-03-09 10:00:35

人工智能機器學習技術

2022-07-26 10:13:11

LinuxGNOMERhythmbox

2014-07-21 13:04:34

代碼

2025-02-18 13:00:00

2020-06-29 16:42:41

人工智能

2020-08-03 09:12:12

人工智能技術機器人

2025-05-13 15:13:28

AI模型訓練

2020-07-09 07:39:59

人工智能

2022-03-30 14:30:34

人工智能機器學習模型

2021-09-22 09:09:38

谷歌AI音樂

2025-05-30 09:00:00

AI生成視頻

2022-09-08 09:23:36

人工智能AI

2022-09-07 11:34:49

人工智能智能建筑

2022-02-17 10:07:20

人工智能數據技術

2021-07-18 22:43:39

數據安全人工智能網絡安全

2018-08-17 15:17:56

人工智能層次極端

2024-09-12 14:15:00

智能體AI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩福利| 欧美专区在线视频 | 久久99精品久久久久久国产越南 | 久久99精品久久久久 | 高清人人天天夜夜曰狠狠狠狠 | 国产精品久久久久久久久久久久午夜片 | 久久久区 | 中文二区 | 少妇精品亚洲一区二区成人 | 一区二区在线 | 欧美精品一区二区三区四区五区 | 中文一区二区 | 视频一区二区在线观看 | 国产精品久久久久久久久免费相片 | 国产精品成人一区二区 | 91毛片在线观看 | 天天夜干| 欧美国产精品一区二区三区 | 精品福利一区二区三区 | eeuss国产一区二区三区四区 | 久久综合激情 | 96av麻豆蜜桃一区二区 | 欧美色综合一区二区三区 | 亚洲成人日韩 | 日韩欧美一区二区三区免费观看 | 亚洲视频免费播放 | 天天躁日日躁狠狠的躁天龙影院 | 亚洲综合色视频在线观看 | 久久精品毛片 | 中文字幕在线观看 | 日韩免费成人av | 国产精品久久久久久久久久免费看 | 国产精品久久久久免费 | 天天综合成人网 | 国产精品日韩一区二区 | 91精品国产综合久久久久久漫画 | 久久久欧洲 | 在线观看成人免费视频 | 黄色一级大片在线免费看产 | 精品1区2区3区4区 | 麻豆一区二区三区 |