成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI

新聞 人工智能
最近,麻省理工(MIT)聯合沃森人工智能實驗室(MIT-IBM Watson AI Lab)共同開發出了一款AI模型Foley Music,它可以根據演奏手勢完美還原樂曲原聲!

 本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

會玩樂器的人在生活中簡直自帶光環!

不過,學會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環。

但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?

最近,麻省理工(MIT)聯合沃森人工智能實驗室(MIT-IBM Watson AI Lab)共同開發出了一款AI模型Foley Music,它可以根據演奏手勢完美還原樂曲原聲!

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

而且還是不分樂器的那種,小提琴、鋼琴、尤克里里、吉他,統統都可以。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

只要拿起樂器,就是一場專業演奏會!如果喜歡不同音調,還可以對音樂風格進行編輯,A調、F調、G調均可。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

這項名為《Foley Music:Learning to Generate Music from Videos》的技術論文已被ECCV 2020收錄。

接下來,我們看看AI模型是如何還原音樂的?

會玩多種樂器的Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏視頻,AI會自動鎖定目標對象的身體關鍵點(Body Keypoints),以及演奏的樂器和聲音。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

身體關鍵點:由AI系統中的視覺感知模塊(Visual Perception Model)來完成。它會通過身體姿勢和手勢的兩項指標來反饋。一般身體會提取25個關2D點,手指提起21個2D點。

樂器聲音提取:采用音頻表征模塊(Audio Representation Model),該模塊研究人員提出了一種樂器數字化接口(Musical Instrument Digital Interface,簡稱MIDI)的音頻表征形式。它是Foley Music區別于其他模型的關鍵。

研究人員介紹,對于一個6秒中的演奏視頻,通常會生成大約500個MIDI事件,這些MIDI事件可以輕松導入到標準音樂合成器以生成音樂波形。

在完成信息提取和處理后,接下來,視-聽模塊(Visual-Audio Model)將整合所有信息并轉化,生成最終相匹配的音樂。

我們先來看一下它完整架構圖:主要由視覺編碼,MIDI解碼和MIDI波形圖輸出三個部分構成。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

視覺編碼:將視覺信息進行編碼化處理,并傳遞給轉換器MIDI解碼器。從視頻幀中提取關鍵坐標點,使用GCN(Graph-CNN)捕獲人體動態隨時間變化產生的潛在表示。

MIDI解碼器:通過Graph-Transfomers完成人體姿態特征和MIDI事件之間的相關性進行建模。Transfomers是基于編解碼器的自回歸生成模型,主要用于機器翻譯。在這里,它可以根據人體特征準確的預測MIDI事件的序列。

MIDI輸出:使用標準音頻合成器將MIDI事件轉換為最終的波形。

實驗結果

研究人員證實Foley Music遠優于現有其他模型。在對比試驗中,他們采用了三種數據集對Foley Music進行了訓練,并選擇了9中樂器,與其它GAN-based、SampleRNN和WaveNet三種模型進行了對比評估。

其中,數據集分別為AtinPiano、MUSIC及URMP,涵蓋了超過11個類別的大約1000個高質量的音樂演奏視頻。樂器則為風琴,貝斯,巴松管,大提琴,吉他,鋼琴,大號,夏威夷四弦琴和小提琴,其視頻長度均為6秒。以下為定量評估結果:

可見,Foley Music模型在貝斯(Bass)樂器演奏的預測性能最高達到了72%,而其他模型最高僅為8%。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

另外,從以下四個指標來看,結果更為突出:

正確性:生成的歌曲與視頻內容之間的相關性。

噪音:音樂噪音最小。

同步性:歌曲在時間上與視頻內容最一致。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

黃色為Foley Music模型,它在各項指標上的性能表現遠遠超過了其他模型,在正確性、噪音和同步性三項指標上最高均超過了0.6,其他最高不足0.4,且9種樂器均是如此。

另外,研究人員還發現,與其他基準系統相比,MIDI事件有助于改善聲音質量,語義對齊和時間同步。

說明

  • GAN模型:它以人體特征為輸入,通過鑒別其判定其姿態特征所產生的頻譜圖是真或是假,經過反復訓練后,通過傅立葉逆變換將頻譜圖轉換為音頻波形。

  • SampleRNN:是無條件的端到端的神經音頻生成模型,它相較于WaveNet結構更簡單,在樣本級層面生成語音要更快。

  • WaveNet:是谷歌Deepmind推出一款語音生成模型,在text-to-speech和語音生成方面表現很好。

另外,該模型的優勢還在于它的可擴展性。MIDI表示是完全可解釋和透明的,因此可以對預測的MIDI序列進行編輯,以生成A\G\F調不同風格音樂。 如果使用波形或者頻譜圖作為音頻表示形式的模型,這個功能是不可實現的。

只看手勢動作,就能完美復現音樂,MIT聯合沃森實驗室團隊推出最新AI,多種高難度樂器信手拈來!

最后研究人員在論文中表明,此項研究通過人體關鍵點和MIDI表示很好地建立視覺和音樂信號之間的相關性,實現了音樂風格的可拓展性。為當前研究視頻和音樂聯系拓展出了一種更好的研究路徑。

以下為Youtobe視頻,一起來感受下AI音樂!

https://www.youtube.com/watch?v=bo5UzyDB80E

 

 

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2013-04-10 10:05:15

沃森Watson客戶體驗

2015-02-06 09:23:52

賽可達實驗室網絡安全

2019-07-24 15:31:39

AI 數據人工智能

2011-07-15 10:10:16

思科虛擬實驗室

2010-02-03 23:57:48

2010-07-30 09:54:47

中國首家云計算聯合實驗室

2011-08-29 10:40:02

浪潮英特爾并行計算

2021-08-04 09:48:05

數字化

2018-02-07 16:49:20

浦發銀行

2013-09-25 16:32:28

聯想VMware實驗室

2012-09-28 16:25:50

COSUGOpenStackCOSCL

2017-12-07 21:05:23

高德交通實驗室

2018-05-30 13:56:58

人工智能WatsonIBM

2025-06-11 09:19:46

2015-10-19 10:27:28

2012-08-04 08:16:39

戴爾

2011-05-25 17:51:40

2017-02-15 15:34:42

RSA IBM安全

2019-07-30 16:52:29

2017-10-12 15:51:14

AI人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 婷婷丁香在线视频 | 国产成人综合在线 | 欧美另类视频在线 | 亚洲电影免费 | 超碰av免费 | 四虎成人免费视频 | 美女艹b | 精品日本久久久久久久久久 | 99热热99| 久久久国产一区 | 亚洲精品国产一区 | 亚洲综合天堂网 | 午夜精品久久久久久久久久久久久 | 在线亚洲一区二区 | 狠狠操你 | 亚洲精品日韩在线观看 | 亚洲精品888 | 精品欧美一区二区三区久久久 | 午夜亚洲 | 精品自拍视频在线观看 | 亚洲欧洲一区 | 国产一级片一区二区 | 精品1区 | 欧美日日 | 久久综合久久久 | 中文在线一区二区 | 国产黄色在线观看 | 国产免费一二三区 | 精品国产鲁一鲁一区二区张丽 | 国产亚洲精品久久久久动 | 日本高清aⅴ毛片免费 | 国产成人高清 | 色妹子综合网 | 五月婷婷导航 | 国产一级毛片精品完整视频版 | 蜜月va乱码一区二区三区 | 一级毛片视频在线观看 | 国内自拍偷拍 | 久久久久久蜜桃一区二区 | 成人免费淫片aa视频免费 | 极情综合网 |