讓機(jī)器像人一樣聽音樂，F(xiàn)acebook開源Demucs項(xiàng)目

作者：張路 2020-03-09 10:00:35

Facebook AI 的研究人員已經(jīng)開發(fā)了一個(gè)系統(tǒng)，可以做到這一點(diǎn)——精確度高得驚人。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

音樂源分離，是利用技術(shù)將一首歌曲分解成它的組成成分，如人聲、低音和鼓。這和人類大腦的工作很類似，大腦可以將一個(gè)單獨(dú)的對話，從周圍的噪音和一屋子的人聊天中分離出來。

如果你擁有原始的錄音室多軌錄音，這很容易實(shí)現(xiàn)，你只需調(diào)整混音來分離一個(gè)音軌。但是，如果你從一個(gè)普通MP3音頻文件開始，所有的樂器和聲音都被混合到一個(gè)立體聲錄音中，即使是最復(fù)雜的軟件程序也很難精確地挑出一個(gè)部分。

Facebook AI 的研究人員已經(jīng)開發(fā)了一個(gè)系統(tǒng)，可以做到這一點(diǎn)——精確度高得驚人。

創(chuàng)建者名叫亞歷山大·笛福茲（Alexandre Defossez），是Facebook人工智能巴黎實(shí)驗(yàn)室的科學(xué)家。笛福茲的系統(tǒng)被稱為Demucs，這個(gè)名字來源于“音樂資源深度提取器”，其工作原理是檢測聲波中的復(fù)雜模式，對每種樂器或聲音的波形模式建立一個(gè)高層次的理解，然后利用人工智能將它們巧妙地分離開來。

笛福茲說，像Demucs這樣的技術(shù)，不僅能幫助音樂家學(xué)習(xí)復(fù)雜的吉他即興重復(fù)段落；總有一天，它還能讓人工智能助手在嘈雜的房間里更容易聽到語音指令。

笛福茲說他的目標(biāo)是讓人工智能系統(tǒng)擅長識(shí)別音頻源的組成部分，就像它們現(xiàn)在可以在一張照片中準(zhǔn)確地區(qū)分不同的物體一樣。“我們在音頻方面還沒有達(dá)到同樣的水平，”他說。

分解聲波的更好方法

聲源分離長期以來一直吸引著科學(xué)家。1953年，英國認(rèn)知科學(xué)家科林·切里（Colin Cherry）創(chuàng)造了“雞尾酒會(huì)效應(yīng)”這個(gè)詞語，用來描述人類在擁擠嘈雜的房間里專注于一次談話的能力。

工程師們首先試圖通過調(diào)整立體聲錄音中的左右聲道，或調(diào)整均衡器設(shè)置來提高或降低某些頻率，從而隔離歌曲的人聲或吉他聲。

基于聲譜圖的人工智能系統(tǒng)，在分離出以單一頻率響起或共振的樂器的音符方面相對有效，例如鋼琴或小提琴旋律。

這些旋律在聲譜圖上顯示為清晰、連續(xù)的水平線。但是隔離那些產(chǎn)生殘余噪音的撞擊聲，比如鼓，低音拍擊，是一項(xiàng)非常艱巨的任務(wù)。鼓點(diǎn)感覺像一個(gè)單一的、實(shí)時(shí)的整體事件，但它實(shí)際上包含了不同的部分。對于鼓來說，它包括覆蓋較高頻率范圍的初始撞擊，隨后是在較低頻率范圍內(nèi)的無音高衰減。笛福茲說，一般的小鼓“就頻率而言，到處都是”。

聲譜圖只能將聲波表現(xiàn)為時(shí)間和頻率的組合，無法捕捉到這樣的細(xì)微差別。因此，他們將鼓點(diǎn)或拍子低音處理成幾條不連續(xù)的垂直線，而不是一個(gè)整齊、無縫的聲音。這就是為什么通過聲譜圖分離出來的鼓和低音軌道，聽起來常常是模糊不清的。

足夠聰明的系統(tǒng)來重建缺失

基于人工智能的波形模型避免了這些問題，因?yàn)樗鼈儾辉噲D將一首歌放到時(shí)間和頻率的僵化結(jié)構(gòu)中。笛福茲解釋說，波形模型的工作方式與計(jì)算機(jī)視覺相似，計(jì)算機(jī)視覺是人工智能的研究領(lǐng)域，旨在讓計(jì)算機(jī)學(xué)會(huì)從數(shù)字圖像中識(shí)別模式，從而獲得對視覺世界的高級(jí)理解。

計(jì)算機(jī)視覺使用神經(jīng)網(wǎng)絡(luò)來檢測基本模式——類似于在圖像中發(fā)現(xiàn)角落和邊緣——然后推斷更高級(jí)或更復(fù)雜的模式。“波形模型的工作方式非常相似，”笛福茲說。他解釋了波形模型如何需要幾秒鐘來適應(yīng)歌曲中的突出頻率——人聲、低音、鼓或吉他——并為每一個(gè)元素生成單獨(dú)的波形。然后，它開始推斷更高比例的結(jié)構(gòu)，以增加細(xì)微差別，并精細(xì)雕刻每個(gè)波形。

笛福茲說，他的系統(tǒng)也可以比作探測和記錄地震的地震儀。地震時(shí)，地動(dòng)儀的底座會(huì)移動(dòng)，但懸掛在上面的重物不會(huì)移動(dòng)，這使得附著在重物上的筆可以畫出記錄地面運(yùn)動(dòng)的波形。人工智能模型可以探測到同時(shí)發(fā)生的幾個(gè)不同的地震，然后推斷出每個(gè)地震的震級(jí)和強(qiáng)度的細(xì)節(jié)。同樣，笛福茲的系統(tǒng)分析并分離出一首歌曲的本來面目，而不是根據(jù)預(yù)先設(shè)定的聲譜圖結(jié)構(gòu)來分割它。

笛福茲解釋說，構(gòu)建這個(gè)系統(tǒng)需要克服一系列復(fù)雜的技術(shù)挑戰(zhàn)。

他首先使用了Wave-U-Net（https://github.com/f90/Wave-U-Net）的底層架構(gòu)，這是一個(gè)為音樂源分離開發(fā)的早期人工智能波形模型。但是他有很多工作要做，因?yàn)槁曌V圖模型的表現(xiàn)優(yōu)于Wave-U-Net。他通過添加線性單元來微調(diào)波形網(wǎng)絡(luò)中分析模式的算法參數(shù)。笛福茲還增加了長短期記憶，這種結(jié)構(gòu)允許網(wǎng)絡(luò)處理整個(gè)數(shù)據(jù)序列，如一段音樂或一段視頻，而不僅僅是一個(gè)數(shù)據(jù)點(diǎn)，如圖像。笛福茲還提高了Wave-U-Net的速度和內(nèi)存使用率。

這些修改幫助Demucs在一些重要方面勝過Wave-U-Net，比如它如何處理一種聲音壓倒另一種聲音的問題。“你可以想象一架飛機(jī)起飛，引擎噪音會(huì)淹沒一個(gè)人的聲音，”笛福茲說。

以前的波形模型，通過簡單地移除原始音頻源文件的一部分來處理這個(gè)問題，但是它們不能重建丟失材料的重要部分。笛福茲增強(qiáng)了Demucs解碼器的能力，“Demucs可以重新創(chuàng)建它認(rèn)為存在但卻迷失在混音中的音頻。” 這意味著他的模型可以重新合成可能被響亮的鐃鈸聲丟失的柔和的鋼琴音符，因?yàn)樗斫鈶?yīng)該呈現(xiàn)什么樣的聲音。

這種重構(gòu)和分離的能力使Demucs比其他波形模型有優(yōu)勢。笛福茲說，Demucs已經(jīng)與最好的波形技術(shù)相匹配，并且“遠(yuǎn)遠(yuǎn)超出”最先進(jìn)的聲譜技術(shù)。

在盲聽測試中，38名參與者從50首測試曲目中隨機(jī)抽取8秒鐘進(jìn)行聽音，這50首曲目由三個(gè)模型分開：Demucs、領(lǐng)先波形、頻譜圖技術(shù)。聽眾認(rèn)為Demucs在質(zhì)量和無偽影（如背景噪音或失真）方面表現(xiàn)最佳。

Demucs已經(jīng)引起了人工智能愛好者的興趣，精通技術(shù)的讀者可以從GitHub下載Demucs的代碼（https://github.com/facebookresearch/demucs）。代碼用MusDB數(shù)據(jù)集來分離音樂源。

笛福茲解釋說，隨著Demucs的發(fā)展，它將為人們在家中創(chuàng)作音樂的數(shù)字音頻工作站帶來聲音的真實(shí)性。這些工作站提供了能夠喚起特定時(shí)代或風(fēng)格的合成儀器，通常需要對原始硬件進(jìn)行大量的數(shù)字化改造。

想象一下，如果音樂源分離技術(shù)能夠完美地捕捉20世紀(jì)50年代搖滾歌曲中用電子管放大器演奏的老式空心體電吉他的聲音。Demucs讓音樂愛好者和音樂家離這一能力更近了一步。

via：https://tech.fb.com/one-track-minds-using-ai-for-music-source-separation/

責(zé)任編輯：張燕妮來源：雷鋒網(wǎng)