一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法原創

發布于 2024-11-5 08:14

瀏覽

0收藏

本文涵蓋了我最近在ISMIR 2024上發表的論文《聚類和分離：一種用于樂譜雕刻的聲音和譜表預測的GNN方法》的主要內容。

簡介

以MIDI等格式編碼的音樂，即使包含量化音符、拍號或小節信息，通常也缺少可視化的重要元素，例如語音和五線譜信息。這種限制也適用于音樂生成、轉錄或編曲系統的輸出。因此，這種音樂無法輕易轉換成人類音樂家可以解讀和演奏的可讀樂譜。

值得注意的是，語音和五線譜分離只是樂譜雕刻系統可能解決的眾多方面中的兩個——其他方面包括音高拼寫、節奏分組和連音創建等。

在音樂術語中，“聲部（voice）”通常是指一系列不重疊的音符，通常稱為單聲道聲音。然而，在處理復調樂器時，這個定義并不充分。例如，聲部還可以包括和弦，和弦是同時演奏的音符組，被視為一個單元。在這種情況下，我們將這種能夠包含和弦的聲音稱為諧音。

問題

將量化的符號音樂作品（例如MIDI文件）中的音符分離成多個聲部和五線譜是一項重要且不簡單的任務。它是樂譜雕刻（或樂譜排版）這一更大任務的基本組成部分，旨在為人類表演者制作可讀的樂譜。

樂譜是音樂家的重要工具，因為它能夠以緊湊的圖形形式傳達音樂信息。與其他可能更容易為機器定義和處理的音樂表示形式（例如MIDI文件）相比，樂譜的特點是訓練有素的音樂家能夠高效地閱讀它。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

給定一個量化的MIDI，有很多方法可以將其轉換為可讀格式，其中主要包括將音符分離成聲部和五線譜。

請參見以下兩種可能性。它們展示了雕刻系統通常如何工作。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

最大的問題是我們如何使自動轉錄模型更好

動機

為了開發一種更有效的系統來將音符分離為聲部和五線譜，特別是對于復雜的鋼琴音樂，我們需要從不同的角度重新思考這個問題。我們的目標是從量化的MIDI開始提高轉錄音樂的可讀性，這對于制作出好的樂譜和讓音樂家更好地演奏非常重要。

為了獲得良好的樂譜可讀性，兩個元素可能是最重要的：

五線譜的分離，將音符組織在頂部和底部五線譜之間；
以及聲部的分離，在這張圖中用不同顏色的線條突出顯示。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

鋼琴樂譜中的聲音流

如前所述，在鋼琴樂譜中，聲音不是嚴格意義上的單音，而是諧音。這意味著，一個聲音可以包含一個或多個同時演奏的音符。從現在開始，我們稱之為和弦。你可以在上圖底部的標尺中看到一些以紫色突出顯示的和弦示例。

從機器學習的角度來看，我們有兩個任務需要解決：

第一個是五線譜分離，這很簡單，我們只需要為每個音符預測一個二進制標簽，特別是鋼琴樂譜的頂部或底部五線譜。
語音分離任務可能看起來很相似，畢竟，如果我們可以使用多類分類器預測每個語音的語音數量，問題就解決了！

但是，直接預測語音標簽是有問題的。我們需要確定系統可以接受的最大語音數量，但這會在系統靈活性和數據中的類別不平衡之間產生權衡。

例如，如果我們將最大聲音數設置為8，以表示每個五線譜中有4個聲音，就像在音樂符號軟件中通常做的那樣，那么我們可以預期在我們的數據集中標簽8和4的出現次數會非常少。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

帶絕對標簽的語音分離

特別查看此處的樂譜摘錄，語音3、4和8完全缺失。高度不平衡的數據會降低多標簽分類器的性能，如果我們設置較少的語音數量，我們將失去系統靈活性。

方法論

解決這些問題的辦法是能夠將系統在某些聲音上學到的知識翻譯成其他聲音。為此，我們放棄了多類分類器的想法，并將語音預測構建為鏈接預測問題。如果兩個音符在同一聲音中是連續的，我們想將它們聯系起來。這樣做的好處是將一個復雜的問題分解為一組非常簡單的問題。對于每對音符，我們再次預測一個二進制標簽，告訴這兩個音符是否鏈接。這種方法也適用于和弦，正如你在這張圖片的低音中所看到的那樣。

這個過程將創建一個我們稱之為輸出圖的圖。為了找到聲音，我們可以簡單地計算輸出圖的連通分量！

重申一下，我們將語音和譜表分離問題表述為兩個二元預測任務。

對于譜表分離，我們預測每個音符的譜表編號；
而對于分離語音，我們預測每對音符之間的鏈接。
雖然不是絕對必要的，但我們發現添加一項額外任務對系統的性能很有用：
和弦預測，與語音類似，如果每對音符屬于同一和弦，我們會將它們鏈接起來。

讓我們回顧一下到目前為止我們的系統是什么樣子的：我們有三個二元分類器，一個輸入單個音符，兩個輸入成對的音符。我們現在需要的是好的輸入特征，這樣我們的分類器就可以在預測中使用上下文信息。使用深度學習詞匯表，我們需要一個好的音符編碼器！

我們選擇使用圖神經網絡（GNN）作為音符編碼器，因為它通常在符號音樂處理方面表現出色。因此，我們需要從音樂輸入中創建一個圖。

為此，我們確定性地從量化MIDI構建一個新的圖，我們稱之為輸入圖。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

使用GraphMuse等工具可以輕松創建這些輸入圖

現在，把所有內容放在一起，我們的模型看起來像這樣：

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

它從一些量化的MIDI開始，這些MIDI被預處理為一個圖，以創建輸入圖。
輸入圖通過圖神經網絡（GNN）為每個音符創建中間潛在表示。我們對每個音符進行編碼，因此我們稱之為GNN編碼器。
然后，我們將其輸入到一個淺層MLP分類器中，用于我們的三個任務，即語音、譜表和和弦預測。我們也可以將這部分稱為解碼器。
預測后，我們得到一個輸出圖。
到目前為止，這種方法可以看作是一種圖對圖的方法，我們從MIDI構建的輸入圖開始，預測包含語音和和弦鏈接以及譜表標簽的輸出圖。

在最后一步，我們的輸出圖經過后處理程序，以創建一個美觀易讀的樂譜。

后處理的目標是刪除可能導致無效輸出的配置，例如將語音拆分為兩個語音。為了緩解這些問題：

我們根據和弦預測頭對屬于同一和弦的音符進行聚類。
我們通過應用線性分配解決方案來確保每個節點最多有一個傳入和傳出邊。
最后，將信息傳播回原始節點。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

我們系統的后處理程序

我們系統的一個突出特點是，它在音樂分析和樂譜雕刻方面能夠超越其他現有系統。與依賴音樂啟發式的傳統方法（有時可能不可靠）不同，我們的系統通過保持簡單但穩健的方法來避免這些問題。此外，由于內存和計算要求低，我們的系統能夠計算出整個片段的全局解，而無需進行分割。此外，它能夠處理無限數量的聲音，使其成為復雜音樂作品中更靈活、更強大的工具。這些優點突出了該系統的穩健設計及其以更高的精度和效率應對音樂處理挑戰的能力。

數據集

為了訓練和評估我們的系統，我們使用了兩個數據集。J-pop數據集包含811首流行鋼琴樂譜，DCML浪漫語料庫包含393首浪漫音樂鋼琴樂譜。相比之下，DCML語料庫要復雜得多，因為它包含的樂譜存在許多困難，如大量的聲音、聲音交叉和五線譜交叉。使用復雜和簡單數據的組合，我們可以訓練一個對不同類型的輸入保持魯棒性和靈活性的系統。

可視化預測

為了配合我們的系統，我們還開發了一個Web界面，可以可視化和探索輸入和輸出圖形，調試復雜的案例，或者只是更好地理解圖形創建過程。請查看鏈接https://github.com/fosfrancesco/musgviz/。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

我們的網絡界面，MusGViz！

為了對我們的模型如何工作以及預測如何變化進行公平的比較和更深入的理解，我們仔細研究了一些。

我們將基本事實邊緣（鏈接）與我們預測的邊緣進行比較，以進行和弦和語音預測。請注意，在你正在查看的示例中，在我們的可視化工具的幫助下，輸出圖直接繪制在樂譜的頂部。

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區

前兩個小節做得很好，但我們可以在第三個小節看到我們系統的一些局限性。在接近音高范圍內但聲音排列不同的同步音符可能會有問題。

我們的模型預測了一個包含所有同步切分四分之一音符的單個和弦（而不是跨和弦），并且還預測了第一個D#4音符的和弦。對為什么會發生這種情況進行更深入的研究并非易事，因為神經網絡不能直接解釋。

開放式挑戰

盡管我們的系統具有諸多優勢，但未來發展仍面臨一些挑戰。目前，此版本未考慮裝飾音，并且必須在輸入中明確復制重疊音符，這可能會很麻煩。此外，雖然我們已經開發了用于可視化結果的初始MEI導出功能，但這仍然需要進一步更新才能完全支持符號樂譜中發現的各種例外和復雜性。解決這些問題將是增強系統多功能性并使其更適應各種音樂作品的關鍵。

結論

本文介紹了一種基于圖形的方法，用于符號鋼琴音樂中的同音分離和譜線預測。新方法比現有的深度學習或基于啟發式的系統表現更好。最后，還提供了一個后處理步驟，可以從模型中刪除可能導致分數不正確的問題預測。

注1：論文《聚類與分離：一種用于樂譜雕刻的語音和五線譜預測的GNN方法》的GitHub代碼庫地址是：??https://github.com/CPJKU/piano_svsep/?source=post_page-----0cab100629cf--------------------------------。??

注2：本文中所有圖片皆由作者本人提供。

譯者介紹

朱先忠，51CTO社區編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Voice and Staff Separation in Symbolic Piano Music with GNNs??，作者：Emmanouil Karystinaios

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

機器學習

深度學習

神經網絡

已于2024-11-5 08:19:59修改

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法原創

簡介

問題

動機

方法論

數據集

可視化預測

開放式挑戰

結論

譯者介紹

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法 原創

簡介

問題

動機

方法論

數據集

可視化預測

開放式挑戰

結論

譯者介紹

目錄

一種實現符號鋼琴音樂聲音和譜表分離的GNN新方法原創