人人都是音樂家！中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質量，更有樂感精華

發布于 2024-10-9 10:02

瀏覽

0收藏

人人都是音樂家！中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質量，更有樂感-AI.x社區

文章鏈接：https://arxiv.org/pdf/2405.15863
代碼鏈接：https://github.com/ivcylc/qa-mdt
Huggingface鏈接：https://huggingface.co/spaces/jadechoghari/OpenMusic
Demo鏈接：https://qa-mdt.github.io/ （chatgpt * 30， musiccaps * 30）

亮點直擊
提出了一種質量感知訓練范式，使模型在訓練過程中能夠感知數據集的質量，從而在音樂性（美學角度）和音頻質量方面實現卓越的音樂生成效果。
創新性地將masked擴散Transformer引入到音樂信號中，展示了其在建模音樂潛在空間上的獨特效果，以及其在質量控制感知方面的卓越能力，從而進一步提升了生成音樂的質量和音樂性。
解決了大型音樂數據集中文本與音頻低相關性的問題，有效提高了文本對齊度和生成的多樣性。

背景

近年來，基于擴散的文本到音樂（TTM）生成方法逐漸受到重視，提供了一種創新的方法，將文本描述合成音樂內容。要在這一生成過程中實現高準確性和多樣性，必須依賴大量高質量的數據，包括高保真音頻波形和詳細的文本描述，但這些通常僅占現有數據集中的一小部分。在開源數據集中，低質量音樂波形、標簽錯誤、弱標簽和無標簽數據等問題顯著阻礙了音樂生成模型的發展。為了解決這些挑戰，今天和大家分享一種全新的高質量音樂生成范式，該范式結合了質量感知訓練策略，使生成模型能夠在訓練過程中辨別輸入音樂波形的質量。利用音樂信號的獨特特性，首先針對TTM任務調整并實現了一個掩碼擴散Transformer（MDT）模型，展現出其在質量控制和音樂性增強方面的獨特能力。此外，還通過字幕優化數據處理方法解決了TTM中低質量字幕的問題。實驗結果表明，在MusicCaps和Song-Describer數據集上取得了當前最先進的（SOTA）性能。

當前音樂生成（音效生成）領域的問題為質量低，具體來說分為三個方面：

大部分的開源數據集音質低（FMA，AudioSet，MSD），旋律雜亂
音樂性（美學角度）差
文本對齊度低，大多數的音頻處于少標簽，弱標簽，錯標簽。其中，第1點可以由下圖藍色分布CLAP分數表征，2，3點可以由數據集的平均MOS分布表征（顏色由分割）

人人都是音樂家！中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質量，更有樂感-AI.x社區

創新方法及思路

質量信息注入

解決： 引入質量感知訓練策略。采用主觀數據集中的MOS分訓練出的質量評分模型，在訓練過程中注入（偽MOS分）音頻質量信息。

兩種注入方法：

利用text encoder對分級后的 low quality, medium quality, high quality 質量文本進行cross attn嵌入【粗粒度，適配unet架構和transformer類架構】
參考U-ViT內時間信息和label信息的融入方式，以量化（閾值由決定）后轉換為quality embedding，以token 形式進行控制注入,【細粒度，并且只適配transformer類架構】

人人都是音樂家！中科大&科大訊飛重磅開源OpenMusic：音樂生成更高質量，更有樂感-AI.x社區

結論：質量感知策略允許了在推理階段以高質量文本和質量token進行引導，從而生成顯著高于訓練集平均質量的音頻。

以類似解耦的方式在訓練中感知音頻的質量（類似TTS中分離出音色訓練），從而更好地促進了模型的訓練（大幅降低FAD，KL，并提升IS，REL，CLAP等指標）。

我們還發現，粗粒度文本控制和細粒度token控制相結合，更有助于模型訓練中解耦，感知，并控制更高質量音頻的生成，從而解決訓練數據集影響的問題

質量感知型 masked擴散Transformer

解決：從音樂性建模角度，我們發現 U-ViT/DiT 類架構對頻譜隱空間建模也具有圖像上表達的scale ability，并能更好建模諧波，音色等方面（反應在主觀評分）

優化：

對頻譜切片而言，此類結構的收斂速度慢。消融數據集中，20w步時依然不能很好控制收斂，推測來源于時域/頻域相關性弱。故在預訓練階段加入掩碼，加速訓練速度和頻譜關聯性。微調階段以高質量數據進一步強化模型（5W步就有收斂跡象）。
相比于U-Net，transformer based架構對text encoder的質量信息感知能力增強，并且U-ViT 式 token 質量融入策略顯著有效進一步提升質量并降低客觀指標
圖像中切塊未考慮 overlap，探究了overlap策略在合成中的作用（大幅降低FAD，但在主觀聽感上有trade off）