成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!

發布于 2024-4-3 09:44
瀏覽
0收藏

本項目測試參考歌聲,歌詞“風吹來的砂冥冥在哭泣,難道早就預言了分離”:

3_gt

夕小瑤科技說

12秒

提示詞“I want to listen to a song with a man voice.”生成的歌聲:

轉換男聲

夕小瑤科技說

12秒

提示詞“I'm in the mood for a song performed by a madam artist.”生成的歌聲:

轉換女聲

夕小瑤科技說

12秒

引言:自然語言指令在歌聲合成中的新突破

在數字音頻技術的發展歷程中,歌聲合成(Singing Voice Synthesis, SVS)一直是一個充滿挑戰的領域。隨著深度學習的興起,SVS系統已經能夠生成高保真度的歌聲,為音樂創作和娛樂產業的發展提供了新的動力。然而,盡管現有的SVS方法在音頻質量和自然度上取得了顯著進步,它們通常缺乏對合成歌聲風格屬性的明確控制能力。這些風格屬性包括說話者音色、聲音范圍和能量等。為了解決這一問題,研究者們開始探索使用自然語言指令作為風格提示,以期實現對合成歌聲的精確控制。

自然語言指令的使用不僅可以實現對特定屬性的精確控制,還可以簡化用戶交互,為非計算機專業用戶如音樂家和視頻創作者帶來便利。然而,將自然語言風格提示應用于SVS面臨著多個挑戰,包括旋律與聲音范圍的解耦、文本表示的選擇以及數據稀缺性等問題。本文將介紹一種新的SVS方法——Prompt-Singer,它是首個能夠利用自然語言提示來控制歌手性別、聲音范圍和音量的SVS方法。

論文標題:
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt

論文鏈接:
???https://arxiv.org/pdf/2403.11780.pdf??

項目鏈接:
???http://prompt-singer.github.io??

Prompt-Singer模型簡介:自然語言驅動的歌聲合成方法

1. 模型的設計理念與目標

Prompt-Singer模型的設計理念是通過自然語言指令作為風格提示來控制合成歌聲的風格屬性,這不僅可以對特定屬性進行精確控制,還可以簡化用戶交互,為非專業用戶如音樂家和視頻創作者帶來便利。該模型采用基于解碼器的Transformer架構,具有多尺度層次結構,并設計了一個旋律解耦的音高表示方法,使得在保持旋律準確性的同時,能夠實現文本條件下的聲音范圍控制。

2. 解決既有SVS方法的局限性

現有的SVS方法雖然在音頻質量和自然性方面取得了顯著進展,但它們缺乏明確控制合成歌聲風格屬性的能力。Prompt-Singer模型通過自然語言提示來控制合成歌聲的風格屬性,如歌手音色、聲音范圍和能量,解決了現有方法的局限性。例如,現有的SVS數據中的音高注釋與特定歌手在特定聲音范圍內的表現相綁定,這種耦合性質使得生成與提示相符且旋律準確的歌聲變得具有挑戰性。Prompt-Singer通過設計解耦的音高表示和引入語音數據來緩解數據稀缺問題,從而提高了模型對風格屬性的控制能力和音頻質量。

Prompt的設計與獲取

Prompt(自然語言提示)是Prompt-Singer模型的核心要素,由于沒有現成的數據集可用,因此研究者們利用了正常的SVS數據集,并設計了一種方法來為每個數據項生成提示句子。這個過程主要包括屬性分類、關鍵詞與模板生成、提示詞組裝三個階段。

1. 屬性分類根據音頻特征將音頻樣本分配到預定義的性別、音量和音域類別中(下圖)。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

2. 關鍵詞與模板生成利用大語言模型為每個類別生成相關關鍵詞,并創建可插入關鍵詞的提示句子模板(下圖)。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

3. 提示句子組裝在訓練時,結合樣本的屬性標簽和預生成的關鍵詞與模板,動態構建用于模型輸入的自然語言提示(下圖)。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

自然語言提示合成歌聲的挑戰與解決方案

1. 旋律與聲域的解耦難題

在現實生活中,不同的歌手可能會以不同的聲域演唱同一首歌曲。例如,一位年長的男士和一個小女孩可能會在不同的聲域內唱相同的歌。然而,SVS數據中的音高注釋通常與特定歌手的特定聲域綁定。這種耦合性質使得生成與提示相符的、具有一致聲域和音色的歌聲以及與給定音高音符對齊的準確旋律變得具有挑戰性。為了解決這一問題,Prompt-Singer模型采用了一種解耦的音高表示方法,通過引入聲域因子和獨立于歌手的旋律序列,實現了在保持旋律準確性的同時對聲域進行控制。

2. 文本表示的選擇與優化

盡管一些研究嘗試將文本表示與音樂、語音和一般音頻概念聯系起來,但目前還沒有專門為歌唱風格描述定制的文本表示,優化提示表示的選擇對于任務來說仍是未知的。Prompt-Singer模型探索了不同類型的文本編碼器,包括BERT、FLAN-T5和CLAP,并對編碼器進行了微調,以尋找最佳的文本表示。

3. 數據稀缺性的應對策略

由于需要細粒度的注釋,現有的SVS數據集規模較小,通常只包含幾小時或幾十小時的歌唱數據。這不僅限制了數據的多樣性,而且增加了學習自然語言描述與數據分布之間關聯的難度。為了緩解數據稀缺性,Prompt-Singer模型引入了語音數據,通過使用與SVS數據相同格式的TTS數據,增加了訓練數據的數量和多樣性。

本項目測試參考歌聲,歌詞“快樂時你不用分心想起我,難過時請一定記得聯絡我”:

0_gt

夕小瑤科技說

12秒

提示詞“Would you give me a song sung by a male vocalist?”生成的歌聲:

0_male

夕小瑤科技說

12秒

提示詞“I'm looking for a song with a woman singer.”生成的歌聲:

0_female

夕小瑤科技說

12秒

Prompt-Singer模型架構詳解

1. 多尺度Transformer的作用與結構

Prompt-Singer模型的整體架構如下圖所示。它主要由兩個子模塊組成:1)多尺度Transformer,它根據自然語言提示、帶有時長的歌詞和音高信息的輸入生成離散的聲學單元;2)單元聲碼器(Unit Vocoder),它將生成的聲學單元映射到音頻波形上。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

多尺度Transformer的層次結構,由全局和局部Transformer組成(下圖),它們都是基于解碼器的Transformer。全局Transformer負責建模不同幀之間的關聯,而局部Transformer則在幀內自回歸預測不同碼本的聲學單元。這種多尺度結構有助于模型處理長序列,并在不同模態之間建立內在關系。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

2. 聲音表示與文本表示的處理

在聲音表示方面,Prompt-Singer模型使用SoundStream生成的離散聲學單元作為Transformer的預測目標。文本輸入包括兩部分:歌詞和自然語言提示。歌詞通過查找表嵌入并輸入到Transformer中,而自然語言提示則使用凍結參數的文本編碼器提取語義表示,并通過線性層映射其維度以適應Transformer。

3. 解耦音高表示的創新設計

Prompt-Singer模型基于等溫定律理論,將F0分解為兩個組成部分:平均F0值(表示聲域)和調整后的F0序列(表示旋律信息)。這種簡單而有效的表示方法創建了信息瓶頸,迫使模型從調整后的F0序列和平均F0因子中提取旋律和聲域信息。

4. 利用語音數據緩解數據稀缺

為了緩解數據稀缺性,模型結合了TTS數據進行訓練,以增加訓練數據的數量和多樣性。此外,模型還探索了在低資源情況下用語音數據替代歌唱數據的可行性,并在不同量級的低資源SVS數據與大量TTS數據的組合下評估了模型性能。

實驗設置與評價指標:歌聲合成模型的多數據集融合與性能評估

1. 數據集的選擇與組合

為了控制合成歌聲的風格屬性,我們選擇了M4Singer、Opencpop、Opensinger和PopCS四個SVS數據集,共計127小時的多歌手歌唱數據。同時,我們還利用了AISHELL-3、Biaobei、THCHS-30和DidiSpeech等四個普通話TTS語料庫,總計約179小時的語音數據(下表)。這些數據集的選擇旨在增加訓練數據的數量和多樣性,從而提高模型的泛化能力和風格控制的準確性。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

2. 模型配置與訓練細節

我們采用了基于解碼器的多尺度Transformer架構,并設計了一種音高解耦表示法,這使得模型在保持旋律準確性的同時,能夠通過文本條件控制聲音范圍。如下表所示,全局Transformer有20層,參數量為320M;局部Transformer有6層,參數量為100M。我們使用SoundStream模型生成的離散聲學單元作為Transformer的預測目標,并通過一個基于GAN的單元聲碼器將生成的聲學單元映射到高保真的音頻波形。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

3. 客觀與主觀評價指標的應用

我們采用了客觀和主觀的評價指標來評估模型的控制能力和歌聲質量??陀^指標包括每個屬性的準確性百分比,其中性別分類器用于性別屬性的評估,振幅RMS和平均F0用于評估音量和音域。我們還計算了R-FFE(調整音域后的F0幀誤差)來衡量旋律準確性。對于主觀指標,我們通過亞馬遜Mechanical Turk進行人群外包評估,評估者需要根據1-5的Likert量表對歌聲質量和與提示的相關性進行評分,并報告平均意見得分(MOS)和相關性(RMOS)(下面兩圖分別是MOS和RMOS的評分界面)。通過這些綜合評價,我們可以全面了解模型的性能表現。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

實驗結果與分析:文本編碼與語音數據在歌聲合成模型中的作用與表現

1. 不同文本表示對控制能力的影響

實驗結果表明,經過微調的文本編碼器在控制準確性上有顯著提高,尤其是FLAN-T5 large和BERT-large模型(下表)。這表明將文本表示與更簡單的分布對齊有助于模型學習提示和歌唱風格之間的相關性。此外,不同類型的文本編碼器在不同屬性的控制能力上表現不同,這可能與模型的預訓練方法和數據有關。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

2. 語音數據在低資源情景下的作用

如下表所示,在低資源情景下,引入語音數據可以顯著提高控制準確性和生成質量,但對旋律準確性有輕微的負面影響。隨著SVS數據量的減少,歌聲質量和旋律準確性急劇下降,而音量和音域的準確性變化相對平緩。這表明,盡管語音數據有助于提高控制準確性和音頻質量,但仍然需要足夠量的歌唱數據來確保合成質量和旋律準確性。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

3. 模型在多屬性提示下的表現

如下表所示,我們的模型在單屬性和多屬性提示下都表現出了良好的性能。隨著屬性數量的增加,準確性和與提示的相關性有輕微下降,這表明多屬性條件下聲學風格的條件分布更復雜,模型化難度增加。盡管如此,我們的模型在處理單個和多個屬性的提示時仍然展現出了良好的性能。

今日arXiv最熱NLP大模型論文:浙大發布歌曲合成工具Prompt-Singer,歌手性別風格均可控!-AI.x社區

討論與總結:合成歌聲的創新與挑戰

1. 模型的優勢與局限性

Prompt-Singer模型通過自然語言提示來控制合成歌聲的風格,這種方法在控制特定屬性方面具有明顯的優勢,同時簡化了用戶交互,方便非專業用戶使用。模型采用基于解碼器的Transformer架構,并設計了一種旋律與音域解耦的音高表示,使得在保持旋律準確性的同時,能夠通過文本條件控制音域。

模型的局限性在于:面臨解耦旋律與音域、選擇文本表示、數據稀缺等挑戰;因使用大語言模型和自回歸生成導致高計算成本和推理延遲;提示文本的生成流程簡單且僵化,可能產生語法錯誤和表達偏差。

2. 對未來研究方向的展望

未來的研究可以在多個方向上進行拓展。首先,可以引入更多的風格屬性,如情感、節奏和更詳細的歌手信息,以進一步提高合成歌聲的多樣性和個性化。其次,可以探索更高效的模型架構和生成范式,以減少計算開銷并提高推理效率。此外,改進提示文本的生成流程,提高其準確性和表達力,也是未來研究的一個重要方向。


本文轉載自夕小瑤科技說,作者:Tscom

原文鏈接:??https://mp.weixin.qq.com/s/kkSJsNTyiGQAvnE2OaCwxQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 综合精品 | 一区二区不卡视频 | 中文字幕第7页 | 日本电影韩国电影免费观看 | 成人av在线播放 | 另类视频区 | 亚洲精品一| 高清久久久 | 激情五月激情综合网 | 日本精品一区二区三区视频 | 成人精品在线观看 | 久久九| 色婷婷精品国产一区二区三区 | 久久亚洲国产精品日日av夜夜 | 91资源在线 | 男人午夜视频 | 欧美综合精品 | jav成人av免费播放 | 成人精品视频 | 91精品国产综合久久精品图片 | 国产xxxx在线 | 国产精品久久久久久久久久免费看 | 久久成人一区 | 99精品欧美一区二区蜜桃免费 | 欧美一区二区三区四区五区无卡码 | 欧美一级在线观看 | 久久免费精品 | 看黄在线 | 亚洲免费视频一区二区 | 久久久国产一区二区三区四区小说 | 国产精品国产自产拍高清 | 美女爽到呻吟久久久久 | 九九在线视频 | 欧美成人a| 黄色片在线网站 | 日韩欧美三级电影在线观看 | 日韩在线免费播放 | 啪啪免费网站 | 99热国产免费| 国产欧美精品区一区二区三区 | 久久亚洲国产精品 |