谷歌 Deepmind 推出 Lyria AI 音頻模型,可生成帶有樂器和人聲的音樂
11 月 21 日消息,Deepmind 日前推出了一款名為 Lyria 的音頻模型,可用于生成帶有樂器和人聲的音樂。此外 Deepmind 還通過與 YouTube 合作,整合 Lyria 模型開發了音樂創作工具 Dream Track,聲稱可令視頻創作者“更有效率地將想法變為作品”。
研究人員介紹了當前通過 AI 模型生成音樂的挑戰,這是因為音樂本身包含極高的信息密度,其中每一秒鐘都可能擁有多個節拍、音符及和聲。而這也使得“生成音樂”相較于“生成語言(文字轉語音)”更為復雜,而對于 AI 模型來說,維持長音樂序列中的連續性也更為困難,這是因為模型需要在不同的樂句、詩節和長段落中,保持音樂的流暢性和一致性。
此外,由于音樂片段中經常同時包含多個聲部和樂器,這也進一步增加了音樂生成的難度,相關音頻模型必須能夠協調多種聲音和旋律,從而使生成的音樂更自然。
而 Deepmind 所開發的 Lyria AI 模型,便是針對上述痛點進行的嘗試,這款模型的最大特點就是能夠生成包含樂器和人聲的高品質音樂。
▲ 圖源 Deepmind
此外,Lyria 模型還擅長進行音樂變換和延續的任務,因此模型還能基于現有音樂片段生成出風格新穎或統一的后續片段。
研究人員同時強調,Lyria 模型擁有細致的微調選項,可讓用戶精確生成音樂風格及表現方式,因此這款模型可以“滿足專業音樂創作的需求,同時也可以讓業余用戶輕松上手”。
▲ 圖源 Deepmind
IT之家注意到,目前 YouTube 已經在短視頻功能“Shorts”中應用 Lyria 模型,相關成果已經集成在 YouTube 的實驗音樂創作工具 Dream Track 中,用戶可以用這款工具生成多樣化的配樂,并可選用 Charlie Puth、Charli XCX、Sia 等藝術家的音樂風格來創造出“全新演繹”。
▲ 圖源 Deepmind
據悉,用戶可以在 Dream Track 中簡單地輸入主題,之后即可選擇一位藝術家,為短視頻生成 30 秒的配樂、歌詞、伴奏等內容。
▲ 圖源 Deepmind
▲ 圖源 Deepmind
此外,Deepmind 還表示,研究人員正廣泛地探索 AI 在音樂創作領域的應用,未來用戶只需要哼唱,AI 就會把旋律配成帶有歌詞的完整歌曲,也可以將古早的 MIDI 音樂轉換為 Remix 版本,或為音軌添加各種樂器伴奏。
Deepmind 同時提到,Lyria 模型生成的所有內容,都會加上 SynthID 水印標記。這是一種辨識歌曲是否是由 AI 生成的水印機制,號稱能夠在不影響聽覺體驗的前提下,為 AI 生成的音樂嵌入“聽眾無法察覺的水印標記”。
▲ 圖源 Deepmind
研究人員提到,帶有“聲音水印”的音頻,即便添加噪音,或是進行 MP3 壓縮,甚至對變更音調速度,也都能夠維持可檢測性,而 Lyria 模型也可以通過檢測歌曲中的 SynthID,來確認歌曲中由 Lyria 模型生成的部分,從而更容易辨別音樂主題內容,方便生成后續音樂片段。