Meta 發布開源 AI 工具 AudioCraft,用戶可通過文本提示創作音樂、音頻
8 月 3 日消息,美國東部時間 8 月 2 日,Meta 開源了一款生成式 AI 工具 AudioCraft,可幫助用戶通過文本提示創作音樂和音頻。
圖片 3
根據 Meta 官方介紹,AudioCraft 包含了三個核心組件:
- MusicGen:使用 Meta 擁有 / 特別授權的音樂進行訓練,根據文本提示生成音樂。
- AudioGen:使用公共音效進行訓練生成音頻或擴展現有音頻,后續還可生成環境音效(如狗叫、汽車鳴笛、木地板上的腳步聲)。
- EnCodec(改進版):基于神經網絡的音頻壓縮解碼器,可生成更高質量的音樂并減少人工痕跡,或對音頻文件進行無損壓縮。
Flow chart demonstrating how MusicGen and AudioGen work
該工具經過開源之后,相關研究人員和從業人員可以使用自己的數據集訓練模型。官方宣稱 AudioCraft 系列模型能夠長期穩定地生成高質量音頻,而且易于使用,能夠為音樂家和聲音設計師“提供靈感”,幫助他們快速集思廣益,并“以新的方式迭代他們的作品”。
另據IT之家此前報道,今年 6 月份 Meta 開源了 AI 語言模型 MusicGen,該模型基于谷歌 2017 年推出的 Transformer 模型。如同模型名稱所示,MusicGen 主要用于音樂生成,它可以將文本和已有的旋律轉化為完整樂曲。
AudioCraft 項目地址:點此前往