開源音頻模型Stable Audio Open,文本生成47秒高清音效
6月6日,著名開源大模型平臺Stability.ai在官網宣布,開源最新文生音頻模型Stable Audio Open。
用戶通過文本就能生成最多47秒,鋼琴、笛子、鼓點、模擬人聲等不同類型的44.1kHz音效。
值得一提的是,Stable Audio Open支持數據微調,歌手、音樂人可以讓其生成基于自己的音樂數據,例如,架子鼓手可以根據自己的鼓點來進行微調。
開源地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
在線demo:https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero
根據Stability.ai介紹,Stable Audio Open使用了486,492個錄音訓練數據,其中 472,618 個來自Freesound,13874個來自免費音樂檔案館,并且所有音頻文件均根據 CC0、CC BY或CC Sampling+獲得了商業許可。
就是說通過Stable Audio Open生成的音效無需擔心商業化問題,不會受到法律方面的追究。
「AIGC開放社區」根據其提供的在線demo體驗了一下,在文本語義理解、生成音效等方面還是相當優秀。
需要注意的是,目前只支持英文提示詞,其他任何語言都不行,即便你使用了識別效果也是相當的差。
在生成的過程中,用戶可以對時間、擴散步數和CFG進行詳細控制,以達到更好的效果。例如,一首非常舒適抒情的鋼琴曲。
本文轉自 AIGC開放社區,作者:AIGC開放社區
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦