開源音頻模型Stable Audio Open，文本生成47秒高清音效

Aceryt

發布于 2024-6-7 10:57

瀏覽

0收藏

6月6日，著名開源大模型平臺Stability.ai在官網宣布，開源最新文生音頻模型Stable Audio Open。

用戶通過文本就能生成最多47秒，鋼琴、笛子、鼓點、模擬人聲等不同類型的44.1kHz音效。

值得一提的是，Stable Audio Open支持數據微調，歌手、音樂人可以讓其生成基于自己的音樂數據，例如，架子鼓手可以根據自己的鼓點來進行微調。

開源地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

在線demo：https://huggingface.co/spaces/artificialguybr/Stable-Audio-Open-Zero

開源音頻模型Stable Audio Open，文本生成47秒高清音效-AI.x社區

根據Stability.ai介紹，Stable Audio Open使用了486,492個錄音訓練數據，其中 472,618 個來自Freesound，13874個來自免費音樂檔案館，并且所有音頻文件均根據 CC0、CC BY或CC Sampling+獲得了商業許可。

就是說通過Stable Audio Open生成的音效無需擔心商業化問題，不會受到法律方面的追究。

「AIGC開放社區」根據其提供的在線demo體驗了一下，在文本語義理解、生成音效等方面還是相當優秀。

需要注意的是，目前只支持英文提示詞，其他任何語言都不行，即便你使用了識別效果也是相當的差。

在生成的過程中，用戶可以對時間、擴散步數和CFG進行詳細控制，以達到更好的效果。例如，一首非常舒適抒情的鋼琴曲。

開源音頻模型Stable Audio Open，文本生成47秒高清音效-AI.x社區

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/bz0rtEwNyUWdlz8_3b40LQ??

標簽

開源

音頻

贊

回復

舉報

回復

相關推薦

超10秒高分辨率，北大Open Sora視頻生成更強了，還支持華為芯片

輕薄滴假象 ? 2768瀏覽 ? 0回復
TAVGBench: 文本生成語音-視頻最新基準

angel ? 3350瀏覽 ? 0回復
騰訊AI新研究打破長文本生成模型限制，序列并行技術再突破

AI論文解讀 ? 6260瀏覽 ? 0回復
Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

輕薄滴假象 ? 2861瀏覽 ? 0回復
浙大、螞蟻集團推出MaPa：文本生成超真實3D模型

Aceryt ? 3229瀏覽 ? 0回復
Stable Diffusion 3中型版模型開源！

AIGC最前線 ? 2689瀏覽 ? 0回復
上科大、影眸聯合提出DressCode：從文本生成3D服裝板片

輕薄滴假象 ? 3718瀏覽 ? 0回復
僅需1分鐘，文本生成高質量3D模型—Meta 3D-Gen

Aceryt ? 3400瀏覽 ? 0回復
Midjourney大更新，細節最強文本生圖片模型來啦！

Aceryt ? 2848瀏覽 ? 0回復
大模型技術細節——大模型之文本生成與文檔總結

AI探索時代 ? 6576瀏覽 ? 0回復
綜述 | 大模型的可控文本生成

NLP工作站 ? 4024瀏覽 ? 0回復
Stable Diffusion這樣的文本-圖像生成模型有記憶嗎？

angel ? 2443瀏覽 ? 0回復
RAG新范式MemLong：用于長文本生成的記憶增強檢索

PaperAgent ? 2981瀏覽 ? 0回復
快手、北大開源，超高清10秒、24幀視頻模型

Aceryt ? 2385瀏覽 ? 0回復
你知道大模型聊天補全和文本生成的區別嗎？

AI探索時代 ? 3622瀏覽 ? 0回復
關于兩次大模型文本生成的嘗試，以及由此帶來的思考

AI探索時代 ? 2228瀏覽 ? 0回復
NVIDIA AI 推出 Fugatto：一個 25 億參數的音頻模型，可從文本和音頻輸入生成音樂、語音和聲音

Halo咯咯 ? 2561瀏覽 ? 0回復
文本生成無限長視頻，無需任何訓練

Aceryt ? 2287瀏覽 ? 0回復
AI音頻核爆！Kimi開源「六邊形戰神」Kimi-Audio，音頻界ChatGPT來了？

算家計算 ? 1047瀏覽 ? 0回復

Aceryt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

開源音頻模型Stable Audio Open，文本生成47秒高清音效

目錄