成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這段音頻火爆外網!文字、圖片一鍵生成逼真音效,音頻界AIGC來了

人工智能 新聞
如今的 AI 技術發展堪稱「神奇」,文字、圖片竟能一鍵直接生成逼真音效,這就是浙大、北大聯合火山語音推出的新模型 Make-An-Audio。

近期 AIGC 如同上了熱搜一般,火熱程度居高不下,當然除了名頭格外響亮,突破也是絕對斐然:輸入自然語言就可自動生成圖像、視頻甚至是 3D 模型,你說意不意外?

但在音頻音效的領域,AIGC 的福利似乎還差了一些。主要由于高自由度音頻生成需要依靠大量文本 - 音頻對數據,同時長時波形建模還有諸多困難。為了解決上述困難,浙江大學與北京大學聯合火山語音,共同提出了一款創新的、文本到音頻的生成系統,即 Make-An-Audio。其可以將自然語言描述作為輸入,而且是任意模態(例如文本、音頻、圖像、視頻等)均可,同時輸出符合描述的音頻音效,廣大網友很難不為其可控性以及泛化性點贊。

圖片


  • 論文鏈接:https://arxiv.org/abs/2301.12661
  • 項目鏈接:https://text-to-audio.github.io

短短兩天,Demo 視頻在 Twitter 上獲得了 45K 的播放量。

2023 年除夕后,以 Make-An-Audio、 MusicLM 等大量音頻合成文章涌現,48 小時內已經有 4 篇突破性的進展。

圖片

網友評論 1

廣大網友們紛紛表示,AIGC 音效合成將會改變電影、短視頻制作的未來。

圖片

網友評論 2

圖片

網友評論 3

更有網友發出這樣的感嘆:「audio is all you need……」

圖片

網友評論 4

聽覺效果展示

話不多說直接看效果,根據文本生成音效原來也可以如此便捷順暢。

文本 1:a speedboat running as wind blows into a microphone

轉化音頻1音頻:00:0000:09?

文本 2:fireworks pop and explode

轉化音頻2音頻:00:0000:09?

是不是也一度因破損音頻修復而大傷腦筋?Make-An-Audio 模型一出,這事兒就變得簡單多了。

修復前

圖片

修復前音頻

修復前音頻音頻:00:0000:09?

修復后

修復后音頻

修復后音頻音頻:00:0000:09?

通過理解圖片生成音效,也不是不可以。

圖片

圖片 1

轉化音頻

圖片轉化音頻音頻:00:0000:09?

圖片

圖片 2

轉化音頻

圖片轉化音頻2音頻:00:0000:09?

根據視頻內容生成對應音效,這款模型也可以輕松做到。

視頻 1

圖片

轉化音頻

視頻1音頻:00:0000:09?

視頻 2

圖片

轉化音頻

視頻2音頻:00:0000:09?

模型內在技術原理

深度解析「網紅」模型的神奇內在,還要回到音頻 - 自然語言對數據稀少的客觀問題上,對此浙大北大聯合火山語音團隊協同兩大高校共同提出了Distill-then-Reprogram 文本增強策略,即使用教師模型獲得音頻的自然語言描述,再通過隨機重組獲得具有動態性的訓練樣本。

具體來說,在 Distill 環節中,使用音頻轉文本與音頻 - 文本檢索模型,找到語言缺失 (Language-Free) 音頻的自然語言描述候選 (Candidate),通過計算候選文本與音頻的匹配相似度,在閾值下取得最佳結果作為音頻的描述。該方法具有強泛化性,且真實自然語言避免了測試階段的域外文本。「在 Reprogram 環節中,團隊從額外的事件數據集中隨機采樣,并與當前訓練樣本相結合,得到全新的概念組合與描述,以擴增模型對不同事件組合的魯棒性。」 研究團隊表示。

圖片

Distill-then-Reprogram 文本增強策略框架圖

如上圖所示,自監督學習已經成功將圖片遷移到音頻頻譜,利用了頻譜自編碼器以解決長音頻序列問題,并基于 Latent Diffusion 生成模型完成對自監督表征的預測,避免了直接預測長時波形。

圖片

Make-An-Audio 模型系統框架圖

此外在研究中團隊還探索了強大的文本條件策略,包括對比式 Contrastive Language-Audio Pretraining (CLAP) 以及語言模型 (LLM) T5, BERT 等,驗證了 CLAP 文本表征的有效與計算友好性。同時還首次使用 CLAP Score 來評估生成的音頻,可以用于衡量文本和生成場景之間的一致性;使用主、客觀相結合的評估方式,在 benchmark 數據集測試中驗證了模型的有效性,展示了模型出色的零樣本學習 (Zero-Shot) 泛化性等。

圖片

Make-An-Audio 與基線模型主客觀評測實驗結果

神奇模型的應用前景知多少?

總體來看,Make-An-Audio 模型實現了高質量、高可控性的音頻合成,并提出了「No Modality Left Behind」,對文本條件音頻模型進行微調 (finetune),即能解鎖對任意模態輸入的音頻合成 (audio/image/video)。

圖片

Make-An-Audio 首次實現高可控 X - 音頻的 AIGC 合成,X 可以是文本 / 音頻 / 圖像 / 視頻

在視覺指導的音頻合成上,Make-An-Audio 以 CLIP 文本編碼器為條件,利用其圖像 - 文本聯合空間,能夠直接以圖像編碼為條件合成音頻。

圖片

Make-An-Audio 視覺 - 音頻合成框架圖

可以預見的是,音頻合成 AIGC 將會在未來電影配音、短視頻創作等領域發揮重要作用,而借助 Make-An-Audio 等模型,或許在未來人人都有可能成為專業的音效師,都可以憑借文字、視頻、圖像在任意時間、任意地點,合成出栩栩如生的音頻、音效。但現階段 Make-An-Audio 也并不是完美無缺的,可能由于豐富的數據來源以及不可避免的樣本質量問題,訓練過程中難免會產生副作用,例如生成不符合文字內容的音頻,Make-An-Audio 在技術上被定位是 “輔助藝術家生成”,可以肯定的一點,AIGC 領域的進展確實令人驚喜。

火山語音,長期以來面向字節跳動各大業務線提供全球優勢的 AI 語音技術能力以及全棧語音產品解決方案,包括音頻理解、音頻合成、虛擬數字人、對話交互、音樂檢索、智能硬件等。自 2017 年成立以來,團隊專注研發行業領先的 AI 智能語音技術,不斷探索 AI 與業務場景的高效結合,以實現更大的用戶價值。目前其語音識別和語音合成已經覆蓋了多種語言和方言,多篇技術論文入選各類 AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico 等業務提供了領先的語音能力,并適用于短視頻、直播、視頻創作、辦公以及穿戴設備等多樣化場景,通過火山引擎開放給外部企業。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2015-10-28 13:29:21

音頻源碼audio

2023-01-16 14:31:40

模型AI

2024-04-08 14:07:51

Animagine開源

2024-06-20 13:44:48

OpenAIV2A模型

2023-08-04 17:33:27

Meta音頻AI

2025-06-03 14:16:40

編程AI生成

2020-08-06 11:45:37

數據庫文檔Swagger

2024-11-21 16:43:57

2023-08-28 00:22:42

AI工具

2023-05-16 14:17:00

數字人

2019-10-11 11:00:53

Nginx神器前端

2022-08-02 14:27:01

HDF驅動框架驅動開發

2024-03-15 14:34:12

Oracle數據庫一鍵巡檢

2015-02-09 15:25:52

換膚

2025-03-03 03:35:00

DeepSeekXmind思維導圖

2020-05-11 09:40:47

IDEA代碼神器

2023-12-19 15:45:07

Linux工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 性高湖久久久久久久久3小时 | 无码日韩精品一区二区免费 | 夜夜操av | av三级在线观看 | 国产一区二区三区 | 国产欧美精品一区二区色综合朱莉 | 久久久国产精品 | 秋霞精品| 看亚洲a级一级毛片 | av免费观看网站 | 欧美一级片在线看 | 精品一区二区三区在线观看国产 | a级大片免费观看 | 看片国产 | 成人h视频在线 | 午夜精品网站 | 91久久久久久 | 成人精品一区二区三区 | 久久青青| 一区二区三区亚洲 | 一区二区精品在线 | 在线免费观看黄色网址 | 91精品国产综合久久精品图片 | 天天久久| 欧美亚洲网站 | 久久天堂网| 99精品视频在线观看 | 欧美日韩国产精品激情在线播放 | 91观看 | 欧美日韩精品中文字幕 | 亚洲精品视频在线 | 国产资源一区二区三区 | 国产在线一区二区三区 | 欧美日韩国产一区二区三区 | 中文字幕亚洲专区 | 欧美精品在线一区二区三区 | 久久久激情视频 | 久久国产欧美日韩精品 | 欧美精品久久久久久久久老牛影院 | 国产乱码久久久久久 | 性天堂网 |