成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

吉他搖滾、電子音樂都能搞定,Meta開源音頻生成新模型MAGNeT,非自回歸7倍提速

人工智能 新聞
前幾日,在論文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 團隊、Kyutai 和希伯來大學推出了 MAGNeT,一種在掩碼生成序列建模方法,可以直接在多個音頻 tokens 流上直接運行。

在文本生成音頻(或音樂)這個 AIGC 賽道,Meta 最近又有了新研究成果,而且開源了。

圖片

前幾日,在論文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中,Meta FAIR 團隊、Kyutai 和希伯來大學推出了 MAGNeT,一種在掩碼生成序列建模方法,可以直接在多個音頻 tokens 流上直接運行。與以往工作最大的不同是,MAGNeT 是由單階段、非自回歸 transformer 生成音頻。

圖片

  • 論文地址:https://arxiv.org/pdf/2401.04577.pdf
  • GitHub 地址:https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具體來講,在訓練期間,研究者預測從掩碼調度器獲得的掩碼 token 的范圍;在模型推理階段, 則通過幾個解碼步驟逐漸構建輸出序列。為了進一步增強生成音頻質量,他們提出一種新穎的重評分方法,利用外部預訓練模型對來自 MAGNET 的預測進行重評分和排名,然后用于后續的解碼步驟。

此外,研究者還探索了 MAGNET 的混合版本,融合自回歸和非自回歸模型,以自回歸的方式生成前幾秒,同時對剩余序列進行并行解碼。

從生成結果來看,MAGNET 在文本到音頻和文本到音樂任務上取得了非常不錯的效果,質量媲美 SOTA 自回歸基線模型的同時速度是它們的 7 倍。

大家可以聽一下生成的音樂效果。

MAGNeT 方法概覽

下圖 1 為 MAGNeT 原理圖,作為一個非自回歸的音頻生成掩碼語言模型,它以條件語義表示為條件,在從 EnCodec 中獲得的幾個離散音頻 token 流上運行。在建模策略上,研究者進行了包括掩碼策略、受限上下文、采樣機制和模型重評分等幾個方面的核心建模修改。

圖片

首先來看掩碼策略,研究者評估了 20ms 到 200ms 之間的各種跨度長度,并發現 60ms 跨度長度可以提供最佳的整體性能。他們從調度器中采樣了掩碼率 γ(i),并相應地計算了進行掩碼的平均跨度量。此外從計算效率方面考慮,研究者還使用了非重疊跨度。

接著是受限上下文。研究者使用到了 EnCodec 并相應地限制了碼本的上下文。具體來講,音頻編碼器由多層卷積網絡和最終的  LSTM 塊組成。EnCodec 感受野的分析結果表明,卷積網絡的感受野約為 160ms,而包含 LSTM 塊的有效感受野約為 180ms。研究者使用隨時間推移的平移脈沖函數并測量了序列中間編碼向量的幅度,進而對模型的感受野進行了實證評估。

下圖 3 為過程展示,不過 LSTM 盡管在理論上具有無限記憶,但實際觀察來看是有限的。

圖片

最后是模態推理,包含采樣和無分類器指導退火。采樣如下公式(3)所示,使用均勻采樣從先前一組掩碼跨度中選擇跨度。在實踐中,研究者使用第 i 次迭代時的模型置信度作為評分函數,來對所有可能的跨度進行排序,并相應地選擇最不可能進行掩碼的跨度。

圖片

對于 token 預測,研究者選擇使用無分類器指導來完成。在訓練期間,他們有條件和無條件地對模型進行優化;在推理期間,他們從獲得自條件和無條件概率的線性組合的一個分布中進行采樣。

實驗及結果

在實驗環節,研究者在文本到音樂生成和文本到音頻生成任務上對 MAGNeT 進行評估。他們使用了與 Copet et al. (2023) 所用完全相同的音樂生成訓練數據,與 Kreuk et al. (2022a) 所用完全相同的音頻生成訓練數據。

下表 4 展示了用于訓練 MAGNeT 以及其他基線方法(包括 MusicGen、MusicLM 和 AudioLDM2)的訓練集細節。

圖片

下表 1 為 MAGNeT 在文本到音樂生成任務上與其他基線方法的比較結果,使用的評估數據集為 MusicCaps。我們可以看到,MAGNeT 的性能與使用自回歸建模方法的 MusicGen 相當,但在生成速度(延遲)和解碼兩方面比后者快得多。

圖片

下圖 2a 表明,與自回歸基線模型(紅色曲線)相比,非自回歸模型(藍色虛線)得益于并行解碼在小批大小時表現尤為出色,單個生成樣本的延遲低至 600ms,是自回歸基線模型的 1/10。可以預見,MAGNeT 在需要低延遲預處理的交互式應用程序中應用潛力很大。此外在批大小達到 64 之前,非自回歸模型生成速度都要比基線模型快。

圖片

下表 2 展示了跨度長度和受限上下文的消融實驗。研究者報告了使用域內測試集時,MAGNeT 在不同跨度長度、有無時間受限上下文情況下的 FAD(Fréchet Audio Distance)分數。

圖片

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-05 13:56:03

數據音樂

2025-04-15 09:08:51

系統數據模型

2025-04-22 15:34:08

視頻生成AI

2022-03-14 10:53:12

谷歌模型研究

2025-04-21 08:20:00

視覺模型訓練

2023-09-18 11:25:00

2025-05-21 09:04:00

2025-06-12 11:57:56

視頻生成模型AI

2023-02-13 13:58:15

模型開源

2024-11-12 13:10:49

2025-03-13 12:39:22

2023-08-03 07:24:40

MetaAI 語言模型

2024-11-25 08:20:00

2023-06-12 16:04:52

谷歌音樂

2023-04-03 10:04:44

開源模型

2025-05-09 08:30:00

2025-03-03 08:32:00

模型AI訓練

2024-11-08 09:30:00

2025-04-22 09:17:00

模型生成開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av一区二区三区四区 | 亚洲成av人片在线观看 | 青青久在线视频 | 中文字幕第三页 | 久久亚洲天堂 | 在线中文字幕亚洲 | 免费中文字幕日韩欧美 | 国产精品久久视频 | 欧美福利专区 | 婷婷色在线 | 午夜影院污 | 黄一级| 国产成人精品综合 | 四虎影音| 懂色中文一区二区三区在线视频 | 午夜影晥 | 中文字幕精品一区二区三区在线 | 国产精品美女久久久久aⅴ国产馆 | 日韩欧美国产精品一区 | 久久亚洲国产 | 男人的天堂在线视频 | 成人一区二 | 国产精品爱久久久久久久 | 国产探花在线精品一区二区 | 91精品久久久久久久久久入口 | 日韩国产一区二区三区 | 国产最好的av国产大片 | 午夜免费网站 | 第四色播日韩第一页 | 久久人| 成人夜晚看av | 国产精品视频久久久 | 就操在线| 96国产精品久久久久aⅴ四区 | 免费成人午夜 | 99精品久久久久久久 | 在线视频a | 久亚州在线播放 | 精品欧美 | 精品久久99 | 超碰日本 |