成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線

譯文 精選
人工智能
本文旨在探討新式Sesame語音模型運行原理,該模型通過殘差量化壓縮音頻并使用雙轉換器自回歸預測碼字以生成逼真的語音。

譯者 | 朱先忠

審校 | 重樓

Sesame使用一種名為殘差向量量化的深度學習技術對語音進行編碼

最近,Sesame人工智能公司發布了他們最新的語音轉語音(Speech-to-Speech)模型的演示。這是一個非常擅長說話的對話式人工智能代理,它們能夠提供相關的答案,并帶有表情地說話,而且說實話,它們非常有趣,互動性很強。

請注意,有關這方面的系統的技術論文尚未發布,但他們確實發布了一篇簡短的博客文章,并提供了有關他們使用的技術和他們所構建的先前算法的大量信息。

謝天謝地,他們提供了足夠的信息,讓我能夠撰寫這篇文章并制作一個YouTube視頻

訓練對話語音模型

Sesame是一個會話語音模型,簡稱CSM。它輸入文本和音頻,并將語音生成音頻。雖然他們沒有在文章中透露其訓練數據來源,但我們仍然可以嘗試進行可靠的猜測。上述博客文章大量引用了另一個CSM,即2024年的Moshi模型,幸運的是,Moshi模型的創建者在他們的論文中透露了他們的數據來源。Moshi模型使用了700萬小時的無監督語音數據、170小時的自然和腳本對話(用于多流訓練)以及2000多個小時的電話對話(Fischer數據集)。

Sesame模型是建立在Moshi模型論文(2024)基礎上的

生成音頻到底需要什么?

原始形式的音頻只是一長串振幅值 ——波形。例如,如果以24kHz的頻率采樣音頻,則每秒捕獲24,000個浮點值。

這里使用24000個值來表示1秒的語音!(圖片由作者生成)

當然,處理一秒鐘的數據中的24000個浮點值是非常耗費資源的,尤其是因為Transformer的計算量會隨著序列長度的平方而增長。如果我們能夠壓縮這個信號并減少處理音頻所需的樣本數量,那就太好了。

后面,我們將深入探討Mimi編碼器,特別是殘差向量量化器(RVQ),它們是當今深度學習中音頻/語音建模的支柱。文章最后,我們將介紹Sesame模型如何使用其特殊的雙轉換器架構生成音頻。

預處理音頻

卷積在壓縮和特征提取方面大有裨益。Sesame模型使用Mimi語音編碼器來處理音頻。Mimi也曾在前面提到的Moshi論文中被介紹過。Mimi是一個自監督音頻編解碼器模型,它首先將音頻波形轉換為離散的“潛在”標記,然后重建原始信號。Sesame僅使用Mimi的編碼器部分來對輸入的音頻進行標記。讓我們來仔細了解一下這是如何操作的。

Mimi輸入24Khz的原始語音波形,并將其傳入多個步幅卷積層,對信號進行下采樣,步幅分別為4、5、6、8和2。這意味著,第一個CNN模塊將音頻下采樣4倍,然后是5倍,再是6倍,以此類推。最終,它以1920的倍數下采樣,將幀率降至每秒12.5幀。

卷積塊還將原始浮點值投影到512的嵌入維度。每個嵌入聚合原始1D波形的局部特征。1秒的音頻現在表示為大約12個大小為512的向量。這樣,Mimi將序列長度從24000減少到僅12,并將它們轉換為密集的連續向量。

在應用任何量化之前,Mimi編碼器會將輸入的24KHz音頻下采樣1920倍,并將其嵌入到512維空間中。換句話說,每秒可以獲得12.5幀,每幀都是一個512維向量(圖片來自作者視頻)。

什么是音頻量化?

給定卷積層之后獲得的連續嵌入,我們希望對輸入語音進行標記化。如果我們可以將語音表示為一系列標記,那么我們就可以應用標準的語言學習Transformer來訓練生成模型。

Mimi使用殘差向量量化器(RVQ分詞器)來實現這一點。我們很快會討論殘差部分,但首先,我們先來看看一個簡單的vanilla向量量化器是如何做的。

向量量化

向量量化背后的想法很簡單:訓練一個碼本(codebook ),它是1000個隨機向量代碼的集合,大小均為512(與嵌入維度相同)。

一個Vanilla向量量化器。訓練一個嵌入的碼本。給定一個輸入嵌入,我們將其映射/量化到最近的碼本條目(作者視頻截圖)

然后,給定輸入向量,我們將其映射到碼本中最近的向量——本質上就是將一個點映射到其最近的聚類中心。這意味著,我們有效地創建了一個固定的標記詞匯表來表示每個音頻幀,因為無論輸入幀的嵌入是什么,我們都將用最近的聚類質心來表示它。

殘差向量量化

簡單的向量量化的問題在于,由于我們將每個向量映射到其聚類的質心,信息損失可能過高。這種“映射”很少是完美的,因此原始嵌入和最近的碼本之間總是存在誤差。

殘差向量量化的核心思想是,它不僅僅局限于一個碼本。相反,它嘗試使用多個碼本來表示輸入向量。

  • 首先,使用第一個碼本量化原始向量。
  • 然后,從原始向量中減去該質心。剩下的就是殘差—— 即第一次量化中未捕獲的誤差。
  • 現在取這個殘差,并使用充滿全新代碼向量的第二個代碼本 再次對其進行量化——再次將其捕捉到最近的質心。
  • 減去這個值,你會得到一個更小的殘差。用第三個碼本再次量化……你可以對任意數量的碼本重復此操作。

殘差向量量化器(RVQ)使用新的碼本和VQ層對輸入嵌入進行分層編碼,以表示先前碼本的誤差

每一步都會逐層捕捉上一輪遺漏的細節。假設你對N個碼本重復此操作,那么你將從每個量化階段獲得一個由N個離散標記組成的集合,用來表示一個音頻幀。

RVQ最酷的地方在于,它們被設計成在第一個量化器中具有較高的歸納偏差,傾向于捕捉最重要的內容。在后續的量化器中,它們會學習越來越細粒度的特征。

如果您熟悉PCA,可以認為第一個碼本包含主要主成分,用于捕獲最關鍵的信息。后續碼本代表高階成分,包含更多細節信息。

殘差向量量化器(RVQ)使用多個碼本對輸入向量進行編碼——每個碼本一個條目(作者視頻截圖)

聲學與語義密碼本

由于Mimi是針對音頻重建任務進行訓練的,因此編碼器會將信號壓縮到離散化的潛在空間,而解碼器則會從潛在空間將其重建回來。在針對此任務進行優化時,RVQ碼本會學習在壓縮的潛在空間內捕捉輸入音頻的基本聲學內容。

Mimi還單獨訓練了一個碼本(原始VQ),該碼本專注于嵌入音頻的語義內容。正因如此,Mimi被稱為“分割RVQ分詞器”——它將量化過程劃分為兩個獨立的并行路徑:一個用于語義信息,另一個用于聲學信息。

Mimi架構(來源:Moshi論文)許可證:免費

為了訓練語義表征,Mimi使用知識蒸餾技術,并使用現有的語音模型WavLM作為語義教師。Mimi引入了一個額外的損失函數,用于減小語義RVQ代碼與WavLM生成的嵌入之間的余弦距離。

音頻解碼器

給定一個包含文本和音頻的對話,我們首先使用文本和音頻標記器將它們轉換為一個標記嵌入序列。然后,該標記序列作為時間序列輸入到轉換器模型中。在作者的博客文章中,該模型被稱為自回歸骨干轉換器(Autoregressive Backbone Transformer)。它的任務是處理該時間序列并輸出“第零個”碼本標記。

然后,一個稱為音頻解碼器的輕量級轉換器會根據主干轉換器生成的第零個代碼,重建下一個碼本標記。需要注意的是,由于主干轉換器能夠看到整個過去的序列,因此第零個代碼已經包含了大量關于對話歷史的信息。輕量級音頻解碼器僅對第零個標記進行操作,并生成其余N-1個代碼。這些代碼由N-1個不同的線性層生成,這些線性層輸出從其對應碼本中選擇每個代碼的概率。

你可以把這個過程想象成在純文本的LLM中根據詞匯表預測文本標記。只不過,基于文本的LLM只有一個詞匯表,而RVQ標記器則以N個碼本的形式擁有多個詞匯表,因此你需要訓練一個單獨的線性層來為每個詞匯表建模碼本。

Sesame架構

最后,所有碼字生成完成后,我們將它們聚合起來,形成組合的連續音頻嵌入。最后一步是將音頻轉換回波形。為此,我們應用轉置卷積層將嵌入從12.5Hz升頻回kHz波形音頻。本質上,這相當于逆轉了我們在音頻預處理過程中最初應用的變換。

總結

觀看本文附帶的視頻!(作者視頻)

以下是針對Sesame模型的一些要點的總結:

  • Sesame建立在多模式對話語音模型或CSM之上。
  • 文本和音頻一起被標記以形成標記序列,并輸入到主干轉換器中,該轉換器對該序列進行自回歸處理。
  • 雖然文本的處理方式與其他基于文本的LLM類似,但音頻的處理則直接基于其波形表示。他們使用Mimi編碼器,通過分割RVQ標記器將波形轉換為潛在代碼。
  • 多模態骨干變換器消耗一系列標記并預測下一個第零個碼字。
  • 另一個稱為音頻解碼器的輕量級轉換器根據第零個代碼字預測下一個代碼字。
  • 最終的音頻幀表示是通過組合所有生成的碼字并上采樣回波形表示而生成的。

參考文獻和必讀論文

Moshi:https://arxiv.org/abs/2410.00037

SoundStream:https://arxiv.org/abs/2107.03312

HuBert:https://arxiv.org/abs/2106.07447

Speech Tokenizer:https://arxiv.org/abs/2308.16692

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Sesame Speech Model: How This Viral AI Model Generates Human-Like Speech,作者:Avishek Biswas

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2019-08-15 09:00:00

AI人工智能

2018-12-13 12:03:59

閃存

2024-05-30 15:45:53

2025-04-23 09:23:15

2025-01-07 09:00:00

2024-05-21 12:13:12

2025-05-16 08:37:35

2025-03-27 17:26:39

Testin云測

2025-04-22 08:08:37

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 完全免费av在线 | 午夜免费福利电影 | 国产日韩精品久久 | 99久久夜色精品国产亚洲96 | 国产一区二区三区网站 | 91私密视频 | 国产精品视频久久久 | 日韩av一区二区在线观看 | 欧美一区| 老熟女毛片 | 综合网伊人 | 久久青视频| 日韩高清一区二区 | av毛片在线免费观看 | 男女久久久 | 中国一级特黄毛片大片 | 亚洲综合中文字幕在线观看 | 国产一区二区三区免费视频 | 国产精品免费视频一区 | 淫片一级国产 | 国产精品s色 | 亚洲人成人一区二区在线观看 | 国产成人精品一区二 | 久久国产精品久久久久久 | 久久精品国产免费一区二区三区 | eeuss国产一区二区三区四区 | 一级午夜aaa免费看三区 | 欧美一区二区三区在线看 | 国产精品18久久久久久久 | 欧美成年人 | 亚洲视频在线观看 | 97精品超碰一区二区三区 | 成人三级av | 最新av在线播放 | 成人在线中文 | 国产精品久久久久aaaa九色 | 成年人的视频免费观看 | 欧美日韩在线播放 | 亚洲精品一区中文字幕乱码 | 国产91丝袜在线播放 | 91 在线|