成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語音合成也遵循Scaling Law,太乙真人“原聲放送”講解論文 | 港科大等開源

人工智能 新聞
由香港科技大學(xué)等聯(lián)合推出,它驗(yàn)證語音合成模型,也可以遵循Scaling Law,即擴(kuò)展計(jì)算資源、語音合成效果可以更好。

活久見,太乙真人給講論文了噻!

咳咳,諸位道友且聽我一番嘮叨。

老道我閉關(guān)數(shù)日,所得一篇妙訣,便是此Llasa之法。此術(shù)上個(gè)月一出,海外仙長們無不瞠目結(jié)舌,直呼“HOLY SHIT”!

圖片

熱度最高時(shí),曾在huggingface上的“丹藥熱度榜”上排第六。

圖片

咳咳,書回正傳。

如上引發(fā)圍觀的成果由香港科技大學(xué)等聯(lián)合推出,它驗(yàn)證語音合成模型,也可以遵循Scaling Law,即擴(kuò)展計(jì)算資源、語音合成效果可以更好

它核心提出了一個(gè)語音合成的簡單框架Llasa,該框架采用單層VQ編解碼器和單個(gè)Transformer架構(gòu),和標(biāo)準(zhǔn)LLM保持一致。

研究團(tuán)隊(duì)提供了TTS模型(1B、3B、8B)、編解碼器的checkpoint以及訓(xùn)練代碼。

一氣呵成TTS系統(tǒng)

近年來,基于Transformer的大型語言模型(LLM)在自然語言處理領(lǐng)域取得了顯著進(jìn)展,尤其是通過擴(kuò)展模型規(guī)模和訓(xùn)練數(shù)據(jù)來提升性能。

然而,當(dāng)前的TTS系統(tǒng)通常需要多階段模型(例如在 LLM 后使用擴(kuò)散模型),這使得在訓(xùn)練或推理階段擴(kuò)展計(jì)算資源變得復(fù)雜。

本研究提出了一種單階段TTS框架Llasa,旨在簡化這一過程,同時(shí)探索訓(xùn)練時(shí)間和推理時(shí)間擴(kuò)展對語音合成的影響。

它基于Llama模型,采用單Transformer架構(gòu),結(jié)合了一個(gè)設(shè)計(jì)良好的語音分詞器(tokenizer),能夠?qū)⒄Z音波形編碼為離散的語音標(biāo)記,并解碼回高質(zhì)量音頻。

該框架的核心在于將語音和文本標(biāo)記聯(lián)合建模,通過預(yù)測下一個(gè)語音標(biāo)記來生成語音。

關(guān)鍵組件:

  • 語音分詞器(Xcodec2):將語音波形編碼為離散標(biāo)記,同時(shí)保留語音的語義和聲學(xué)信息。
  • Transformer模型:基于 Llama 初始化,學(xué)習(xí)文本和語音標(biāo)記的聯(lián)合分布。

驗(yàn)證Scaling Law

訓(xùn)練時(shí)間擴(kuò)展(Scaling Train-time Compute)

研究者通過擴(kuò)展模型規(guī)模和訓(xùn)練數(shù)據(jù)規(guī)模來研究其對語音合成性能的影響。

實(shí)驗(yàn)表明,增加模型參數(shù)(從1B到8B)和訓(xùn)練數(shù)據(jù)量(從80k小時(shí)到250k小時(shí))可以顯著提高語音的自然度、韻律準(zhǔn)確性和情感表達(dá)能力。

關(guān)鍵發(fā)現(xiàn):

  • 文本理解能力:更大的模型和更多的數(shù)據(jù)能夠更好地理解復(fù)雜文本(如詩歌、情感文本)。數(shù)據(jù)越多,連生僻字,復(fù)合詞也能辨其真意。
  • 零樣本學(xué)習(xí)能力:擴(kuò)展訓(xùn)練資源能夠顯著提高模型對未見說話人的語音克隆能力。

推理時(shí)間擴(kuò)展(Scaling Inference-time Compute)

研究還探索了在推理階段通過增加計(jì)算資源(例如使用語音理解模型作為驗(yàn)證器)來優(yōu)化生成語音的質(zhì)量。實(shí)驗(yàn)表明,推理時(shí)間擴(kuò)展可以顯著提高語音的情感表達(dá)、音色一致性和內(nèi)容準(zhǔn)確性。

關(guān)鍵方法:

  • 過程獎(jiǎng)勵(lì)模型(PRM):通過逐步優(yōu)化生成過程來提高語音質(zhì)量。
  • 輸出獎(jiǎng)勵(lì)模型(ORM):通過評(píng)估最終生成的語音來選擇最優(yōu)輸出。

實(shí)驗(yàn)結(jié)果

  • 語音分詞器性能:提出的Xcodec2在多個(gè)指標(biāo)上優(yōu)于現(xiàn)有分詞器,特別是在低比特率下的語音重建質(zhì)量。
  • TTS 性能:Llasa在LibriSpeech、Seed-TTS-Eval和ESD數(shù)據(jù)集上達(dá)到了最先進(jìn)的性能,尤其是在情感相似性、音色相似性和零樣本學(xué)習(xí)能力方面。
  • 推理時(shí)間擴(kuò)展效果:通過PRM和ORM方法,推理時(shí)間擴(kuò)展顯著提高了語音合成的質(zhì)量,尤其是在復(fù)雜任務(wù)中。

“開源渡世”

咳咳,太乙真人重新上線:

老道已將丹方(訓(xùn)練代碼)、丹藥(模型權(quán)重)公之于世,廣邀三界修士共參:

秘方參照:Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

圖片

論文鏈接:https://arxiv.org/abs/2502.04128

Llasa 訓(xùn)練代碼 https://github.com/zhenye234/LLaSA_training

Codec 訓(xùn)練 https://github.com/zhenye234/X-Codec-2.0

Llasa test-time-scaling代碼 https://github.com/zhenye234/LLaSA_inference

模型權(quán)重: https://huggingface.co/collections/HKUSTAudio/llasa-679b87dbd06ac556cc0e0f44

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-13 15:00:42

2024-08-29 14:05:00

數(shù)據(jù)模型

2025-04-01 09:20:00

模型預(yù)測AI

2023-08-09 17:10:01

論文獲獎(jiǎng)

2024-09-02 14:30:00

數(shù)據(jù)訓(xùn)練

2017-09-06 10:51:22

Facebook

2024-12-30 13:40:00

2025-06-12 11:56:30

模型框架開源

2024-09-18 11:30:00

AI架構(gòu)訓(xùn)練

2024-12-16 07:15:00

2024-11-14 18:40:57

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)

2022-09-15 09:59:55

火山語音語音建模

2024-11-04 09:35:00

2024-11-06 13:03:49

2020-09-18 15:12:41

達(dá)摩院語音AI

2023-05-17 13:51:30

CVPR武大華為

2024-11-25 14:00:00

計(jì)算機(jī)AI技術(shù)

2024-04-17 13:22:55

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美黑人狂野猛交老妇 | 国产日韩欧美中文字幕 | 欧美xxxx色视频在线观看免费 | 精品国产一区二区国模嫣然 | 国产精品久久久久久婷婷天堂 | 密室大逃脱第六季大神版在线观看 | 午夜视频在线免费观看 | 可以在线观看av的网站 | 拍戏被cao翻了h承欢 | www国产亚洲精品久久网站 | 国产精品久久久久9999鸭 | 国产精品亚洲一区二区三区在线 | 在线视频 欧美日韩 | 精品国产一区二区三区av片 | 久久一热| 久久99精品久久久久久 | 蜜桃传媒一区二区 | 国产天堂| 婷婷综合五月天 | www.yw193.com| 日韩电影一区 | 一区二区三区欧美 | 成人久久18免费网站 | 午夜在线观看视频 | 亚洲精品乱码久久久久久9色 | 久久99精品国产 | 成人伊人 | 性色av网站 | 午夜在线小视频 | 国产激情一区二区三区 | 粉嫩一区二区三区四区公司1 | 一区二区三区免费在线观看 | 国产成在线观看免费视频 | 国产免费一区 | 精品九九 | 99re6在线| 久久综合一区二区三区 | 亚洲精品乱码8久久久久久日本 | 久久久久成人精品免费播放动漫 | 欧美激情欧美激情在线五月 | 黄色三级免费 |