譯者 | 李睿
審校 | 重樓
Dia-1.6B TTS是由Nari Labs開發(fā)的一款擁有16億個(gè)參數(shù)的文本轉(zhuǎn)語(yǔ)音模型(TTS)。本文將詳細(xì)介紹該模型,以及其訪問(wèn)途徑、使用方法,并展示實(shí)際應(yīng)用結(jié)果以真正了解該模型的功能。
你是否正在尋求一種合適的文本轉(zhuǎn)語(yǔ)音模型?擁有16億個(gè)參數(shù)的Dia-1.6B TTS模型或許是理想之選。令人驚訝的是,這款模型竟是由兩名本科生在毫無(wú)資金支持的情況下開發(fā)的。本文將介紹這款模型以及如何訪問(wèn)與使用,并通過(guò)實(shí)際結(jié)果了解其強(qiáng)大的功能。在使用該模型之前,首先了解其基本情況。
Dia-1.6B是什么?
以文本作為輸入,自然語(yǔ)音作為輸出為目標(biāo)的模型稱為文本到語(yǔ)音模型。Nari Labs開發(fā)的Dia-1.6B參數(shù)模型是文本到語(yǔ)音模型之一。這款模型具備根據(jù)文本生成高度逼真對(duì)話的能力,并支持非語(yǔ)言交流,例如笑聲、打噴嚏、吹口哨等,其強(qiáng)大的功能令人期待。
如何訪問(wèn)Dia-1.6B?
用戶可以通過(guò)以下兩種方法訪問(wèn)Dia-1.6B模型:
(1)在Google Colab中使用Hugging Face API
(2)使用Hugging Face Spaces
第一種方法需要獲取API密鑰,然后將其與代碼集成到Google Colab中。第二種方法無(wú)需編程,支持交互式地使用Dia-1.6B。
1.使用Hugging Face和Google Colab
該模型可在Hugging Face上使用,可以在Google Colab筆記本(notebook)中的T4 GPU提供的10GB 內(nèi)存(VRAM)的幫助下運(yùn)行,可以通過(guò)一個(gè)簡(jiǎn)短對(duì)話來(lái)演示其使用方法。
在開始之前,首先需要獲取Hugging Face訪問(wèn)令牌,用于運(yùn)行代碼。如果還沒有密鑰,可以訪問(wèn)https://huggingface.co/settings/tokens并生成一個(gè)密鑰。
確保啟用以下權(quán)限:
在Google Colab中新建一個(gè)筆記本,并將其密鑰添加到secrets中(其名稱為HF_Token):
注:切換到T4 GPU運(yùn)行這個(gè)筆記本。否則無(wú)法使用運(yùn)行該模型所需的10GB內(nèi)存。
接下來(lái)開始運(yùn)行該模型:
(1)首先克隆Dia模型的Git存儲(chǔ)庫(kù):
!git clone https://github.com/nari-labs/dia.git
(2)安裝本地軟件包:
pip install ./dia
(3)安裝soundfile音頻庫(kù):
!pip install soundfile
在執(zhí)行完上述命令后,重新啟動(dòng)會(huì)話,然后再繼續(xù)。
(4)在安裝完成后,進(jìn)行必要的導(dǎo)入并初始化模型:
import soundfile as sf
from dia.model import Dia
import IPython.display as ipd
model = Dia.from_pretrained("nari-labs/Dia-1.6B")
(5)初始化文本以進(jìn)行文本到語(yǔ)音轉(zhuǎn)換:
text = "[S1] This is how Dia sounds. (laugh) [S2] Don't laugh too much. [S1] (clears throat) Do share your thoughts on the model."
(6)對(duì)模型運(yùn)行推理:
output = model.generate(text)
sampling_rate = 44100 # Dia uses 44.1Khz sampling rate.
output_file="dia_sample.mp3"
sf.write(output_file, output, sampling_rate) # Saving the audio
ipd.Audio(output_file) # Displaying the audio
輸出的語(yǔ)音:
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/05/dia_sample.mp3
這段語(yǔ)音非常像人類的聲音,該模型在非語(yǔ)言交流方面表現(xiàn)優(yōu)異。值得注意的是,由于沒有語(yǔ)音模板,其結(jié)果是不可復(fù)制的。
注:可以嘗試修復(fù)模型的種子以再現(xiàn)結(jié)果。
2.使用Hugging Face Spaces
可以嘗試通過(guò)Hugging Face Spaces來(lái)克隆語(yǔ)言。這里有一個(gè)直接使用模型的在線界面:https://huggingface.co/spaces/nari-labs/Dia-1.6B
在這里可以傳遞輸入文本,另外也可以使用“音頻提示”來(lái)復(fù)制聲音。這里輸入了之前生成的音頻。
以下文本作為輸入:
[S1] Dia is an open weights text to dialogue model.
[S2] You get full control over scripts and voices.
[S1] Wow. Amazing. (laughs)
[S2] Try it now on Git hub or Hugging Face.
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/05/audio.wav
你可以進(jìn)行評(píng)判,你認(rèn)為這個(gè)模型是否成功捕捉并復(fù)制了之前的語(yǔ)音?
注:在使用Hugging Face Spaces生成語(yǔ)音時(shí)出現(xiàn)了多個(gè)錯(cuò)誤,可以嘗試更改輸入文本或音頻提示以使該模型正常工作。
使用Dia-1.6B時(shí)的注意事項(xiàng)
在使用Dia-1.6B模型時(shí),應(yīng)該注意以下幾點(diǎn):
- 該模型沒有針對(duì)特定的聲音進(jìn)行微調(diào)。每次運(yùn)行都會(huì)有不同的聲音。可以嘗試修復(fù)模型的種子以重現(xiàn)結(jié)果。
- Dia模型使用44.1kHz采樣率。
- 在安裝庫(kù)后,需要確保重新啟動(dòng)Colab筆記本。
- 在使用Hugging Face Spaces生成語(yǔ)音時(shí)出現(xiàn)了多個(gè)錯(cuò)誤,可以嘗試更改輸入文本或音頻提示以使模型工作。
結(jié)論
Dia-1.6B模型的輸出結(jié)果令人期待,尤其是與競(jìng)爭(zhēng)對(duì)手相比。其最大優(yōu)勢(shì)在于支持廣泛的非語(yǔ)言交流。該模型具有獨(dú)特的語(yǔ)調(diào),聲音也令人感覺很自然,但是由于沒有針對(duì)特定語(yǔ)音進(jìn)行微調(diào),可能難以復(fù)現(xiàn)特定語(yǔ)音。與其他生成式人工智能工具一樣,人們應(yīng)該負(fù)責(zé)任地使用這種模型。
常見問(wèn)題解答
問(wèn)題1:在對(duì)話中只能有兩個(gè)對(duì)話者嗎?
答:對(duì)話并不局限于只有兩個(gè)對(duì)話者。雖然兩個(gè)人的對(duì)話(如[S1]和[S2])比較常見,但可以通過(guò)標(biāo)記為[S1]、[S2]、[S3]等方式增加更多對(duì)話人。這在模擬小組對(duì)話、訪談或多方對(duì)話時(shí)特別有用。只要確保在提示中清楚地指出誰(shuí)在說(shuō)話,Dia-1.6B模型就可以正確地跟隨并為每個(gè)對(duì)話者生成連貫的回復(fù)。這種靈活性允許更動(dòng)態(tài)和上下文豐富的交互。
問(wèn)題2:Dia 1.6B是付費(fèi)模型嗎?
答:Dia 1.6B模型并不是付費(fèi)模型,可以完全免費(fèi)使用。它是一款托管在Hugging Face上的開源對(duì)話模型,無(wú)需訂閱費(fèi)或授權(quán)成本。無(wú)論是學(xué)生、開發(fā)者還是研究人員,都無(wú)需預(yù)付任何費(fèi)用。這使其成為實(shí)驗(yàn)、原型設(shè)計(jì)或教育用途的理想選擇。
問(wèn)題3:是否在不用擔(dān)心硬件或編碼情況下使用這個(gè)模型?
答:用戶可以直接通過(guò)Hugging Face Spaces使用Dia 1.6B模型,它提供了一個(gè)基于web的界面。這意味著無(wú)需設(shè)置Python環(huán)境、安裝庫(kù)或者擔(dān)心GPU的可用性。只需訪問(wèn)其頁(yè)面,就可以在瀏覽器中立即與Dia 1.6B模型進(jìn)行互動(dòng)。
問(wèn)題4:可以針對(duì)自己的用例對(duì)Dia 1.6B進(jìn)行微調(diào)嗎?
答:是的,如果用戶有特定的數(shù)據(jù),并希望Dia 1.6B模型在其研究領(lǐng)域表現(xiàn)得更好,可以對(duì)Dia 1.6B模型進(jìn)行微調(diào)。但需要具備一些技術(shù)專長(zhǎng)和計(jì)算資源,或者可以使用Hugging Face的訓(xùn)練工具。
問(wèn)題5:Dia 1.6B模型是否有令牌或使用限制?
答:在默認(rèn)情況下沒有強(qiáng)制性限制,但Hugging Face Spaces可能會(huì)有速率或?qū)υ挄r(shí)間限制來(lái)管理服務(wù)器負(fù)載。
原文標(biāo)題:Dia-1.6B TTS : Best Text-to-Dialogue Generation Model,作者:Mounish V