有這5款開(kāi)源軟件,語(yǔ)音轉(zhuǎn)文字很簡(jiǎn)單!
語(yǔ)音文字轉(zhuǎn)換(STT)系統(tǒng),一種能夠?qū)⒄Z(yǔ)音單詞轉(zhuǎn)換成文本的方法,用途十分廣泛,比如我們經(jīng)常在用的微信聊天中語(yǔ)音轉(zhuǎn)文字功能。
過(guò)去,語(yǔ)音轉(zhuǎn)文本技術(shù)由專(zhuān)有軟件和庫(kù)控制;開(kāi)源替代方案不存在或存在極端局限,如今這種形勢(shì)已經(jīng)發(fā)生變化,今天你可以使用許多開(kāi)源的語(yǔ)音轉(zhuǎn)文本工具和庫(kù),今天,我們就舉5個(gè)好用的開(kāi)源語(yǔ)音識(shí)別庫(kù)。
1、DeepSpeech項(xiàng)目
該項(xiàng)目由Mozilla開(kāi)發(fā),這是一個(gè)100%免費(fèi)的開(kāi)源語(yǔ)音轉(zhuǎn)文本庫(kù),它使用了 TensorFlow 機(jī)器學(xué)習(xí)框架實(shí)現(xiàn)去功能。
你可以使用它自己構(gòu)建訓(xùn)練模型,以增強(qiáng)語(yǔ)音轉(zhuǎn)換到文本的效果,你還可以根據(jù)自己的需要引入其他語(yǔ)言,甚至可以輕松把它集成到TensorFlow上的其他機(jī)器學(xué)習(xí)項(xiàng)目中。唯一可惜的是,該項(xiàng)目目前默認(rèn)情況下僅支持英語(yǔ)。
它也支持多種語(yǔ)言,例如Python(3.6)。運(yùn)行十分簡(jiǎn)單:
- pip3安裝deepspeech
- deepspeech --model模型/output_graph.pbmm --alphabet模型/alphabet.txt --lm模型/lm.binary --trie模型/ trie --audio my_audio_file.wav
你也可以使用npm安裝它:
- npm安裝deepspeech
近日,DeepSpeech還登上Github Trending周榜:
Github地址:https://github.com/mozilla/DeepSpeech
2、Kaldi
Kaldi是用C++編寫(xiě)的開(kāi)源語(yǔ)音識(shí)別軟件,遵循Apache公共許可協(xié)議,支持Windows,macOS和Linux,2009年就已經(jīng)發(fā)布了。
與其他語(yǔ)音識(shí)別軟件相比,Kaldi的主要功能是可擴(kuò)展和模塊化。社區(qū)提供了大量的第三方模塊,Kaldi還支持深度神經(jīng)網(wǎng)絡(luò),并在其網(wǎng)站上提供了完整的使用文檔。
雖然代碼主要是用C++編寫(xiě)的,但是它通過(guò) Bash 和 Python 腳本進(jìn)行了封裝。因此,如果你只是想實(shí)現(xiàn)基本的語(yǔ)音轉(zhuǎn)換成文本功能,那通過(guò)Python或Bash就可以輕松實(shí)現(xiàn)這一點(diǎn)。
項(xiàng)目主頁(yè):http://kaldi-asr.org/
3、Julius
這可能是有史以來(lái)最古老的語(yǔ)音識(shí)別軟件之一;京都大學(xué)在1991年的時(shí)候開(kāi)發(fā)的,然后于2005年將它移交給一個(gè)獨(dú)立的項(xiàng)目團(tuán)隊(duì)。
Julius 的主要特點(diǎn)包括了執(zhí)行實(shí)時(shí) STT 的能力,低內(nèi)存占用(20000 單詞少于 64 MB),能夠輸出最優(yōu)詞N-best word和詞圖Word-graph,能夠作為服務(wù)器單元運(yùn)行等等。這款軟件主要為學(xué)術(shù)和研究所設(shè)計(jì)。它是由C 語(yǔ)言寫(xiě)成,并且可以運(yùn)行在 Linux、Windows、macOS 甚至 Android(在智能手機(jī)上)。
目前,它僅支持英語(yǔ)和日語(yǔ),該軟件可能很容易安裝在Linux發(fā)行版的倉(cāng)庫(kù)中。只需在軟件包管理器中搜索julius包即可。
項(xiàng)目主頁(yè):https://github.com/julius-speech/julius
4、Wav2Letter ++
Wav2Letter ++是一款開(kāi)源語(yǔ)音識(shí)別軟件,在今年由Facebook的AI研究團(tuán)隊(duì)發(fā)布。該代碼在BSD許可下發(fā)布。Facebook將其倉(cāng)庫(kù)描述為“當(dāng)下最快、最先進(jìn)的語(yǔ)音識(shí)別系統(tǒng)”,默認(rèn)情況下,構(gòu)建此工具所基于的概念使其針對(duì)性能進(jìn)行了優(yōu)化,Wav2Letter ++是基于FlashLight構(gòu)建,它也是Facebook最新的機(jī)器學(xué)習(xí)庫(kù)。
使用Wav2Letter ++,你首先需要為你自己想要的語(yǔ)言構(gòu)建訓(xùn)練模型,以便于訓(xùn)練算法,沒(méi)有任何一種語(yǔ)言(包括英語(yǔ))的預(yù)訓(xùn)練模型,它僅僅是個(gè)機(jī)器學(xué)習(xí)驅(qū)動(dòng)的文本語(yǔ)音轉(zhuǎn)換工具,它用 C++ 寫(xiě)成,因此被命名為 Wav2Letter++。
項(xiàng)目主頁(yè):https://github.com/facebookresearch/wav2letter
5、DeepSpeech2
百度的研究人員也在研究自己的語(yǔ)音轉(zhuǎn)文本引擎DeepSpeech2。這是一個(gè)端到端的開(kāi)源引擎,它使用“ PaddlePaddle”深度學(xué)習(xí)框架將英語(yǔ)和普通話(huà)的語(yǔ)音轉(zhuǎn)換為文本。該項(xiàng)目在BSD許可下發(fā)布。
該引擎可以針對(duì)任何模型和所需的任何語(yǔ)言進(jìn)行培訓(xùn)。模型不隨代碼一起發(fā)布;就像其他軟件一樣,你必須自己構(gòu)建它們。DeepSpeech2的源代碼是用Python編寫(xiě)的;因此,如果這是你使用的語(yǔ)言,你應(yīng)該很快就能使用上手
項(xiàng)目地址:https://github.com/PaddlePaddle/DeepSpeech
語(yǔ)音識(shí)別類(lèi)別主要還是由專(zhuān)有軟件巨頭(例如Google和IBM)來(lái)主導(dǎo)(它們確實(shí)為此提供了自己的閉源商業(yè)服務(wù)),但是開(kāi)源替代方案是有希望的。這5個(gè)開(kāi)源語(yǔ)音識(shí)別引擎讓你可以自己著手構(gòu)建應(yīng)用程序,不知道有沒(méi)有你用過(guò)的呢?