成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為了合成讓人類聽懂的語音,機器做了哪些“深度學習”?

人工智能 深度學習
深度學習在2006年開始嶄露頭腳后,近幾年取得了飛速的發展,無論是學術研究還是企業應用均呈現出指數級增長的趨勢;伴隨著這項技術的不斷成熟,深度學習在智能語音領域率先發力,取得一系列成功的應用。

深度學習在2006年開始嶄露頭腳后,近幾年取得了飛速的發展,無論是學術研究還是企業應用均呈現出指數級增長的趨勢;伴隨著這項技術的不斷成熟,深度學習在智能語音領域率先發力,取得一系列成功的應用。

例如,一. 音色的定制化,需要跟蹤錄大量的音庫,重新訓練一個模型;二. 個性化表示方法的定制化,可以錄一些數據,通過深度學習訓練模型,自適應的方法來實現。

深度學習在統計參數語音合成中的應用

語音合成主要采用波形拼接合成和統計參數合成兩種方式。波形拼接語音合成需要有足夠的高質量發音人錄音才能夠合成高質量的語音,它是商業產品中最常用的語音合成技術。統計參數語音合成雖然整體合成質量略低,但是在小規模語料、低占用資源的情況下,優勢更為明顯。此外,混合語音合成聯合了波形拼接合成和統計參數合成的優勢,選音方法類似于傳統的波形拼接方法,它利用參數合成方法來指導選音;接下來重點介紹目前廣泛使用的語音合成方法:

(1) 傳統的基于DNN/LSTM的合成

為了合成讓人類聽懂的語音,機器做了哪些“深度學習”?

傳統的基于HMM統計參數的語音合成是在訓練過程中建立文本參數與聲學參數之間的映射模型,通過高斯混合模型描述每個建模單元。在建模過程中有三個環節會導致語音音質下降,第一是決策樹的聚類,第二是聲碼器,第三是參數生成算法。針對決策樹聚類問題,可以通過深層神經網絡建立文本特征和聲學特征之間的映射關系,替代傳統的淺層模型,提高模型精度;比較典型的深層神經網絡模型結構包括深層置信神經網絡和長短時記憶遞歸神經網絡;后者具有更強的序列學習能力,采用BLSTM-RNN建模時,還可以跳過參數生成算法直接預測語音參數,最后通過聲碼器就可以合成語音;總的來說,利用深層神經網絡強大的非線性建模能力,在一定程度上提升了語音合成系統的性能,但是并沒有跳出原有的語音合成系統框架。

(2) 基于WaveNet的合成

為了合成讓人類聽懂的語音,機器做了哪些“深度學習”?

在已有的研究中,很少有人會直接在時域上對已有音頻建模。從直覺上分析,構建一個自回歸模型,能夠預測每一個samples是如何被前面所有的samples所影響的,是一個相當艱巨的任務。谷歌提出的基于WaveNets的語音合成方法,跳出了傳統語音合成框架,繞開聲碼器模塊,直接對采樣點進行預測,面對這個充滿挑戰的問題,取得了突破。

WaveNet語音合成系統的輸入包括文本特征以及先前時段的音頻采樣點。其中文本特征的有效表述起到非常重要的作用。如果在沒有文本序列的情況下來訓練網絡,仍然可以生成語音,但是無法聽懂輸出音頻的內容。WaveNet語音合成系統存在的問題是模型每次輸出單個采樣點,計算效率難以滿足實用要求。可以引入一些自適應的方法對已有模型進行優化,使其能夠適用于不同發音人。也可以在模型的輸入端提供更多的信息,例如情感或口音,這樣使得生成的語音可以更多樣化,更具表現力。

(3) 基于DeepVoice的合成

為了合成讓人類聽懂的語音,機器做了哪些“深度學習”?

百度提出了Deep Voice語音合成系統,它將里面的很多模塊用深度神經網絡去實現,通過類似于WaveNet的合成器來合成,效果也是比較理想的。已有的語音合成系統會在某些環節上采用深度學習,但在Deep Voice之前,沒有團隊采用全深度學習的框架。傳統語音合成需要進行大量的特征處理和特征構建,但百度通過使用深度學習避免了這些問題。這使得 Deep Voice 的應用范圍更加廣泛,使用起來也更加方便。如果需要應用于新的數據集,傳統的語音合成系統完成重新訓練需數天到數周的時間進行調節,而對Deep Voice進行手動操作和訓練模型所需的時間只要幾個小時就足夠。相比于WaveNet語音合成系統 ,現在這個系統的有效速度提升了400倍。

(4) 兩個端對端的語音合成

第一個是Char2Wav,這個模型是直接對輸入的文本進行編碼,采用encoder-decoder模型。對輸入特征進行編碼,然后生成的中間編碼信息放到解碼器里進行最后的合成,合成采用SimpleRNN的合成器來合成語音,效果也是比較理想的,而且是典型的End-To-End的語音合成模型。

為了合成讓人類聽懂的語音,機器做了哪些“深度學習”?

再一個是谷歌提出的端對端的語音合成系統,它跟Char2Wav比較類似,輸入的也是Embeddings,合成的效果也比較理性。

作者,馬驥:極限元智能科技聯合創始人,中科院-極限元“智能交互聯合實驗室”副主任,曾先后就職于中科院軟件研究所、華為技術有限公司,獲得多項關于語音及音頻領域的專利,資深軟件開發工程師和網絡安全解決方案專家,擅長從用戶角度分析需求,提供有效的技術解決方案,具有豐富的商業交流和項目管理經驗。

作者:馬驥,極限元智能科技聯合創始人,中科院-極限元“智能交互聯合實驗室”副主任。

責任編輯:未麗燕 來源: 極限元
相關推薦

2014-12-10 21:50:44

AdMaster

2018-02-06 15:42:01

AI

2023-02-24 14:15:10

機器人谷歌

2016-03-14 11:40:51

深度學習大數據高性能計算

2023-10-18 16:02:24

機器學習深度學習ChatGPT

2015-08-12 15:31:18

人工智能深度學習Fackbook

2022-08-11 08:00:00

機器學習合成數據深度學習

2014-11-25 11:25:56

浪潮

2020-12-08 09:30:25

CPU內存I

2021-01-25 14:32:44

機器學習AI人工智能

2017-08-30 09:20:47

深度學習語音合成Siri

2017-03-20 16:42:00

語音識別數據庫人工智能

2018-03-25 20:51:07

語音合成深度前饋序列記憶網絡

2017-09-15 18:13:57

機器學習深度學習語音識別

2017-03-17 08:30:08

機器學習深度學習人工智能

2025-05-13 09:21:30

2019-07-16 11:10:32

CIOHermes轉型

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2021-06-23 10:27:48

機器學習人工智能計算機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 看av在线 | 日韩av黄色 | 日韩av在线一区 | 日本精品一区 | 黄a免费网络 | 免费一级毛片 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 在线成人av | 一区二区中文字幕 | 美国一级黄色片 | 婷婷久久综合 | 伊人伊成久久人综合网站 | 国产精品视频一区二区三区四蜜臂 | 久久精品一区二区三区四区 | 国产精品美女久久久久aⅴ国产馆 | 亚洲高清成人 | 亚洲高清成人在线 | 在线看91 | 精品国产综合 | www.久久| 中国一级大黄大片 | 久热爱 | 午夜影院网站 | 一区二区三区免费观看 | 四虎成人精品永久免费av九九 | 亚洲一区二区av | 亚洲一区中文字幕 | 午夜精品在线观看 | 看片国产| 亚洲精品一区二区三区在线 | 亚洲中午字幕 | 一级欧美 | 成人一区av| 国产精品久久久久久久久久久免费看 | 日韩久草 | 亚洲一区成人 | 国产999精品久久久影片官网 | www.中文字幕av | 日韩男人天堂 | 欧美激情一区二区三级高清视频 | 免费在线成人 |