成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅用1/4數據量還原真人語音100%細節,火山語音上新超自然對話語音合成技術!

新聞 語音識別
火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現,而且只需常規音庫1/4數據,就可完美還原真人說話細微的韻律特點、發音口癖,讓合成效果更加真實。

數星星盼月亮,萬千杰迷苦等6年,不久之前終于等到周董發新專輯啦!一經上線引爆全網討論。

正當大家沉浸在對那時青蔥歲月的美好追憶時,發布爆火音頻的小伙伴表示:這段對話居然是語音合成的!

提到“語音合成”,你腦海中可能會出現這樣的種種:

?       導航中種類豐富但語氣機械的“前方路口左轉”

?       接電話時,對面笨拙無感情的“您好,這里是xx信用卡中心”

?       視頻網站上,十個解說視頻九個聲音相同,看到就想趕快劃走的“注意看,這個男人叫小帥”…...

而如今直接顛覆了許多人的刻板印象,語音合成技術已經能做到像上面那段音頻一樣完美自然的效果了。這段音頻的發布者——火山語音,字節跳動 AI Lab Speech & Audio 智能語音與音頻團隊,又通過兩段音頻更好地向大眾解密里面的技術亮點。

這幾句輸入的文本完全相同,即 “南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料” ,但合成的音頻效果卻有明顯差異,即第二段音頻來源于火山語音團隊本次上新的超自然對話語音合成技術。

回想一下人在日常表達時的狀態,大腦處理信息是需要思考時間的。體現到語言上,人就會不由自主的出現一些猶豫、拖音、倒裝,甚至是說了一半改口、結巴重復的情況,也會刻意加重讀音強調想表達的重點信息。這就帶來了大量難以觀測的細微表達。這些現象在傳統的TTS中難以被捕捉還原。而這些細微之處的完美復現正是讓聲音真假難辨的奧妙之源,也是上述音頻的奧秘所在。

具體來說,火山語音團隊最新發布的超自然對話語音合成技術相較傳統TTS更加真實自然,即語氣詞、吸氣聲、猶豫時的停頓以及字音拖長等細節統統被完美復現,而且只需常規音庫1/4數據,就可完美還原真人說話細微的韻律特點、發音口癖,讓合成效果更加真實。有專業評測結果顯示,火山語音的這項新技術與真人錄音對比基本沒有差距,難以被評測者分辨出來。此外這項技術目前已在視頻配音、電話客服等多個場景投入應用,近日即將上線火山引擎語音技術官網對外露出。

這么厲害的技術,究竟是怎么辦到的?

據介紹,上述這些在實際交流中經常出現的倒吸氣、吞音、思考時不由自主的拖長字音、低笑等表現被稱為副語言現象(paralanguage),盡管這是人腦思考、表達過程中最真實的表現,但由于傳統的語音合成技術框架無法對分布稀疏的副語言現象進行有效建模,所以在說話時的韻律還原度表現有限、過于“正確”。

基于上述難點,火山語音超自然語音合成技術分別從文本語音建模兩個層面進行突破,具體來說:

?       在文本層面,火山語音采用了生成式的風格遷移模型,模仿真人說話的方式對文本進行可控的口語化轉寫,讓文本更好地擁抱口語化,避免最終效果太過書面。

?       在語音層面,團隊則是通過文本分析模型的突破,在TTS的輸入側額外增加了副語言預測,模仿真人的發音特點來實現自然自發的語音效果。

值得一提的是,團隊通過使用無監督特征的TTS建模方案,有效提高了模型的穩定性與表現力,僅僅使用常規音庫1/4的數據規模,就可以實現十分自然多變的韻律效果,很贊吧?

致力文本口語化 讓“擬真人表達”躍然紙上

文本作為語音合成技術的輸入,其風格是否貼近真人的表達方式,是合成效果提升的第一步;但受限于根深蒂固的書寫用語習慣,大多數合成前的文本并不夠自然,或者需要投入大量精力不斷調整,費時費力。為了解決此類問題,火山語音團隊采用了兩階段方案并取得了不錯的效果:

?       階段一:采用自監督方法,使用偽數據對口語化模型進行預訓練,降低了數據量的需求;同時在模型中引入了指針網絡結構,增強了文本可控性。

?       階段二:利用少量優質的人工標注數據,對預訓練好的口語化模型進行微調,最終實現可控的、自然的口語化文本效果。


原始文本



自動化預測后的文本



南方菜系偏愛蘸料,例如我第一次去上海才知道燒烤里的蔬菜也需要配蘸料




嗯,南方菜系的話,超級偏愛用蘸料啊什么的,就比如說我第一次呃,第一次去上海的時候,才知道這個燒烤里的蔬菜也得配著蘸料



像我們上街去買白菜,南方人說我要半顆白菜,北方人說我來半車白菜



嗯這跟我們上街買白菜差不多吧,南方人說我要半棵白菜,然后那個北方人說我來半車



其實南方菜系更偏重吃調料的味道,即廚師用調料去發揮他的功力



對,其實南方菜系更偏重的是吃它這個調料的味道,也就是說,廚師這個,用調料去發揮他的功力


副語言建模+韻律多樣性可圈可點   語音真實感全面升級

為了更好地還原真人,區別于傳統的語音合成技術,火山語音在副語言建模和韻律多樣性上也分別進行了深入研究。在副語言建模方面,團隊推出的合成技術實現了聲學模型對自然表達中出現的吸氣、笑聲、猶豫、修正等多種副語言現象建模,并且結合文本的語義信息自動插入副語言現象。在插入過程中同時考慮合理性與隨機性,表現更加自然真實。


文本



超自然



我覺得這樣<吸氣>其實對身體特別好。



音頻C.wav



你看像我們現在這個工作,早上<延長>基本上就不怎么吃早餐了。



音頻D.wav



像我們早上基本上<卡頓>就是豆漿油條包子。



音頻E.wav



他肯定是<口誤修正>,很想吃肉。



ParalangTest_is_000008_npy_01_new2的副本.wav


在韻律多樣化的探究中,我們結合無監督表征學習技術,自主研發了高表現力的聲學模型框架,通過發音、韻律、音色解耦等方式,不但降低了數據量的需求,實現對出現頻率極低發音現象的高效建模;同時使用無監督表征特征并結合音素級別的基頻、能量信息等,實現了韻律的自然多變,促成高質量對話語音生成。”火山語音團隊總結道。

火山語音,字節跳動AI Lab Speech&Audio智能語音與音頻團隊,長期以來面向抖音、剪映、番茄小說、飛書等業務提供領先的AI語音技術能力及全棧語音產品解決方案,并通過火山引擎向外部企業開放技術服務。


責任編輯:黃顯東
相關推薦

2022-11-03 16:31:08

語音智能語音識別

2009-08-21 15:28:23

C#英文

2024-03-22 13:20:30

模型訓練

2022-12-05 07:17:14

人工智能語音合成

2016-02-17 10:39:18

語音識別語音合成語音交互

2022-10-26 18:31:15

火山引擎

2021-11-04 09:56:28

人工智能深度學習技術

2024-04-17 12:20:51

腦機接口深度學習人工智能

2020-09-03 11:22:35

音頻騰訊云AI

2017-09-06 10:51:22

Facebook

2023-09-21 08:07:04

Alexa語音助手人工智能

2022-10-19 12:47:05

深度學習語音合成

2024-11-11 08:50:24

2019-04-25 07:55:00

技術研發語音
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美久久一区二区三区 | 免费视频一区二区三区在线观看 | 91久久精品日日躁夜夜躁欧美 | 在线成人精品视频 | 国产精品一区二区三区四区五区 | 波多野结衣精品在线 | 日韩在线视频精品 | 国产精品伦一区二区三级视频 | 午夜影院网站 | 久久国产精品-国产精品 | 欧美另类视频 | 日韩三级免费网站 | 欧美成年黄网站色视频 | 欧美精品一区在线 | 在线观看黄色大片 | 日韩欧美成人一区二区三区 | 国产精品爱久久久久久久 | 亚洲网址 | 中文字幕亚洲一区二区三区 | 亚洲人va欧美va人人爽 | 中文久久| 成人免费看片又大又黄 | 国产中文字幕在线观看 | 做a视频在线观看 | 欧美三区在线观看 | 国产一区二区三区不卡av | av色在线| 羞羞的视频在线观看 | 欧美精品二区 | 中文字幕欧美一区 | 九九亚洲 | 精品久久久久久久久久久 | 在线视频日韩 | 特一级毛片 | 一区二区三区四区五区在线视频 | 九九热在线免费观看 | 亚洲国产高清高潮精品美女 | 午夜免费视频观看 | 欧美精品a∨在线观看不卡 欧美日韩中文字幕在线播放 | 狠狠综合久久av一区二区老牛 | 国产精品视频一二三区 |