成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

新聞
快手研究團隊聯(lián)合清華大學研究人員提出了一種基于音頻信號的語種識別新方法。

  [[420599]]

快手研究團隊 MMU(Multimedia understanding)聯(lián)合清華大學研究人員提出了一種基于音頻信號的語種識別新方法。該方法自研一種動態(tài)多尺度卷積的新型網(wǎng)絡結構,通過動態(tài)卷積核、局部多尺度學習和全局多尺度池化技術來捕獲全局和局部上下文的語種 / 方言信息。目前該論文已經(jīng)被國際頂級語音會議 Interspeech2021 所接收。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

論文鏈接:https://www.researchgate.net/publication/353652910_Dynamic_Multi-scale_Convolution_for_Dialect_Identification

語種識別是指從一段說話語音中識別出語種(或方言)的類別,如日語、韓語、普通話、粵語等。語種識別技術的應用非常廣泛,不僅可以作為多語言語音識別(ASR)和多語言翻譯系統(tǒng)的前端預處理模塊,也可以用于定向廣告和生物特征驗證。近年來,隨著深度學習技術的興起,語種識別在工業(yè)界和學術界都得到廣泛的關注。幾年前,x-vector 是語種(或方言)識別的主流方法。隨著深度學習技術的快速發(fā)展,基于 DNN 的語種識別網(wǎng)絡結構進行了快速的迭代,從最初的 TDNN 到 D-TDNN,再到 Ecapa-TDNN 以及 ResNet 網(wǎng)絡結構,語種(或方言)識別性能獲得顯著提升。

為了有效捕獲音頻中的上下文語種信息,進一步提升語種識別性能,快手研究團隊 MMU(Multimedia understanding)聯(lián)合清華大學研究人員提出了一種基于音頻信號的語種識別新方法。該方法自研一種動態(tài)多尺度卷積的新型網(wǎng)絡結構,通過動態(tài)卷積核、局部多尺度學習和全局多尺度池化技術來捕獲全局和局部上下文的語種 / 方言信息。具體來說,引入動態(tài)卷積核的方法,模型能夠自適應地捕獲短期和長期上下文之間的特征;局部多尺度學習在細粒度級別表示多尺度特征,能夠增加卷積運算的感受野范圍,同時使模型參數(shù)量大幅下降;全局多尺度池化用于聚合來自模型不同瓶頸層的語種 / 方表征。文章的貢獻包括如下 3 點:

1. 第一次將動態(tài)卷積核引入語種 / 方言識別領域。

2. 局部多尺度學習,在更細粒度層面上對多尺度特征進行表征學習。

3. 全局多尺度池化,能夠聚合模型多個層次的特征。

針對 2020 年東方語種識別 (OLR2020) 挑戰(zhàn)賽的 AP20-OLR 語種識別任務,所提語種識別新方法取得了平均代價損失 (Cavg) 為 0.067,等誤差率 (EER) 為 6.52% 的成績。相比 OLR2020 挑戰(zhàn)賽中的最優(yōu)(SOTA,state-of-the-art)識別系統(tǒng),所提語種識別新方法獲得了 9% 的 Cavg 和 45% 的 EER 相對提升,而且模型參數(shù)減少了 91%,性能顯著優(yōu)于 SOTA 系統(tǒng)。目前該論文已經(jīng)被國際頂級語音會議 Interspeech2021 所接收。

方法介紹

快手 MMU 和清華自研的動態(tài)多尺度卷積的新型網(wǎng)絡結構框圖如圖 1 所示,為了簡化,批歸一化層 BatchNormalization (BN) 和 ReLU 激活函數(shù)已省略。從圖中可以看出,動態(tài)多尺度卷積的新型網(wǎng)絡結構采用 D-TDNN 網(wǎng)絡作為基本骨架,將第一個 D-TDNN 層修改為動態(tài)多尺度卷積塊,它在粒度級別上表示局部多尺度特征,并增加了卷積運算的感受野范圍。此外,全局多尺度池化方法聚合了不同的瓶頸層特征,以便從多個方面收集信息。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

圖 1: 動態(tài)多尺度卷積結構。在圖中,"Multi-scale Dk Block" 指的是全局和局部多尺度動態(tài)卷積核模塊,"Multi-scale Dk Conv" 指的是局部多尺度動態(tài)卷積核操作。綠色的 "C" 定義了 "拼接" 操作。

1. 動態(tài)卷積核

動態(tài)卷積核(Dk Conv)是一種基于 Softmax 注意力的動態(tài)通道選擇機制,具體結構如圖 2 所示。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

圖 2:動態(tài)卷積核 (Dk Conv) 模塊。

從圖中看出,網(wǎng)絡結構具體描述為:高階統(tǒng)計池化層(HOSP)- 線性層 - 線性層 - Softmax,其中 HOSP 目的是從空間維度收集通道信息,其它神經(jīng)網(wǎng)絡模塊是為了評估不同分支的重要性。卷積的多分支擴展能夠使模型自適應地捕獲短期和長期上下文之間不同的方言表征。

2. 局部多尺度學習

受 Res2Net 中層內(nèi)殘差連接的啟發(fā),該團隊采用局部多尺度學習來提高卷積操作的表征能力。局部多尺度學習是指在卷積中實現(xiàn)更細粒度的多個可用感受野。如圖 3 所示,作者將特征平均分成 s 個特征子集,用 Xi 表示,其中 i∈[1,2,...,s]。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

圖 3: 局部多尺度學習。在圖中,"Dk Conv" 表示動態(tài)卷積核操作,⊕表示逐元素相加

一組過濾器首先從相應的特征子集中提取特征。然后將前一組的輸出特征與另一組輸入特征一起發(fā)送到下一組過濾器:

其中 F 表示 Dk Conv 的操作。在 Multi-scale Dk Block 中,Dk Conv 過濾器的數(shù)量是 D-TDNN 層通道數(shù)的 1/s 倍。所有的 F 操作完結后,可以得到 Outi 的串聯(lián)作為當前模塊的輸出:

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

最后,在處理完這些特征集合后,將所有組的特征按照通道數(shù)連接起來并發(fā)送到下一個操作以融合信息。通過引入超參數(shù) s,局部多尺度學習(在粒度級別表示多尺度特征)被證明可以有效地增加卷積運算的感受野范圍。此外,隨著每一個尺度卷積濾波器數(shù)量的減少,模型參數(shù)量也得到了顯著下降。

3. 全局多尺度池化

前人的工作得出結論:不同層的特征聚合可以提高聲紋識別任務中說話人表征的區(qū)分性。瓶頸特征是一種高層次的信息聚合。因此在通道維度上聚合不同的瓶頸特征并將它們送入統(tǒng)計池層,以增強語種 / 方言分類能力是十分必要的。全局多尺度池化方法的結構如圖 4 所示。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

圖 4: 全局多尺度池化

該團隊重新定義了幀級特征 h_t,在通道維度上聚合了不同層的瓶頸特征 h_bi (i = 1, · · · , n),其中 n 是瓶頸層的數(shù)量。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

全局多尺度池化層在幀級特征 h_t(t = 1,... ,T) 上以標準差向量 σ 的形式計算均值向量 μ 以及二階統(tǒng)計量。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

該團隊在實驗中使用兩個瓶頸層用于全局多尺度池化。實驗表明,使用全局多尺度池化方法可以產(chǎn)生更加具有區(qū)分力的語種 / 方言表征。

實驗結果

為了證明所提模型在語種 / 方言識別任務上的有效性,該團隊研究人員在東方語種 OLR2020 挑戰(zhàn)賽識別任務 2 的方言識別任務上面進行了測試實驗,采用了兩個評價指標:平均損失性能 Cavg 和等錯誤率 EER 進行性能評估,并且和主流的語種 / 方言識別技術進行了性能和參數(shù)量的對比。

1. 東方語種識別大賽數(shù)據(jù)介紹

在 2020 年東方語言識別 (OLR) 挑戰(zhàn)賽中,該團隊使用 AP17-OL3、AP17-OLR-test、AP18-OLR-test、AP19-OLR-dev、AP19-OLR-test 和 AP20-OLR-dialect 作為語種 / 方言任務的訓練集。所有訓練數(shù)據(jù)包括 16 種語言,包括日語、韓語、閩南話、上海話、四川話等語種 / 方言。組合數(shù)據(jù)集的詳細信息如表 1 所示。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

表 1: 訓練集和評估集的數(shù)據(jù)。

2. 橫向對比

從表 2 中,我們可以觀察到,在相同的語種 / 方言識別任務中,動態(tài)多尺度卷積方法的性能明顯優(yōu)于東方語種識別 2020 任務 2 中 top2 的模型。與 OLR Challenge 2020 排行榜 No.1 (SOTA,state-of-the-art)識別系統(tǒng)相比,我們的模型僅使用 290 萬個參數(shù)即可分別實現(xiàn) 9.2% 的 Cavg 和 45% 的 EER 相對改進。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

表 2: 與 top2 系統(tǒng)的比較。在這張表中,Royal Flush 和 Phonexia 分別是 2020 年 OLR 挑戰(zhàn)賽排行榜的第 2 名和第 1 名。該系統(tǒng)相比 top1 分別實現(xiàn)了 9% 的 Cavg 和 45% 的 EER 相對改進。

3. 縱向對比

表 3 顯示在東方語種識別中語種 / 方言識別任務上的消融研究的性能。測評分析了福建話、四川話和上海話的 Softmax-output 分數(shù)。該方案所有提出的模型在 EER 方面都要優(yōu)于 OLR2020 挑戰(zhàn)賽中 最先進系統(tǒng)。值得注意的是,該團隊所提出的動態(tài)多尺度卷積方法在包括 Cavg 在內(nèi)的所有指標中都取得了最佳性能,這表明該方法對于語種 / 方言識別任務是非常有效的。

動態(tài)多尺度卷積網(wǎng)絡結構,清華、快手聯(lián)合提出語種識別新方法

表 3: 東方語種 2020 比賽賽道二語種 / 方言識別任務上的消融實驗

實驗結果表明,與使用 Softmax 損失函數(shù)的模型相比,使用 AAM-Softmax 的模型可以獲得更優(yōu)異的性能。與基線系統(tǒng) D-TDNN 的方法相比,動態(tài)卷積核的操作是非常有助于進行語種 / 方言識別的。局部多尺度動態(tài)卷積核將多尺度學習與動態(tài)卷積核相結合,通過引入多尺度學習,進一步提高了性能,相對減少了 36% 的參數(shù),而模型參數(shù)量僅有 250 萬。此外卷積內(nèi)的局部多尺度學習方法可以有效地通過超參數(shù) s 減少模型參數(shù)量。全局和局部多尺度動態(tài)卷積核方法采用了全局多尺度池化方法,是局部多尺度動態(tài)卷積核的變體。將全局和局部多尺度動態(tài)卷積核的結果與局部多尺度動態(tài)卷積核結果進行比較,可以看出全局多尺度池化對于提高語種 / 方言識別的性能是大有幫助的。

目前,語種 / 方言識別已應用于快手視頻審核、同城直播、推薦、素材挖掘等多個業(yè)務場景,為各個業(yè)務帶來顯著收益。

  • 在同城直播業(yè)務,利用方言直播識別技術為同城直播打上方言標簽,助力同城主播的消費指標提升。
  • 在推薦業(yè)務場景,為視頻打上語種(或方言)標簽,助力推薦將作品進行區(qū)域分發(fā),提升視頻的消費效果。

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-02-06 13:31:55

語義分割損失函數(shù)指標

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡數(shù)據(jù)圖形

2025-01-06 09:30:00

2015-07-20 11:49:56

Wi-Fi

2021-11-26 18:37:39

技術人工智能計算機

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡攻擊

2025-04-24 09:38:00

3D模型AI

2019-12-30 09:41:59

機器學習人工智能計算機

2025-01-23 10:08:00

虛擬數(shù)字AI

2022-12-08 13:00:10

AI性別偏見

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2015-08-21 09:14:40

大數(shù)據(jù)

2010-04-01 09:30:57

2024-07-26 09:19:41

2021-02-18 14:55:06

FuchsiaAndroidLinux

2023-08-16 15:25:43

2022-12-12 11:31:39

數(shù)據(jù)學習

2025-02-25 10:04:10

2024-08-30 12:58:43

AI多模態(tài)技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕第一页在线 | 精品国产一区二区三区性色av | 亚洲成人蜜桃 | 一区二区三区国产精品 | 精品久久久久国产免费第一页 | 国产精品视频一二三区 | 中文精品视频 | 久久久久电影 | 色视频欧美 | 日韩手机在线视频 | 精品一区二区久久久久久久网站 | 成人精品久久 | 亚洲36d大奶网 | 久久夜色精品国产 | 中文在线视频观看 | 精品视频一区二区在线观看 | 蜜桃av一区二区三区 | 欧洲在线视频 | 免费激情网站 | 日韩免费激情视频 | 成年视频在线观看福利资源 | 国产亚洲一区二区三区在线 | 中文字幕视频免费 | 免费a v网站| 亚洲国产成人精品女人久久久 | 91综合网 | 免费99精品国产自在在线 | 欧美日韩一 | 尤物视频在线免费观看 | 国产午夜精品一区二区三区 | 黄色大片在线 | 久久精品亚洲欧美日韩精品中文字幕 | 国产乱码精品一品二品 | 欧美一级电影免费观看 | 成人在线免费视频 | 久久久av| 亚欧精品一区 | 亚洲成人免费视频在线观看 | 综合久久久| 欧日韩不卡在线视频 | 国产精品视频不卡 |