成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高級長短期記憶網絡:關于更優時間依賴性刻畫在情感識別方面的應用

原創
人工智能
在這篇文章中,我們將A-LSTM應用于情感識別中。實驗結果顯示,與應用傳統LSTM 的系統相比,應用了A-LSTM的系統能相對提高5.5%的識別率。

【51CTO.com原創稿件】長短期記憶網絡(LSTM)隱含了這樣一個假設,本層的現時狀態依賴于前一時刻的狀態。這種“一步”的時間依賴性,可能會限制LSTM對于序列信號動態特性的建模。在這篇論文里,針對這樣的一個問題,我們提出了高級長短期記憶網絡(advanced LSTM (A-LSTM)),利用線性組合,將若干時間點的本層狀態都結合起來,以打破傳統LSTM的這種局限性。在這篇文章中,我們將A-LSTM應用于情感識別中。實驗結果顯示,與應用傳統LSTM 的系統相比,應用了A-LSTM的系統能相對提高5.5%的識別率。

研究背景

LSTM 現在被廣泛的應用在RNN中。它促進了RNN在對序列信號建模的應用當中。LSTM 有兩個輸入,一個來源于前一層,還有一個來源于本層的前一個時刻。因此,LSTM隱含了這樣一個假設,本層的現時狀態依賴于前一時刻的狀態。這種“一步”的時間依賴性,可能會限制LSTM對于序列信號動態特性的建模(尤其對一些時間依賴性在時間軸上跨度比較大的任務)。在這篇論文里,針對這樣的一個問題,我們提出了advanced LSTM (A-LSTM),以期打破傳統LSTM的這種局限性。A-LSTM利用線性組合,將若干時間點的本層狀態都結合起來,因此不僅可以看到”一步“以前的狀態,還可以看到更遠以前的歷史狀態。

在這篇文章中,我們把A-LSTM應用到整句話層級(utterance level)上的情感識別任務中。傳統的情感識別依賴于在整句話上提取底端特征(low level descriptors)的統計數據,比如平均值,方差等等。由于實際應用中,整句話中可能會有一些長靜音,或者是一些非語音的聲音,這種統計數據就可能不準確。在這篇論文中,我們使用基于注意力模型(attention model)的加權池化(weighted pooling)遞歸神經網絡(recurrent neural network)來更有效的提取整句話層級上的特征。

高級長短期記憶網絡

A-LSTM利用線性組合,將若干時間點的本層狀態都結合起來。這其中的線性組合是利用與注意力模型(attention model)類似的機制進行計算的。具體公式如下。

Fig 1 中C'(t)即為前面若干時間狀態的線性組合。這個線性組合以后的時間狀態將被輸入下一時間點進行更新。可以想象,每次的更新都不只是針對前一時刻,而是對若干時刻的組合進行更新。由于這種組合的權重是有注意力模型控制,A-LSTM可以通過學習來自動調節各時間點之間的權重占比。如果依賴性在時間跨度上比較大,則更遠以前的歷史狀態可能會占相對大的比重;反之,比較近的歷史狀態會占相對大的比重。

Fig 1 The unrolled A-LSTM

加權池化遞歸神經網絡

Fig 2 The attention based weighted pooling RNN.

在這篇論文中,我們使用基于注意力模型的加權池化遞歸神經網絡來進行情感識別(見Fig 2)。這一神經網絡的輸入是序列聲學信號。利用注意力模型,我們的神經網絡可以自動調整各個時間點上的權重,然后將各個時間點上的輸出進行加權平均(加權池化)。加權平均的結果是一個能夠表征這一整串序列的表達。由于注意力模型的存在,這一表達的提取可以包含有效信息,規避無用信息(比如輸入序列中中的一些長時間的靜音部分)。這就比簡單的計算一整個序列的統計數值要更好(比如有opensmile提取的一些底端特征)。 為了更好的訓練模型,我們在情感識別任務之外還添加了兩個輔助任務,說話人識別和性別識別。 我們在這個模型當中使用了A-LSTM來提升系統性能。

實驗

在實驗階段,我們使用IEMOCAP數據集中的四類數據(高興,憤怒,悲傷和普通)。這其中一共有4490句語音文件。我們隨機選取1位男性和1位女性說話人的數據作為測試數據。其余的數據用來訓練(其中的10%的數據用來做驗證數據)。我們采用三個衡量指標,分別為無權重平均F-score(MAF),無權重平均精密度(MAP),以及準確率(accuracy)。

我們提取了MECC,信號過零率(zero crossing rate),能量,能量熵,頻譜矩心(spectral centroid),頻譜流量(spectral flux),頻譜滾邊(spectral rolloff),12維彩度向量(chroma vector),色度偏差(chroma deviation),諧波比(harmonic ratior) 以及語音基頻,一共36維特征。對這些序列特征進行整句話層級上的歸一化后,將其送入系統進行訓練或測試。

在這個實驗中,我們的系統有兩層神經元層,***層位全連接層(fully connected layer),共有256個精餾線性神經元組成(rectified linear unit)。第二層位雙向長短期記憶網絡(bidirectional LSTM (BLST))。兩個方向一共有256個神經元。之后即為基于注意力模型的加權池化層。最上方為三個柔性***值傳輸函數層,分別對應三個任務。我們給三個任務分配了不同的權重,其中情感識別權重為1,說話人識別權重為0.3,性別識別為0.6。如果是應用A-LSTM,我們就將第二層的BLSTM替換成雙向的A-LSTM,其他的所有參數都不變。這里的A-LSTM選取三個時間點的狀態作線性組合,分別為5個時間點前(t-5),3個時間點前(t-3),以及1個時間點前(t-1)。實驗結果如下:

其中的mean LSTM 與A-LSTM比較類似,唯一區別是,當我們為選取的幾個時間點的狀態作線性組合的時候,不是采用注意力模型,而是簡單的做算術平均。

結論

與應用傳統LSTM 的系統相比,應用了A-LSTM的系統顯示出了更好的識別率。由于加權池化過程是將所有時間點上的輸出進行加權平均,因此系統性能的提升只可能是來源于A-LSTM更加靈活的時間依賴性模型,而非其他因素,例如高層看到更多時間點等等。并且,這一提升的代價只會增加了數百個參數。

作者:陶菲/Fei Tao, 劉剛/Gang Liu

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯:王雪燕 來源: 51CTO
相關推薦

2010-06-08 12:47:07

HTTP協議應用

2021-06-09 08:32:15

開源Google安全工具

2009-09-17 11:19:34

OSGi依賴性管理

2010-04-26 10:31:13

Aix系統安全

2024-07-04 12:18:21

2021-06-15 09:52:22

云計算云計算產業字節跳動

2021-08-16 10:15:43

智慧城市物聯網IOT

2020-02-28 11:00:41

人工智能人臉識別機器學習

2021-11-12 15:41:42

LSTM神經網絡人工智能

2013-05-02 09:06:23

Java性能Java

2009-07-28 15:03:02

依賴性注入

2017-07-25 16:35:12

LSTM深度學習自然語言

2010-07-07 18:00:43

SNMP協議

2015-06-24 09:45:23

容器網絡容器網絡優化

2010-05-10 14:39:43

網絡負載均衡

2022-07-25 14:42:18

SaaS云計算

2010-08-27 09:21:52

無線網絡維護

2011-04-25 17:27:38

投影儀

2010-08-31 08:47:27

無線網絡維護

2010-09-02 10:33:32

無線網絡維護
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 视频一区中文字幕 | 日韩不卡一区二区 | www成年人视频 | 精品免费视频 | 日韩欧美在线观看视频网站 | 91在线看 | 成年人视频免费在线观看 | 成人av网站在线观看 | 午夜国产一级片 | 亚洲国产成人精品女人久久久野战 | 日韩欧美中文字幕在线观看 | www.99re| 成人网av| 亚洲 欧美 另类 综合 偷拍 | 手机看片169 | 日韩精品免费视频 | 超碰97av| 精品久久99 | 精品国产一区二区久久 | 啪啪综合网 | 伦理午夜电影免费观看 | 精品免费国产一区二区三区四区 | 久操伊人 | 黄色av免费网站 | 国产精品久久久久久吹潮日韩动画 | 精品国产一区二区三区日日嗨 | 国产黄色大片 | 精品一区二区在线观看 | 色在线视频网站 | 国产a区| 欧美一级黄 | 国产精品视频一区二区三区不卡 | 毛片a级毛片免费播放100 | www.xxxx欧美| 欧美久久久久久久久中文字幕 | 国产精品一卡 | 久久r免费视频 | 亚洲女人天堂成人av在线 | 国产精品99久久久久久人 | 欧美激情一区二区三区 | 成人黄色在线 |