高級長短期記憶網絡：關于更優時間依賴性刻畫在情感識別方面的應用

作者：阿里巴巴授權發布 2018-04-24 09:16:38

在這篇文章中，我們將A-LSTM應用于情感識別中。實驗結果顯示，與應用傳統LSTM 的系統相比，應用了A-LSTM的系統能相對提高5.5%的識別率。

【51CTO.com原創稿件】長短期記憶網絡（LSTM）隱含了這樣一個假設，本層的現時狀態依賴于前一時刻的狀態。這種“一步”的時間依賴性，可能會限制LSTM對于序列信號動態特性的建模。在這篇論文里，針對這樣的一個問題，我們提出了高級長短期記憶網絡（advanced LSTM (A-LSTM)），利用線性組合，將若干時間點的本層狀態都結合起來，以打破傳統LSTM的這種局限性。在這篇文章中，我們將A-LSTM應用于情感識別中。實驗結果顯示，與應用傳統LSTM 的系統相比，應用了A-LSTM的系統能相對提高5.5%的識別率。

研究背景

LSTM 現在被廣泛的應用在RNN中。它促進了RNN在對序列信號建模的應用當中。LSTM 有兩個輸入，一個來源于前一層，還有一個來源于本層的前一個時刻。因此，LSTM隱含了這樣一個假設，本層的現時狀態依賴于前一時刻的狀態。這種“一步”的時間依賴性，可能會限制LSTM對于序列信號動態特性的建模（尤其對一些時間依賴性在時間軸上跨度比較大的任務）。在這篇論文里，針對這樣的一個問題，我們提出了advanced LSTM (A-LSTM)，以期打破傳統LSTM的這種局限性。A-LSTM利用線性組合，將若干時間點的本層狀態都結合起來，因此不僅可以看到”一步“以前的狀態，還可以看到更遠以前的歷史狀態。

在這篇文章中，我們把A-LSTM應用到整句話層級（utterance level)上的情感識別任務中。傳統的情感識別依賴于在整句話上提取底端特征（low level descriptors)的統計數據，比如平均值，方差等等。由于實際應用中，整句話中可能會有一些長靜音，或者是一些非語音的聲音，這種統計數據就可能不準確。在這篇論文中，我們使用基于注意力模型（attention model)的加權池化(weighted pooling)遞歸神經網絡(recurrent neural network)來更有效的提取整句話層級上的特征。

高級長短期記憶網絡

A-LSTM利用線性組合，將若干時間點的本層狀態都結合起來。這其中的線性組合是利用與注意力模型(attention model)類似的機制進行計算的。具體公式如下。

Fig 1 中C'(t)即為前面若干時間狀態的線性組合。這個線性組合以后的時間狀態將被輸入下一時間點進行更新。可以想象，每次的更新都不只是針對前一時刻，而是對若干時刻的組合進行更新。由于這種組合的權重是有注意力模型控制，A-LSTM可以通過學習來自動調節各時間點之間的權重占比。如果依賴性在時間跨度上比較大，則更遠以前的歷史狀態可能會占相對大的比重；反之，比較近的歷史狀態會占相對大的比重。

Fig 1 The unrolled A-LSTM

加權池化遞歸神經網絡

Fig 2 The attention based weighted pooling RNN.

在這篇論文中，我們使用基于注意力模型的加權池化遞歸神經網絡來進行情感識別（見Fig 2)。這一神經網絡的輸入是序列聲學信號。利用注意力模型，我們的神經網絡可以自動調整各個時間點上的權重，然后將各個時間點上的輸出進行加權平均（加權池化）。加權平均的結果是一個能夠表征這一整串序列的表達。由于注意力模型的存在，這一表達的提取可以包含有效信息，規避無用信息（比如輸入序列中中的一些長時間的靜音部分）。這就比簡單的計算一整個序列的統計數值要更好（比如有opensmile提取的一些底端特征）。為了更好的訓練模型，我們在情感識別任務之外還添加了兩個輔助任務，說話人識別和性別識別。我們在這個模型當中使用了A-LSTM來提升系統性能。

實驗

在實驗階段，我們使用IEMOCAP數據集中的四類數據（高興，憤怒，悲傷和普通）。這其中一共有4490句語音文件。我們隨機選取1位男性和1位女性說話人的數據作為測試數據。其余的數據用來訓練（其中的10%的數據用來做驗證數據）。我們采用三個衡量指標，分別為無權重平均F-score（MAF），無權重平均精密度（MAP），以及準確率（accuracy)。

我們提取了MECC,信號過零率（zero crossing rate),能量，能量熵，頻譜矩心(spectral centroid)，頻譜流量(spectral flux)，頻譜滾邊（spectral rolloff),12維彩度向量（chroma vector),色度偏差(chroma deviation),諧波比（harmonic ratior) 以及語音基頻，一共36維特征。對這些序列特征進行整句話層級上的歸一化后，將其送入系統進行訓練或測試。

在這個實驗中，我們的系統有兩層神經元層，***層位全連接層（fully connected layer)，共有256個精餾線性神經元組成（rectified linear unit)。第二層位雙向長短期記憶網絡（bidirectional LSTM (BLST))。兩個方向一共有256個神經元。之后即為基于注意力模型的加權池化層。最上方為三個柔性***值傳輸函數層，分別對應三個任務。我們給三個任務分配了不同的權重，其中情感識別權重為1，說話人識別權重為0.3，性別識別為0.6。如果是應用A-LSTM，我們就將第二層的BLSTM替換成雙向的A-LSTM，其他的所有參數都不變。這里的A-LSTM選取三個時間點的狀態作線性組合，分別為5個時間點前（t-5)，3個時間點前(t-3)，以及1個時間點前(t-1)。實驗結果如下：

其中的mean LSTM 與A-LSTM比較類似，唯一區別是，當我們為選取的幾個時間點的狀態作線性組合的時候，不是采用注意力模型，而是簡單的做算術平均。

結論

與應用傳統LSTM 的系統相比，應用了A-LSTM的系統顯示出了更好的識別率。由于加權池化過程是將所有時間點上的輸出進行加權平均，因此系統性能的提升只可能是來源于A-LSTM更加靈活的時間依賴性模型，而非其他因素，例如高層看到更多時間點等等。并且，這一提升的代價只會增加了數百個參數。

作者：陶菲/Fei Tao, 劉剛/Gang Liu

【51CTO原創稿件，合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯：王雪燕來源： 51CTO

更優時間依賴性情感識別

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

高級長短期記憶網絡：關于更優時間依賴性刻畫在情感識別方面的應用

研究背景

高級長短期記憶網絡

加權池化遞歸神經網絡

實驗

結論