從數據集到模型:視頻和音頻情緒分析的綜合研究
情緒分析作為自然語言處理和人工智能領域的重要研究方向,近年來受到了廣泛關注。情緒分析技術能夠自動識別和理解文本、音頻、視頻等多種數據中的情緒信息,在社交媒體監控、客戶服務、心理健康評估等多個領域具有重要應用價值。例如,通過情緒分析,企業可以更好地了解客戶反饋,改進產品和服務;心理健康專家可以通過分析患者的情緒變化,提供更精確的診斷和治療建議。
然而,單一模態的情緒分析(如純文本或純音頻)存在一定的局限性。文本情緒分析往往難以捕捉語調、語速等音頻信息,而音頻情緒分析則可能忽略面部表情、肢體語言等視頻信息。這些信息的缺失可能導致情緒識別的準確性下降。因此,單一模態的情緒分析在處理復雜情緒表達時,往往顯得力不從心。
多模態情緒分析通過綜合利用文本、音頻、視頻等多種數據源,能夠更全面、準確地識別和理解情緒信息。12 月 14 日,來自西班牙馬德里IE大學科學技術學院,銀河生命、機器人和人工智能實驗室研究團隊提出了一種基于視頻和音頻輸入的多模態情緒分析方法,通過融合視頻和音頻數據,提升情緒識別的準確性和魯棒性。具體而言,研究團隊設計了一種多模態融合模型,能夠有效地整合視頻和音頻特征,從而實現更高效的情緒分析。
研究團隊由來自知名高校和研究機構西班牙馬德里IE大學科技學院Cyphy Life機器人與人工智能實驗室的專家Antonio Fernandez和Suzan Awinata組成,他們的技術論文《Multimodal Sentiment Analysis based on Video and Audio Inputs》在第 15 屆新興普適系統和普適網絡國際會議 (EUSPN 2024) 上以全文形式發表,展示了研究團隊在多模態情緒分析領域的最新成果和技術突破。
研究背景
多模態情緒分析是一種利用多種數據源(如文本、音頻、視頻)來識別和分析情緒的技術。相比于單一模態,多模態情緒分析能更全面、準確地捕捉和理解復雜的情緒表達。隨著計算機視覺、自然語言處理和深度學習技術的發展,多模態情緒分析逐漸成為一個重要的研究領域。
早期的情緒分析主要集中在文本數據上,通過分析文本內容來推測情緒。然而,文本情緒分析受限于缺乏語調、語速等音頻信息,這些信息在情緒表達中扮演著重要角色。隨之而來的音頻情緒分析,雖然彌補了這一缺陷,但仍然忽略了面部表情和肢體語言等視頻信息。因此,單一模態的情緒分析在處理復雜情緒時常常力不從心。
近年來,研究人員開始探索多模態情緒分析,通過綜合利用音頻、視頻和文本數據,提高情緒識別的準確性和魯棒性。例如,某些研究利用視頻中的面部表情和音頻中的語調信息來識別情緒,取得了顯著效果。其他研究則嘗試融合多種模態的信息,進一步提升模型的性能。
在這一背景下,研究團隊提出了一種基于視頻和音頻輸入的多模態情緒分析方法。通過使用先進的音頻和視頻模型,他們旨在證明這種多模態情緒分析方法的有效性。具體而言,他們選用了CREMA-D數據集用于音頻模型訓練,RAVDESS數據集用于視頻模型訓練,并分別使用了Facebook的wav2vec2-large模型和Google的vivit-b-16x2-kinetics400模型。
研究團隊的目標是通過綜合利用視頻和音頻數據,提升情緒識別的準確性和魯棒性。他們設計了多種融合策略,包括加權平均法、置信水平閾值法、基于置信度的動態加權法和規則邏輯法,旨在找到最佳的決策框架。
方法論
在多模態情緒分析的研究中,數據集的選取和特征提取方法至關重要。研究團隊選用了兩個具有代表性的數據集,分別用于音頻和視頻情緒識別任務,并采用先進的模型進行特征提取和多模態融合。
圖1:模塊的整個過程
數據集選取及其特點
CREMA-D數據集(Crowd-sourced Emotional Multimodal Actors Dataset)是一套廣泛使用的音頻數據集,專門用于情緒識別研究。該數據集包含7442個聲音片段,由91名演員錄制,這些演員年齡從20到74歲不等,涵蓋了多種種族和族裔背景,如非裔美國人、亞裔、白人、拉丁裔等。
在錄制過程中,演員們被要求大聲朗讀12個預選句子,每個句子用六種不同情緒(憤怒、厭惡、恐懼、快樂、悲傷、中性)和不同強度(低、中、高、不明確)來表達。音頻片段的標簽包含在文件名中,例如“1001 IEO ANG HI.wav”,其中包括演員ID、句子、情感和情感強度的信息。為了與視頻數據集的標簽統一,情感標簽被標準化為anger、disgust、fearful、happy、neutral和sad。
RAVDESS數據集(Ryerson Audio-Visual Database of Emotional Speech and Song)是一套高質量的視頻數據集,用于情緒識別和分析。該數據集包含7356個文件,分別由24名專業演員錄制,這些演員均以標準的北美口音發音,并表達多種情感。
數據集分為四個主要類別:音頻演講、音頻歌曲、視頻演講和視頻歌曲。情感類別包括中性、冷靜、快樂、悲傷、憤怒、恐懼、驚訝和厭惡,每種情感有兩種強度(正常和強烈)。視頻數據集中特殊之處在于,每個含音頻的視頻都有一個不含音頻的變體,研究團隊訓練時僅使用不含音頻的視頻,以專注于視覺情感的分析。
特征提取方法
在多模態情緒分析中,音頻和視頻特征的提取是至關重要的一步。研究團隊分別使用了先進的音頻和視頻模型來提取特征,確保了高質量的輸入數據。
音頻特征提取采用了Facebook的wav2vec2-large模型。該模型是一種基于多層卷積特征編碼器的音頻模型,可以接收原始音頻輸入,并在固定的時間步內輸出潛在的語音表示。通過使用這種模型,可以有效地捕捉和表示音頻中的情感信息,為情緒分析提供強有力的支持。
視頻特征提取使用了Google的vivit-b-16x2-kinetics400模型。這是一種基于變換器的先進視頻分類模型,可以接收視頻幀樣本,并基于訓練標簽進行分類。該模型能夠有效地從視頻中提取面部表情、肢體語言等視覺特征,為情緒分析提供了豐富的信息。
多模態融合策略
為了綜合利用音頻和視頻特征,研究團隊設計了多種多模態融合策略,以提升情緒識別的準確性和魯棒性。
加權平均法通過對每種情感的概率進行縮放和平均,以綜合音頻和視頻模型的預測結果。這種方法在兩個模型準確性相似的情況下效果較好,因為可以平衡兩種輸入的權重,從而提高整體預測的準確性。
置信水平閾值法根據視頻模型的置信度優先級別來進行決策。如果視頻模型的置信水平超過0.7,則直接采用視頻模型的預測結果;否則,使用音頻和視頻概率的平均值作為最終預測結果。這種方法在視頻模型較為準確時,能夠充分利用其高置信度的預測,提高整體預測的可靠性。
基于置信度的動態加權法通過根據預測結果的置信度進行動態加權。當模型的預測置信度較高時,賦予其更大的權重;當置信度較低時,則賦予較小的權重。這樣可以根據不同情感的置信度動態調整模型的影響力,提高預測的精度。
規則邏輯法通過設定一系列規則來綜合模型的預測結果。例如,當兩個模型對情感的預測一致且置信度均超過0.5時,返回一致的情感預測結果;否則,根據置信度較高的模型進行決策。這種方法能夠充分利用模型的一致性,提高預測的準確性和魯棒性。研究團隊在多模態情緒分析中,通過選取高質量的數據集、使用先進的模型進行特征提取,并設計多種融合策略,力求提高情緒識別的準確性和魯棒性。
實驗設計與結果
在研究過程中,實驗設計和設置是確保結果可靠性的關鍵因素。研究團隊利用Kaggle平臺進行模型訓練,有效解決了CUDA環境問題,保障了模型訓練的順利進行。
圖 2:在Kaggle筆記本電腦的多模態情緒分析測試框架V1[25]、多模態情感分析測試框架V2[26]和下圖中看到這些測試的結果。
實驗環境和設置
為了確保實驗的可重復性和可靠性,研究團隊在Kaggle平臺上進行了模型訓練。Kaggle提供了良好的硬件資源和環境支持,特別是在處理CUDA環境時,可以避免環境沖突和內存溢出等問題。然而,由于免費版本的Kaggle在GPU內存方面的限制,研究團隊在訓練過程中必須謹慎處理內存管理,以防止內存超載。
音頻模型訓練結果
音頻模型的訓練過程分為幾個關鍵步驟,首先對數據進行探索性數據分析(EDA),以深入了解數據的分布和特點。隨后,加載模型及其處理器,并修改模型配置以適應六種情感標簽。研究團隊創建了兩個函數,分別用于從數據中提取特征和標簽,并將其轉換為Dataset對象。數據集被分為訓練集和測試集,測試集占比20%。
在音頻數據的預處理過程中,創建了數據整理器和預處理函數,以確保輸入數據的格式正確。最后,研究團隊定義了模型訓練的參數,并選擇了步數作為評估策略,以便持續監測模型性能。在訓練過程中,每500步記錄一次模型性能,以跟蹤模型的改進情況。
音頻模型的訓練持續了約1小時15分鐘,共進行了6個epoch,這是在內存限制下可以訓練的最大epoch數。訓練結束后,模型在測試集上的準確率達到了72.59%。訓練過程中模型性能的詳細數據記錄在Kaggle筆記本中,顯示了每500步的訓練損失、驗證損失和準確率的變化情況。
視頻模型訓練結果
視頻模型的訓練過程采用了類似的步驟。首先,對數據進行EDA,以了解數據的基本分布情況。由于RAVDESS數據集中情感類別較多,研究團隊刪除了冷靜和驚訝情感,以保持與音頻數據集一致的六種情感標簽。
隨后,創建了用于處理標簽預處理的函數,并從vivit transformers文檔中修改了兩個函數,以將視頻幀調整為224x224像素,確保與模型兼容。另一個函數則用于從視頻中選擇合適的幀進行訓練。數據集被分為訓練集和測試集,測試集占比20%,并創建了數據加載器,以防止Kaggle GPU過載。
視頻模型的訓練持續了約7小時,共進行了10個epoch。訓練結束后,模型的訓練損失為0.1460,驗證損失為0.4049,顯示了模型在訓練過程中的穩定性和良好的性能。
多模態框架的測試結果
在測試多模態情緒分析框架時,研究團隊設計了多種融合策略,包括加權平均法、置信水平閾值法、基于置信度的動態加權法和規則邏輯法。每種方法的性能進行了詳細的對比分析。
加權平均法通過對每種情感的概率進行縮放和平均,綜合了音頻和視頻模型的預測結果。在兩個模型準確性相似的情況下,這種方法表現出色。
置信水平閾值法根據視頻模型的置信度優先級別進行決策。如果視頻模型的置信水平超過0.7,則直接采用視頻模型的預測結果;否則,使用音頻和視頻概率的平均值作為最終預測結果。該方法在視頻模型較為準確時,能夠充分利用其高置信度的預測。
基于置信度的動態加權法通過根據預測結果的置信度進行動態加權。當模型的預測置信度較高時,賦予其更大的權重;當置信度較低時,則賦予較小的權重。這樣可以根據不同情感的置信度動態調整模型的影響力,提高預測的精度。
規則邏輯法通過設定一系列規則來綜合模型的預測結果。例如,當兩個模型對情感的預測一致且置信度均超過0.5時,返回一致的情感預測結果;否則,根據置信度較高的模型進行決策。
討論
多模態情緒分析通過結合視頻和音頻輸入,能夠更全面地捕捉情感信息,從而顯著提升情緒識別的效果。這一優勢在于能夠利用多種信號源,彌補單一模態的局限性。例如,音頻信號中的語調和語速可以揭示語者的情感狀態,而視頻信號中的面部表情和肢體語言則提供了視覺上的情感線索。兩者結合,使得情緒識別變得更加準確和魯棒。
多模態情緒分析也面臨著一些挑戰。首先是數據的多樣性和質量問題。現有的數據集往往是在控制環境下收集的,這意味著模型可能難以在實際應用中推廣。這種數據集的局限性主要表現為兩個方面:文化背景的單一性和環境條件的穩定性。在單一文化背景下收集的數據,可能無法代表不同文化中的情感表達方式,從而導致模型在跨文化應用中的泛化能力不足。而在控制環境下收集的數據,缺乏自然環境中的變化,如不同的光線條件、背景干擾等,這也可能限制模型在實際環境中的適用性。
為了克服這些局限性,未來的研究需要在數據多樣性和自然環境采集方面進行改進。一方面,增加數據集的多樣性,特別是收集來自不同文化背景和環境條件的數據,可以幫助模型更好地適應各種情感表達方式。另一方面,在自然環境中收集數據,有助于模型處理復雜的現實場景,提高其魯棒性。此外,結合更多模態信息(如文本數據)和改進多模態融合策略,也是未來研究的重要方向。
目前的多模態情緒分析模型雖然在特定條件下表現良好,但其實際應用還需進一步驗證和優化。例如,在模型的設計和訓練過程中,可以引入更多的優化技術,如增強學習、自適應學習等,以提高模型的適用性和泛化能力。同時,進一步的研究也應關注多模態情緒分析在實際應用中的可行性和效果,如在心理健康輔助、客戶服務提升等領域的具體應用。
未來工作與展望
在基于視頻和音頻輸入的多模態情緒分析研究中,還有許多可探索的方向和潛在應用。通過不斷創新和改進,我們可以進一步提升模型的性能和實際應用效果。
引入第三個基于音頻轉錄文本的情緒識別模型
目前的研究主要集中在音頻和視頻輸入的融合上,而忽略了文本信息的潛力。音頻的轉錄文本可以提供豐富的語義信息,對于情緒識別也有重要的輔助作用。未來的研究可以考慮引入一個基于自然語言處理技術的情緒識別模型,對音頻的轉錄文本進行分析。這種方法可以綜合三種模態的信息,進一步提高情緒識別的準確性。例如,可以結合BERT等先進的文本分析模型,對轉錄文本進行細致的情感分析,與音頻和視頻模型的結果進行融合。通過實驗,測量三種模型的組合效果,以及音頻-文本、音頻-視頻、文本-視頻等不同對組合的性能,找出最佳的融合方案。
結合多模態模型在心理健康輔助機器人中的應用前景
多模態情緒分析不僅在情緒識別方面具有重要意義,在心理健康領域也有廣泛的應用前景。隨著心理健康問題日益受到關注,智能助手和輔助機器人在心理健康干預中的作用也越來越重要。通過將多模態情緒分析模型應用于輔助機器人中,可以幫助其更好地理解和響應用戶的情感狀態,為心理健康治療提供支持。
例如,未來可以開發一種智能心理健康輔助機器人,通過實時視頻和音頻輸入,分析用戶的情緒變化,提供及時的心理干預。這種機器人可以在與用戶對話時,實時捕捉和分析用戶的表情、語音特征和語義信息,生成對用戶情感狀態敏感的回應,增強用戶的心理舒適感和信任度。同時,這種機器人還可以記錄和分析用戶的情緒變化數據,為心理健康專家提供參考,幫助制定更有效的治療方案。
法律和倫理考慮
在開發和應用情緒識別技術時,必須考慮法律和倫理問題。尤其是在歐盟,情緒識別系統被認為是高風險技術。根據2024年歐洲議會通過的人工智能法案,情緒識別系統由于其有限的泛化能力和潛在的歧視風險,被認為是高風險技術。因此,研究團隊在開發和應用這些技術時,必須確保符合倫理和法律要求,避免濫用和隱私侵犯。
為了確保技術的合法和倫理應用,未來的研究需要與法律專家密切合作,確保技術的開發和應用符合相關法規。同時,在設計和應用情緒識別系統時,應重視用戶隱私保護,建立透明的數據使用和管理機制,確保用戶數據的安全性和隱私性。此外,在應用于心理健康輔助領域時,必須確保技術的使用不對用戶造成二次傷害,建立嚴格的倫理審查和監管機制,保障用戶的權益。
基于視頻和音頻輸入的多模態情緒分析在未來具有廣泛的研究和應用前景,通過引入更多模態的信息、結合心理健康輔助機器人等實際應用,并在法律和倫理框架內進行技術開發,可以進一步提升情緒識別的性能和應用效果,推動這一領域的發展與創新。(END)
參考資料:https://arxiv.org/abs/2412.09317
