清華團隊新算法玩轉頻域時域,壓縮95%計算量實現語音分離新SOTA!
在嘈雜的環境中,人類能夠專注于特定的語音信號,這種現象被稱為「雞尾酒會效應」。對于機器來說,如何從混合的音頻信號中準確分離出不同的聲源是一個重要的挑戰。
語音分離(Speech Separation)能夠有效提高語音識別的準確性,通常作為識別的前置步驟。因此,語音分離模型不僅需要在真實音頻上輸出分離良好的結果,同時還要滿足低延遲的需求。
近年來,深度學習在語音分離任務中的應用受到了廣泛關注。盡管許多高性能的語音分離方法被提出,但仍有兩個關鍵問題未能得到充分解決:一是許多模型計算復雜度太高,未充分考慮實際應用場景的需求;二是常用的語音分離數據集與真實場景存在較大差距,導致模型在真實數據上的泛化能力不足。
為了解決這些問題,清華大學的研究團隊設計了一種名為 TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction network)的輕量級語音分離模型,并提出了一個新的數據集 EchoSet,旨在更真實地模擬復雜聲學環境中的語音分離任務。
實驗結果表明,TIGER 在壓縮 94.3% 參數量和 95.3% 計算量的同時,性能與當前最先進的模型 TF-GridNet [1] 相當。
- 論文標題:TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation
- 論文鏈接:https://arxiv.org/pdf/2410.01469
- 項目主頁:https://cslikai.cn/TIGER
- GitHub 鏈接:https://github.com/JusperLee/TIGER
- 數據鏈接:https://huggingface.co/datasets/JusperLee/EchoSet
方法
語音分離任務的核心是從混合的音頻信號中恢復出每個說話者的清晰語音。傳統的語音分離模型通常直接在時域或頻域進行處理,但往往忽略了時間和頻率維度之間的交互信息。為了更高效地提取語音特征,TIGER 模型采用了時頻交叉建模的策略,結合頻帶切分和多尺度注意力機制,顯著提升了分離效果。
TIGER 模型的整體流程可以分為五個主要部分:編碼器、頻帶切分模塊、分離器、頻帶恢復模塊和解碼器。首先,通過短時傅里葉變換(STFT)將混合音頻信號轉換為時頻表示。接著,將整個頻帶劃分為多個子帶,每個子帶通過一維卷積轉換為統一的特征維度。分離器由多個時頻交叉建模模塊(FFI)組成,用于提取每個說話者的聲學特征。最后,頻帶恢復模塊將子帶恢復到全頻帶范圍,并通過逆短時傅里葉變換(iSTFT)生成每個說話者的清晰語音信號。
TIGER 整體流程
頻帶切分
語音信號的能量分布在不同頻帶上并不均勻,中低頻帶通常包含更多的語音信息,而高頻帶則包含更多的噪聲和細節信息。為了減少計算量并提升模型對關鍵頻帶的關注,TIGER 采用了頻帶切分策略,根據重要性將頻帶劃分為不同寬度的子帶。這種策略不僅減少了計算量,還能讓模型更專注于重要的頻帶,從而提升分離效果。
分離器
語音信號的時間和頻率維度之間存在復雜的交互關系。為了更高效地建模這種交互關系,TIGER 引入了時頻交叉建模模塊(FFI)。為了減少參數,分離器由多個共享參數的 FFI 模塊構成。每個 FFI 模塊包含兩個路徑:頻率路徑和幀路徑。
每個路徑都包含兩個關鍵子模塊:多尺度選擇性注意力模塊(MSA)和全頻 / 幀注意力模塊(F3A)。通過交替處理時間和頻率信息,FFI 模塊能夠有效地整合時頻特征,提升語音分離的效果。
FFI 模塊內部細節
多尺度選擇性注意力模塊(MSA)
為了增強模型對多尺度特征的提取能力,TIGER 引入了 MSA,通過多尺度卷積層和選擇性注意力機制,融合局部和全局信息。MSA 模塊分為三個階段:編碼、融合和解碼。
以頻率路徑為例,在編碼階段,通過多個一維卷積層逐步下采樣頻率維度,提取多尺度的聲學特征。在融合階段,使用選擇性注意力機制將局部特征和全局特征進行融合,生成包含多尺度信息的特征。在解碼階段,通過上采樣和卷積操作逐步恢復頻率維度,最終輸出增強后的頻率特征。
MSA 模塊內部細節(以頻率路徑為例)
全頻 / 幀注意力模塊(F3A)
為了捕捉長距離依賴關系,TIGER 采用了全 / 頻幀注意力模塊(F3A)。同樣以頻率路徑為例,首先采用二維卷積將輸入特征轉換為查詢(Query)、鍵(Key)和值(Value),然后將特征維度和時間維度合并,得到每個頻帶對應的全幀信息。
通過自注意機制計算頻率維度上的注意力權重,用于加強頻帶間關系的捕捉,提升語音分離的效果。
F3A 模塊內部細節(以頻率路徑為例)
EchoSet:更接近真實聲學場景
的語音分離數據集
現有的語音分離數據集往往與真實世界的聲學環境存在較大差距,導致模型在實際應用中的泛化能力不足。為了更真實地模擬復雜聲學環境中的語音分離任務,研究團隊提出了 EchoSet 數據集,該數據集不僅包含噪聲,還模擬了真實的混響效果(如考慮物體遮擋和材料特性),并且說話人之間語音重疊比例是隨機的。
不同數據集特性對比
EchoSet 數據集的構建基于 SoundSpaces 2.0 平臺 [2] 和 Matterport3D 場景數據集 [3],能夠模擬不同聲學環境中的語音混響效果。通過隨機采樣語音和噪聲,并考慮房間的幾何形狀和材料特性,EchoSet 數據集生成了包含 20,268 條訓練語音、4,604 條驗證語音和 2,650 條測試語音的高保真數據集。
實驗表明,使用 EchoSet 訓練的模型在真實世界數據上的泛化能力顯著優于其他數據集訓練的模型,驗證了 EchoSet 的實用價值。
常見語音分離模型在不同數據集上訓練后,在真實世界采集數據上的泛化性能比較
實驗
研究團隊在多個數據集上對 TIGER 進行了全面評估,包括 Libri2Mix、LRS2-2Mix 和 EchoSet。實驗結果顯示,隨著數據集的復雜性增加,TIGER 的性能優勢越加顯著。在 EchoSet 數據集上,TIGER 的性能比 TF-GridNet 提升了約 5%,同時參數量和計算量分別減少了 94.3% 和 95.3%。在真實世界采集的數據上(見上圖),TIGER 同樣表現出了最佳的分離性能。
常見語音分離模型性能和效率比較
研究團隊通過進一步壓縮參數,探索了 TIGER 的輕量化潛力。在 100K 的參數規模下,TIGER(tiny)在 Echoset 上的性能顯著優于基 GC3 方法 [4] 壓縮的 SudoRM-RF 模型 [5],表明 TIGER 在參數量和計算成本較低的情況下,仍能提供卓越的語音分離性能。
SudoRM-RF + GC3 與 TIGER (tiny) 的性能和效率比較
此外,TIGER 在電影音頻分離任務中也表現出了強大的泛化能力。實驗結果顯示,TIGER 在分離電影音頻中的語音、音樂和音效時,在保持輕量的情況下,性能顯著優于其他模型,進一步驗證了其在復雜聲學環境中的適用性。
TIGER 在電影音頻分離任務上的性能和效率