LeCun轉發，AI讓失語者重新說話！紐約大學發布全新「神經-語音」解碼器

作者：新智元 2024-05-07 14:06:05

通過采集皮層電圖（ECoG）的數據信號，模型可以將其轉換為可解釋的語音參數（如音高，響度，共振峰頻率等），并合成出既準確又自然的語音波形。

腦機接口（BCI）在科研和應用領域的進展在近期屢屢獲得廣泛的關注，大家通常都對腦機接口的應用前景有著廣泛的暢享。

比如，由于神經系統的缺陷造成的失語癥不僅嚴重阻礙患者的日常生活，還可能限制他們的職業發展和社交活動。隨著深度學習和腦機接口技術的迅猛發展，現代科學正向著通過神經語音假肢來輔助失語者重新獲得交流能力的方向邁進。

腦機接口在解碼人的語音、動作等信號方面已經有了一系列激動人心的進展。特別值得一提的是，埃隆·馬斯克（Elon Musk）的Neuralink公司在這一領域也取得了突破性進展。

該公司成功地在一位試驗對象的大腦中植入了電極，實現了通過簡單的光標操作來進行打字、游戲等功能。這標志著我們在向更高復雜度的神經-語音/動作解碼邁進的路上又進了一步。相比于其他腦機接口技術，神經-語音解碼的復雜性更高，其研發工作主要依賴于特殊的數據源——皮層電圖（ECoG）。

皮層電圖在臨床上主要是從進行癲癇治療的患者那里收集的，因為這些患者通常會植入電極以監測大腦活動。研究人員利用這些電極，在發音時收集大腦皮層的數據。這些數據不僅具有高度的時空分辨率，而且已經在語音解碼研究中取得了顯著成果，極大地推動了腦機接口技術的發展。通過這些先進技術的幫助，未來我們有望看到更多患有神經障礙的人士重獲交流的自由。

最近在《自然》雜志上發表的一項研究取得了突破，研究中在一位植入設備的患者身上使用了量化的HuBERT特征作為中間表征，結合預訓練的語音合成器將這些特征轉化為語音，這種方法不僅提高了語音的自然度，也保持了高準確性。

然而，HuBERT特征并不能捕捉到發音者的獨特聲學特征，生成的聲音通常是統一的發音者聲音，因此仍需額外的模型來將這種通用聲音轉換為特定患者的聲音。

另一個值得注意的點是，該研究及大部分先前嘗試采用了非因果架構，這可能限制了其在需要因果操作的腦機接口應用中的實際使用。

2024年4月8日，紐約大學VideoLab和Flinker Lab聯合在《Nature Machine Intelligence》雜志上發表了一項突破性研究。

圖片

論文鏈接：https://www.nature.com/articles/s42256-024-00824-8

研究相關代碼開源在https://github.com/flinkerlab/neural_speech_decoding

更多生成的語音例子在：https://xc1490.github.io/nsd/

這項名為“A neural speech decoding framework leveraging deep learning and speech synthesis”的研究，介紹了一個創新的可微分語音合成器。

該合成器結合了輕量級卷積神經網絡，能夠將語音編碼為一系列可解釋的語音參數，如音高、響度和共振峰頻率等，并利用可微分的技術重新合成語音。

此研究通過將神經信號映射到這些具體的語音參數，成功構建了一個高度可解釋并適用于小數據集的神經語音解碼系統。這一系統不僅能重構出高保真且聽起來自然的語音，而且為未來腦機接口應用的高準確性提供了實證基礎。

研究團隊共收集了48位受試者的數據，并在這一基礎上進行了語音解碼的嘗試，為高精度腦機接口技術的實際應用和發展打下了堅實的基礎。

圖靈獎得主Lecun也轉發了研究進展。

圖片

研究現狀

在當前神經信號到語音解碼的研究中，面臨兩大核心挑戰。

首先是數據量的限制：為了訓練個性化的神經到語音解碼模型，通常每個病人的可用的數據時間總長僅約十分鐘，這對于依賴大量訓練數據的深度學習模型而言是一個顯著的制約因素。

其次，人類語音的高度多樣性也增加了建模的復雜度。即便同一人反復發音拼讀同一個單詞，其語速、語調和音調等因素亦可能發生變化，從而為模型的構建增添了額外的難度。

在早期嘗試中，研究者們主要采用線性模型來解碼神經信號到語音。這類模型不需龐大的數據集支持，具備較強的可解釋性，但其準確率通常較低。

近期，隨著深度學習技術的進步，特別是卷積神經網絡（CNN）和循環神經網絡（RNN）的應用，研究者在模擬語音的中間潛在表征和提升合成語音質量方面進行了廣泛嘗試。

例如，一些研究通過將大腦皮層活動解碼為口型運動，再轉化為語音，盡管這種方法在解碼性能上較為強大，重建的聲音卻往往聽起來不夠自然。

此外，一些新方法嘗試利用Wavenet聲碼器和生成對抗網絡（GAN）來重建自然聽感的語音，雖然這些方法能夠改善聲音的自然度，但在準確度上仍有局限。

主要模型框架

在該研究中，研究團隊展示了一種創新的從腦電（ECoG）信號到語音的解碼框架。他們構建了一個低維度的潛在表示空間，該空間通過一個輕量級的語音編解碼模型，僅使用語音信號來生成。

這一框架包含兩個核心部分：首先是ECoG解碼器，它負責將ECoG信號轉換為一系列可理解的聲學語音參數，如音高、是否發聲、響度及共振峰頻率等；其次是語音合成器部分，負責將這些參數轉換為頻譜圖。

通過構建一個可微分的語音合成器，研究人員實現了在訓練ECoG解碼器的同時，也對語音合成器進行優化，共同減少頻譜圖重建的誤差。這種低維度潛在空間的可解釋性強，結合輕量級的預訓練語音編碼器生成的參考語音參數，使得整個神經語音解碼框架高效且適應性強，有效解決了該領域中數據稀缺的問題。

此外，這個框架不僅能生成與說話者非常接近的自然語音，而且在ECoG解碼器部分支持插入多種深度學習模型架構，并能進行因果操作。

研究團隊處理了48名神經外科病人的ECoG數據，并使用了多種深度學習架構（包括卷積、循環神經網絡和Transformer）來實現ECoG解碼。

這些模型在實驗中均顯示了高準確度，尤其是采用ResNet卷積架構的表現最為出色。該研究框架不僅通過因果操作和相對較低的采樣率（10mm間隔）實現了高準確度，還展示了能從大腦的左右半球都有效進行語音解碼的能力，從而將神經語音解碼的應用范圍擴展到了右腦。

圖片

本研究的核心創新之一是開發了一種可微分的語音合成器，這大大提高了語音重合成的效率，并能合成接近原聲的高保真音頻。

這種語音合成器的設計靈感來源于人類的發聲系統，將語音細分為兩個部分：Voice（主要用于元音的模擬）和Unvoice（主要用于輔音的模擬）。

在Voice部分，首先使用基頻信號生成諧波，然后通過由F1至F6共振峰構成的濾波器，以獲得元音的頻譜特征。

對于Unvoice部分，通過對白噪聲進行特定濾波，生成相應的頻譜。一個可學習的參數控制這兩部分在每個時間點的混合比例。

最后，通過調整響度信號和添加背景噪聲，生成最終的語音頻譜。

基于這種語音合成器，研究團隊設計了一個高效的語音重合成框架及神經-語音解碼框架。詳細的框架結構可以參考原文的圖6。

研究結果

1. 具有時序因果性的語音解碼結果

在此項研究中，研究者首先對不同的模型架構進行了直接比較，包括卷積網絡（ResNet）、循環神經網絡（LSTM）和Transformer架構（3D Swin），以評估它們在語音解碼性能上的差異。

值得注意的是，這些模型均能執行時間序列上的非因果或因果操作。

圖片

在大腦-計算機接口（BCI）的應用中，解碼模型的因果性具有重要意義：因果模型只利用過去和當前的神經信號來生成語音，而非因果模型還會參考未來的神經信號，這在實際操作中是不可行的。

因此，研究的重點在于比較同一模型在執行因果和非因果操作時的性能表現。結果顯示，即使是因果版本的ResNet模型，其性能也能與非因果版本相媲美，二者之間沒有顯著的性能差異。

類似地，Swin模型的因果和非因果版本性能相近，但LSTM的因果版本在性能上顯著低于其非因果版本。研究還展示了幾個關鍵的語音參數的平均解碼準確率（總樣本數為48），包括聲音權重（區分元音和輔音的參數）、響度、基頻f0、第一共振峰f1和第二共振峰f2。

準確地重建這些語音參數，特別是基頻、聲音權重和前兩個共振峰，對于實現精確的語音解碼和自然地重現參與者聲音至關重要。

研究結果表明，無論是非因果還是因果模型，都能提供合理的解碼效果，這為未來的相關研究和應用提供了積極的啟示。

2. 對左右大腦神經信號語音解碼以及空間采樣率的研究

研究者在最新的研究中進一步探索了左右大腦半球在語音解碼上的性能差異。

傳統上，大多數研究主要集中在與語音和語言功能密切相關的左腦半球。

圖片

然而，關于右腦半球在語言信息解碼方面的能力，我們了解的還很有限。為了探索這一領域，研究團隊比較了參與者左右腦半球的解碼性能，驗證了使用右腦半球進行語音恢復的可行性。

在研究中收集的48位受試者中，16位的ECoG信號來自右腦。研究者通過比較使用ResNet和Swin解碼器的性能，發現右腦半球同樣能夠有效地進行語音解碼，其效果與左腦半球相近。這一發現為那些左腦受損且失去語言功能的患者提供了一種可能的語言恢復方案。

研究還涉及到了電極采樣密度對語音解碼效果的影響。以往的研究多使用較高密度的電極網格（0.4 mm），而在臨床實踐中常用的電極網格密度則較低（1 cm）。

本研究中有五位參與者使用了混合類型（HB）的電極網格，這類網格主要是低密度，但添加了一些額外的電極。其余四十三位參與者均使用了低密度采樣。

結果顯示，這些混合采樣（HB）的解碼表現與傳統的低密度采樣（LD）相近，表明模型能夠有效地從不同密度的大腦皮層電極網格中學習語音信息。這一發現暗示了在臨床常用的電極采樣密度可能已足夠支持未來的腦機接口應用。

3. 對于左右腦不同腦區對語音解碼貢獻度的研究

研究者還探討了大腦中與語音相關區域在語音解碼過程中的作用，這一點對于將來可能在左右腦半球植入語音恢復設備具有重要意義。為了評估不同大腦區域對語音解碼的影響，研究團隊采用了遮擋技術（occlusion analysis）。

通過對ResNet和Swin解碼器的因果與非因果模型進行比較，研究發現，在非因果模型中，聽覺皮層的作用更加顯著。這一結果強調了在實時語音解碼應用中使用因果模型的必要性，因為實時應用無法依賴未來的神經反饋信號。

圖片

此外，研究也顯示，無論在大腦的左半球還是右半球，傳感運動皮層特別是腹部區域對語音解碼的貢獻度都相似。這一發現表明，在右半球植入神經假肢來恢復語音可能是一個可行的方案，提供了對未來治療策略的重要見解。

結論（啟發展望）

研究團隊開發了一種新型的可微分語音合成器，這一合成器使用輕型卷積神經網絡將語音編碼為一系列可解釋的參數，如音高、響度和共振峰頻率等，并利用同一可微分合成器對語音進行重新合成。

通過將神經信號映射到這些參數上，研究者們構建了一個高度可解釋并適用于小數據集的神經語音解碼系統，能夠生成自然聽感的語音。

這一系統在48名參與者中表現出高度的可復現性，能夠處理不同空間采樣密度的數據，并能同時處理左、右腦半球的腦電信號，展示了其在語音解碼方面的強大潛力。

盡管取得了顯著進展，研究者也指出了模型當前的一些局限性，如解碼過程依賴于與ECoG記錄配對的語音訓練數據，這對于失語癥患者可能不適用。

未來，研究團隊希望建立能夠處理非網格數據的模型架構，并更有效地利用多病人、多模態的腦電數據。隨著硬件技術的持續進步和深度學習技術的快速發展，腦機接口領域的研究仍處于早期階段，但隨著時間的推移，科幻電影中的腦機接口設想將逐步成為現實。

參考資料：

https://www.nature.com/articles/s42256-024-00824-8

本文第一作者：Xupeng Chen (xc1490@nyu.edu), Ran Wang，通訊作者：Adeen Flinker

更多關于神經語音解碼中的因果性討論，可以參考作者們的另一篇論文：

https://www.pnas.org/doi/10.1073/pnas.2300255120

責任編輯：武曉燕來源：新智元

AI 語音參數

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看