加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」
與人類自然的從「想到」到「說出」模式相比,當前最先進的語音轉換系統也很慢。
當前頂尖的NLP系統還在努力跟上人類的思維速度。
比如,與谷歌助手或Alexa虛擬助手互動時,通常停頓時間會比你預期的長,不能實現與真實的人交談的流暢度。
AI需要時間處理你的語音,它要確定每個單詞對它來說意味著什么,是否在它的能力范圍之內,然后找出哪些軟件包或程序可以訪問和部署,最后再輸出理解結果。
從宏觀的角度來看,這些基于云計算的系統運行速度已經很快了,但仍然不足以給不會說話的人創造一個無縫接口,讓他們以思維的速度「發出聲音」。
從鳥鳴研究開始
「鳴鳥」(一種鳥)是研究復雜「發聲行為」的一個很有吸引力的模型。
鳥鳴與人類語言有許多獨特的相似之處,對它的研究使人們對學習、執行和維持發聲運動技能背后的多種機制和電路有了普遍的認識。
此外,產生鳥鳴的生物力學與人類和一些非人類靈長類動物有相似之處。
在這項新的研究中,研究小組在12只斑胸草雀的大腦中植入電極 ,然后開始記錄它們唱歌。
但是僅僅訓練人工智能識別鳥鳴時的神經活動是不夠的,即使是鳥類的大腦也太過復雜,無法完整地描繪出神經元之間的交流方式。
因此,研究人員訓練了另一個系統,將實時歌曲減少到AI可以識別的模式。
在這項研究中,研究人員展示了一個用于鳥鳴的聲樂合成器,通過將植入運動前核HVC的電極陣列記錄的神經群體活動映射到鳥鳴的低維壓縮表征上,使用可實時實施的簡單計算方法來實現。
使用鳥類發聲器官(即syrinx,鳴管)的生成性生物力學模型作為這些映射的低維目標,可以合成符合鳥類自身歌聲的聲音。
這些結果提供了一個概念證明:高維的、復雜的自然行為可以「直接」從正在進行的神經活動中合成。這可能會啟發其他物種通過利用外圍系統的知識和其輸出的時間結構來實現類似的假體方法。
實驗描述
該研究描述了兩種從斑胸草雀(Taeniopygia guttata)運動前核記錄的神經活動中合成真實發聲信號的方法。每種方法都利用了發聲運動過程的一個不同特征。
首先,研究人員利用了對鳥鳴產生的生物力學的理解,采用了一個發聲器官的生物力學模型,該模型在低維參數空間中捕捉到了大部分鳥鳴的光譜-時間復雜性(spectro-temporal complexity)。

與歌曲的完整時頻表示相比,這種降維能夠訓練一個淺層前饋神經網絡(FFN),將神經活動映射到模型參數上。
作為第二種合成方法,研究人員利用了神經活動和歌曲之間的時間協方差中的預測成分,這可以由一個直接在聲樂輸出的頻域表示(頻譜圖)上訓練的遞歸、長短期記憶神經網絡(LSTM)學習。
每個合成的神經元輸入來自感覺-運動核HVC,那里的神經元產生高層次的指令,驅動學習歌曲的產生。
成年斑胸草雀單獨演唱由3-10個音節序列組成的固定主題歌曲。
唱歌時,多種HVC神經元亞型的活動受到調節:針對X區和RA區的投射神經元(HVCx/RA)在某個主題歌曲期間表現出短、精確、稀疏的活動爆發,而抑制性中間神經元(HVCI)在唱歌時顯示出更多的tonic活動。
為了獲得合奏的HVC活動和聲音輸出,我們在雄性成年斑胸草雀(>120天大)身上植入了16-channel或32-channel的Si探頭,并在每只鳥唱歌時同時記錄細胞外電壓(n=4只鳥,每次70-120個發聲主題)。
使用Kilosort對神經記錄進行自動分類,并進行人工整理以排除噪音。
根據違反折返期(refractory period violations)的數量,非噪聲集群被分為單個單位活動SUA(single-unit activity)或多單位活動(single- or multi-unit activity,MUA),并根據唱歌時活動的稀疏程度,推測為投射或中間神經元。
錄音以MUA群(n = 88)和HVC中間神經元(HVCI;n = 29)為主,相對較少的推測投影神經元(HVCx/RA;n = 15)。Figure 1A顯示了與歌曲對齊的神經活動直方圖的例子。Figure S1顯示了每只鳥的集群數量的光柵示例。

具有生物力學意義的壓迫增強神經驅動的合成
通過神經活動合成復雜的運動序列需要兩個高維表征之間的映射。為了降低問題的維數,我們利用了一個鳥類發聲器官的「生物力學模型」,該模型將神經活動轉化為發聲輸出。
該模型考慮了鳴管和聲道的功能,鳴管包含唇褶(labial folds),當受到亞鳴管氣囊的壓力時,唇褶會振蕩,并調節氣流發出聲音(Figure 1B)。
唇的動態可以按照非線性振蕩器的運動方程進行建模,其中產生的聲音的特征由兩個時間變化的參數決定,代表生理上的運動指令。
為了通過生物力學模型從神經活動中合成歌曲,首先要擬合模型的參數,生成每種發聲的合成版本。
每次訓練中,我們隨機選擇60%的模體進行訓練,將每個模體分成5毫秒的單元,然后訓練一個單隱層的FFNN,在50毫秒內獨立于神經活動預測每個單元相應的生物力學模型參數。神經活動用每個簇的平均放電速率表示,分成1-ms 的單元。
為了避免引入時間相關性,研究人員將每對神經活動窗口和目標模型參數呈現給網絡的順序隨機化。通過訓練,預測神經活動測試集對應的生物力學模型參數值,并將模型的微分方程積分得到神經驅動合成歌曲的每一個單元。
這就產生了合成的發聲效果,聽起來和鳥類自己的聲音很相似。

相反,用FFNN直接預測歌曲的頻譜-時間特征會導致低質量的合成。研究人員訓練了一個與之前類似的網絡,但以歌曲的頻譜成分為目標,即以64個頻段的功率為代表。
以這種方式為每只鳥合成的歌曲的例子(Figure 3; Audio S1, S2, S3, and S4)顯示了FFNN如何未能產生斑胸草雀歌曲中典型的定義明確的諧波堆,以及如何忠實地再現聲帶的起伏。

與光譜-時間系數相比,FFNN 預測模型參數的能力不同((Figures 2, 3, and 4),表明降低行為的維度可以增強預測能力。為了證實這一點,研究人員訓練了FFNN來重現行為的不同 「壓縮」,即譜圖的前3個主成分(PC)。
從神經活動中預測3個PC值的表現與預測生物力學模型參數的表現相似(Figure S4A)。后者的優勢在于其生成能力,可以產生與BOS更相似的歌曲。

未能準確預測鳥類主題的光譜系數可能反映了這個模型無法捕捉更復雜的跨響應群的時間動態,在特定的發聲之前。
為了捕捉這些動態,研究人員訓練了一個LSTM,直接從前面50毫秒的神經活動中預測歌曲的頻譜成分(64個頻帶) ,使用與前面部分描述的相同的輸入和輸出數據。與 FFNN 不同,LSTM 產生一個神經驅動的歌曲合成,聽起來類似于預期的鳥自己的歌曲(Figure 3; Audio S1, S2, S3, 及S4)
由于雄性斑胸草雀的種類有限,這可能意味著可以通過相對簡單的方法實現直接合成。然而,由于 FFNN 的損失函數接近于正則化的非線性回歸,因此與所有其他方法相比,它預測出的歌曲質量較差。原因尚不完全清楚,但它可能反映了數據集的神經元亞型組成。
該研究演示了一個復雜通信信號的BMI,使用計算塊,可以在一個建立的動物模型中實時實現,用于產生和學習復雜的聲音行為。該方法的優勢在于能夠找到行為的低維參量化,這種方式可以通過記錄相對較小的樣本(幾十個)神經元的活動來驅動。這樣做與記錄從表面位于細胞 HVC 可以通過侵入性較小的微電極陣列,不僅能夠分辨 LFP,這已被證明適合BMI, 還有 SUA 和 MUA.
這提供了一個新穎的工具來探索「神經回路基礎」的產生,獲取和保持聲音通信信號,并解鎖進入新的模型和實驗,旨在了解神經元的活動是如何轉化為自然行為,以及如何外圍效應塑造行為的神經基礎。
該方法也為「聲帶修復」策略提供了一個試驗場。雖然鳥鳴聲與人類語言有很多明顯的區別,但兩種語言系統有很多相似之處,包括「連續組織」的特點和「習得」策略,神經元組織和功能的類比,遺傳基礎,以及發聲的物理機制,實驗的可達性、對神經系統和外周系統的相對先進的理解,以及作為發聲和學習的發達模型的地位,這都使鳴鳥成為一個有吸引力的動物模型,以促進語音BMI(speech BMI),很像運動BMI的非人靈長類動物模型。
該論文原始數據、代碼資源均已開放。

論文作者之一Shukai Chen,目前是加利福尼亞大學圣迭戈分校生物工程學院在讀博士,研究方向為計算神經科學。
語音BMI鋪墊DL再次復興
該實驗確實為一個突出的問題提供了解決方案。實時處理鳥鳴令人印象深刻,用人類語言復制這些結果將會令人驚奇。
但是,這項研究仍處于早期階段,不一定適用于其他語音系統。為了讓它運行得足夠快,研究人員利用語音分析這一捷徑,當把它擴展到鳥鳴以外時,這個捷徑可能就不起作用了。
但隨著進一步的發展,這可能是自2014年「深度學習復興」以來「腦機接口」的第一次巨大的技術飛躍。