成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

新聞 人工智能
加州大學圣迭戈分校的研究人員建立了一個機器學習系統,可以預測鳥兒唱什么。這項研究最大的創新是為「聲帶假體」提供「實時語音合成」,但還遠不止于此。

與人類自然的從「想到」到「說出」模式相比,當前最先進的語音轉換系統也很慢。

當前頂尖的NLP系統還在努力跟上人類的思維速度。

比如,與谷歌助手或Alexa虛擬助手互動時,通常停頓時間會比你預期的長,不能實現與真實的人交談的流暢度。

[[407372]]

AI需要時間處理你的語音,它要確定每個單詞對它來說意味著什么,是否在它的能力范圍之內,然后找出哪些軟件包或程序可以訪問和部署,最后再輸出理解結果。

從宏觀的角度來看,這些基于云計算的系統運行速度已經很快了,但仍然不足以給不會說話的人創造一個無縫接口,讓他們以思維的速度「發出聲音」。

從鳥鳴研究開始

「鳴鳥」(一種鳥)是研究復雜「發聲行為」的一個很有吸引力的模型。

鳥鳴與人類語言有許多獨特的相似之處,對它的研究使人們對學習、執行和維持發聲運動技能背后的多種機制和電路有了普遍的認識。

此外,產生鳥鳴的生物力學與人類和一些非人類靈長類動物有相似之處。

在這項新的研究中,研究小組在12只斑胸草雀的大腦中植入電極 ,然后開始記錄它們唱歌。

[[407373]]

但是僅僅訓練人工智能識別鳥鳴時的神經活動是不夠的,即使是鳥類的大腦也太過復雜,無法完整地描繪出神經元之間的交流方式。

因此,研究人員訓練了另一個系統,將實時歌曲減少到AI可以識別的模式。

在這項研究中,研究人員展示了一個用于鳥鳴的聲樂合成器,通過將植入運動前核HVC的電極陣列記錄的神經群體活動映射到鳥鳴的低維壓縮表征上,使用可實時實施的簡單計算方法來實現。

使用鳥類發聲器官(即syrinx,鳴管)的生成性生物力學模型作為這些映射的低維目標,可以合成符合鳥類自身歌聲的聲音。

這些結果提供了一個概念證明:高維的、復雜的自然行為可以「直接」從正在進行的神經活動中合成。這可能會啟發其他物種通過利用外圍系統的知識和其輸出的時間結構來實現類似的假體方法。

實驗描述

該研究描述了兩種從斑胸草雀(Taeniopygia guttata)運動前核記錄的神經活動中合成真實發聲信號的方法。每種方法都利用了發聲運動過程的一個不同特征。

首先,研究人員利用了對鳥鳴產生的生物力學的理解,采用了一個發聲器官的生物力學模型,該模型在低維參數空間中捕捉到了大部分鳥鳴的光譜-時間復雜性(spectro-temporal complexity)。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

與歌曲的完整時頻表示相比,這種降維能夠訓練一個淺層前饋神經網絡(FFN),將神經活動映射到模型參數上。

作為第二種合成方法,研究人員利用了神經活動和歌曲之間的時間協方差中的預測成分,這可以由一個直接在聲樂輸出的頻域表示(頻譜圖)上訓練的遞歸、長短期記憶神經網絡(LSTM)學習。

每個合成的神經元輸入來自感覺-運動核HVC,那里的神經元產生高層次的指令,驅動學習歌曲的產生。

成年斑胸草雀單獨演唱由3-10個音節序列組成的固定主題歌曲。

唱歌時,多種HVC神經元亞型的活動受到調節:針對X區和RA區的投射神經元(HVCx/RA)在某個主題歌曲期間表現出短、精確、稀疏的活動爆發,而抑制性中間神經元(HVCI)在唱歌時顯示出更多的tonic活動。

為了獲得合奏的HVC活動和聲音輸出,我們在雄性成年斑胸草雀(>120天大)身上植入了16-channel或32-channel的Si探頭,并在每只鳥唱歌時同時記錄細胞外電壓(n=4只鳥,每次70-120個發聲主題)。

使用Kilosort對神經記錄進行自動分類,并進行人工整理以排除噪音。

根據違反折返期(refractory period violations)的數量,非噪聲集群被分為單個單位活動SUA(single-unit activity)或多單位活動(single- or multi-unit activity,MUA),并根據唱歌時活動的稀疏程度,推測為投射或中間神經元。

錄音以MUA群(n = 88)和HVC中間神經元(HVCI;n = 29)為主,相對較少的推測投影神經元(HVCx/RA;n = 15)。Figure 1A顯示了與歌曲對齊的神經活動直方圖的例子。Figure S1顯示了每只鳥的集群數量的光柵示例。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

具有生物力學意義的壓迫增強神經驅動的合成

通過神經活動合成復雜的運動序列需要兩個高維表征之間的映射。為了降低問題的維數,我們利用了一個鳥類發聲器官的「生物力學模型」,該模型將神經活動轉化為發聲輸出。

該模型考慮了鳴管和聲道的功能,鳴管包含唇褶(labial folds),當受到亞鳴管氣囊的壓力時,唇褶會振蕩,并調節氣流發出聲音(Figure 1B)。

唇的動態可以按照非線性振蕩器的運動方程進行建模,其中產生的聲音的特征由兩個時間變化的參數決定,代表生理上的運動指令。

為了通過生物力學模型從神經活動中合成歌曲,首先要擬合模型的參數,生成每種發聲的合成版本。

每次訓練中,我們隨機選擇60%的模體進行訓練,將每個模體分成5毫秒的單元,然后訓練一個單隱層的FFNN,在50毫秒內獨立于神經活動預測每個單元相應的生物力學模型參數。神經活動用每個簇的平均放電速率表示,分成1-ms 的單元。

為了避免引入時間相關性,研究人員將每對神經活動窗口和目標模型參數呈現給網絡的順序隨機化。通過訓練,預測神經活動測試集對應的生物力學模型參數值,并將模型的微分方程積分得到神經驅動合成歌曲的每一個單元。

這就產生了合成的發聲效果,聽起來和鳥類自己的聲音很相似。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

相反,用FFNN直接預測歌曲的頻譜-時間特征會導致低質量的合成。研究人員訓練了一個與之前類似的網絡,但以歌曲的頻譜成分為目標,即以64個頻段的功率為代表。

以這種方式為每只鳥合成的歌曲的例子(Figure 3; Audio S1, S2, S3, and S4)顯示了FFNN如何未能產生斑胸草雀歌曲中典型的定義明確的諧波堆,以及如何忠實地再現聲帶的起伏。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

與光譜-時間系數相比,FFNN 預測模型參數的能力不同((Figures 2, 3, and 4),表明降低行為的維度可以增強預測能力。為了證實這一點,研究人員訓練了FFNN來重現行為的不同 「壓縮」,即譜圖的前3個主成分(PC)。

從神經活動中預測3個PC值的表現與預測生物力學模型參數的表現相似(Figure S4A)。后者的優勢在于其生成能力,可以產生與BOS更相似的歌曲。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

未能準確預測鳥類主題的光譜系數可能反映了這個模型無法捕捉更復雜的跨響應群的時間動態,在特定的發聲之前。

為了捕捉這些動態,研究人員訓練了一個LSTM,直接從前面50毫秒的神經活動中預測歌曲的頻譜成分(64個頻帶) ,使用與前面部分描述的相同的輸入和輸出數據。與 FFNN 不同,LSTM 產生一個神經驅動的歌曲合成,聽起來類似于預期的鳥自己的歌曲(Figure 3; Audio S1, S2, S3, 及S4)

由于雄性斑胸草雀的種類有限,這可能意味著可以通過相對簡單的方法實現直接合成。然而,由于 FFNN 的損失函數接近于正則化的非線性回歸,因此與所有其他方法相比,它預測出的歌曲質量較差。原因尚不完全清楚,但它可能反映了數據集的神經元亞型組成。

該研究演示了一個復雜通信信號的BMI,使用計算塊,可以在一個建立的動物模型中實時實現,用于產生和學習復雜的聲音行為。該方法的優勢在于能夠找到行為的低維參量化,這種方式可以通過記錄相對較小的樣本(幾十個)神經元的活動來驅動。這樣做與記錄從表面位于細胞 HVC 可以通過侵入性較小的微電極陣列,不僅能夠分辨 LFP,這已被證明適合BMI, 還有 SUA 和 MUA.

這提供了一個新穎的工具來探索「神經回路基礎」的產生,獲取和保持聲音通信信號,并解鎖進入新的模型和實驗,旨在了解神經元的活動是如何轉化為自然行為,以及如何外圍效應塑造行為的神經基礎。

該方法也為「聲帶修復」策略提供了一個試驗場。雖然鳥鳴聲與人類語言有很多明顯的區別,但兩種語言系統有很多相似之處,包括「連續組織」的特點和「習得」策略,神經元組織和功能的類比,遺傳基礎,以及發聲的物理機制,實驗的可達性、對神經系統和外周系統的相對先進的理解,以及作為發聲和學習的發達模型的地位,這都使鳴鳥成為一個有吸引力的動物模型,以促進語音BMI(speech BMI),很像運動BMI的非人靈長類動物模型。

該論文原始數據、代碼資源均已開放。

加州大學華人博士團隊訓練AI模仿鳥兒唱歌 實時「意念-語音轉換」

論文作者之一Shukai Chen,目前是加利福尼亞大學圣迭戈分校生物工程學院在讀博士,研究方向為計算神經科學。

語音BMI鋪墊DL再次復興

該實驗確實為一個突出的問題提供了解決方案。實時處理鳥鳴令人印象深刻,用人類語言復制這些結果將會令人驚奇。

但是,這項研究仍處于早期階段,不一定適用于其他語音系統。為了讓它運行得足夠快,研究人員利用語音分析這一捷徑,當把它擴展到鳥鳴以外時,這個捷徑可能就不起作用了。

但隨著進一步的發展,這可能是自2014年「深度學習復興」以來「腦機接口」的第一次巨大的技術飛躍。

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-05-27 13:37:55

算法觸覺

2023-04-06 10:36:04

谷歌人工智能

2013-08-08 10:10:28

華為云存儲華為

2022-02-24 13:36:21

3D模型AI

2009-04-01 18:44:48

Vmware虛擬化存儲

2009-01-08 10:09:12

Xiotech存儲虛擬化惠普

2025-02-17 08:00:00

AGIAI神經科學

2009-02-24 18:56:01

虛擬化存儲虛擬化南加州大學

2021-04-07 09:47:59

勒索軟件攻擊數據泄露

2009-01-08 17:19:28

服務器虛擬化南加州

2021-10-11 10:30:46

機器學習人工智能計算機

2024-08-28 10:30:00

2021-07-19 14:37:04

AI 數據人工智能

2024-05-20 10:12:54

自動駕駛開源

2023-09-05 13:12:00

AI數據

2018-08-14 16:00:36

AI歌詞相聲

2024-06-17 09:05:00

2020-04-02 10:16:59

機器學習人工智能計算機

2023-08-04 09:30:51

2023-09-12 18:02:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美a在线观看 | 久久久久国产一区二区三区四区 | 亚洲精品www久久久 www.蜜桃av | 伊人天堂网 | 超碰免费在线观看 | 天堂影院av| 一级黄色片一级黄色片 | 国产精品视频一二三区 | 狠狠爱综合 | 99精品国产一区二区三区 | 久久久亚洲综合 | 亚洲视频免费 | 欧美性高潮 | 国产成人叼嘿视频在线观看 | 黄久久久 | 久久久久亚洲精品 | 国产精品美女www | 九九精品网 | 91精品国产色综合久久不卡98 | 日韩久久久久久久久久久 | 国产一区二区免费电影 | 91精品免费 | 亚洲欧美一区二区三区1000 | 国产成人99 | 91精品国产91久久久久久吃药 | 久久国产精品-国产精品 | 在线一区 | 99re视频在线观看 | 国产精品福利网 | 99re99| 国产精品久久久久久久岛一牛影视 | 久久毛片 | 中文字幕国产 | 日韩精品在线一区 | 免费小视频在线观看 | 久久综合伊人 | 日韩成年人视频在线 | 精品免费国产一区二区三区 | 午夜精品久久久久久不卡欧美一级 | 欧美日韩在线播放 | 成人乱人乱一区二区三区软件 |