腦機接口重要突破!國內(nèi)團隊成功實現(xiàn)「全譜漢語解碼」:Top 3準(zhǔn)確率接近100%
今年八月,兩篇背靠背《自然》文章展示了腦機接口在語言恢復(fù)方面的強大能力,單現(xiàn)有的語言腦機接口技術(shù)多是為「英文等字母語言」體系構(gòu)建而成,針對「漢字等非字母體系」的語言腦機接口系統(tǒng)研究仍是空白。
最近,先進神經(jīng)芯片中心默罕默德·薩萬教授團隊,自然語言處理實驗室張岳教授團隊和朱君明教授團隊聯(lián)合發(fā)布了他們最新的研究結(jié)果,實現(xiàn)了腦機接口全譜漢語解碼,一定程度彌補了國際上漢語解碼腦機接口技術(shù)的空白。
圖片
論文地址:https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1
此項研究通過立體定向腦電技術(shù)(SEEG)采集所有普通話漢字發(fā)音過程對應(yīng)的大腦內(nèi)神經(jīng)活動信號,結(jié)合深度學(xué)習(xí)算法和語言模型,實現(xiàn)了對全譜漢字發(fā)音的解碼,建立起覆蓋所有漢語普通話字符發(fā)音的漢語腦機接口系統(tǒng),實現(xiàn)了大腦活動到完整普通話句子的端到端輸出。
腦機接口解碼漢語
腦機接口(Brain-computer interface,簡稱BCI)被公認(rèn)為是未來生命科學(xué)和信息技術(shù)交叉融合的主戰(zhàn)場,是具有重要社會價值和戰(zhàn)略意義的研究方向。
腦機接口技術(shù)是指是在人或動物腦與外部設(shè)備間創(chuàng)建信息交換的連接通路,其實質(zhì)是一種新型的信息傳輸渠道,讓信息能夠繞過原有的肌肉及外圍神經(jīng)通路實現(xiàn)與外部世界的連通,從而一定程度替代人的運動、語言等功能。
漢語作為一種象形和音節(jié)結(jié)合的語言,具有超過50000個字符,與由26個字母組合而成的英語具有顯著不同,因此這對于現(xiàn)有的語言腦機接口系統(tǒng)來說是一個巨大的挑戰(zhàn)。
為了解決這一問題,在過去三年時間里,研究團隊深入分析漢語本身的發(fā)音規(guī)則和特點。從漢語發(fā)音音節(jié)的聲母、聲調(diào)和韻母三個要素出發(fā),結(jié)合拼音輸入系統(tǒng)的特點,設(shè)計了一種全新的適用于漢語的語言腦機接口系統(tǒng)。
研究團隊通過設(shè)計覆蓋所有407個漢語拼音音節(jié)以及漢語發(fā)音特點的語音庫并同步收集腦電信號,構(gòu)建了超過100小時的漢語語音-SEEG數(shù)據(jù)庫。
通過人工智能模型訓(xùn)練,該系統(tǒng)構(gòu)建了針對漢字發(fā)音音節(jié)三要素(包括聲母、聲調(diào)和韻母)的預(yù)測模型,并最終通過一個語言模型對所有預(yù)測得到的元素進行整合,結(jié)合語義信息生成最可能的完整漢語句子。
圖片
研究團隊對這一腦機接口系統(tǒng)在模擬日常漢語環(huán)境中的解碼能力進行了評估。在超過100次隨機選擇的2個字符-15個字符的復(fù)雜交流場景解碼測試后,所有參與者字符錯誤率中位數(shù)平均僅為29%,部分參與者通過腦電解碼得到的句子完全正確率達到了30%。
相對高效的解碼性能得益于三個獨立音節(jié)元素解碼器的優(yōu)秀表現(xiàn)和智能語言模型的完美配合。特別的是在分類21個聲母方面,聲母解碼器的準(zhǔn)確率超過了40%(超過3倍基準(zhǔn)線),并且Top 3正確率幾乎達到了100%;而用于區(qū)分4個聲調(diào)的聲調(diào)解碼器的準(zhǔn)確率也達到了50%(超過2倍基準(zhǔn)線)。
除了三個獨立音節(jié)元素解碼器的突出貢獻以外,智能語言模型強大的自動糾錯能力和上下文聯(lián)系能力也讓整個語言腦機接口系統(tǒng)的表現(xiàn)更為突出。
圖片
這項研究為漢語這種意音文字語言的BCI解碼研究提供了全新視角,也證明通過強大的語言模型可顯著提高語言腦機接口系統(tǒng)的性能,為未來的意音文字語言神經(jīng)假肢研究提供了新的方向。
該項工作也預(yù)示著神經(jīng)系統(tǒng)疾病患者很快就能通過意念來控制計算機生成漢語句子,重獲交流能力!
參考資料:
https://www.biorxiv.org/content/10.1101/2023.11.05.562313v1