清華可穿戴智能喉登Nature子刊,實測準確率90%+
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
將一塊僅硬幣大小的圓片,貼在喉嚨處,嗓子有問題的人就可以重獲新“聲”了。
這是清華大學發表在Nature子刊上的最新研究成果,一個用石墨烯材料做成的可穿戴喉嚨。
△ Nature Machine Intelligence(自然·機器智能)
它可以準確識別到佩戴者喉嚨處的細微振動以及模糊的話語,然后將之合成為正常的語音,平均識別準確率高達99.05%。
據稱,這款設備在噪音非常大的地方也好使。
如此一來,那些不能正常發聲的人,包括喉切除患者、臨時嗓子發炎者、長時間講課的老師、在嘈雜環境工作但需要交流的人等,都有救了。
當然,還有不少人直接cue起了李雪健老師。
清華可穿戴智能喉,患者實測準確率91%
要說幫喉嚨有問題的人解決交流問題,科學家早就在研究了。
不過此前的一些方案由于帶有一系列外設或者多通道電極,通常具有侵入性且不夠便攜。
要解決這倆問題,需要感應器足夠靈敏且小巧,在外部就能使用。
還需要足夠貼合皮膚。
因為理論上,喉部的振動反映的是聲帶以及相關肌肉群的運動。
一些聲帶發聲有障礙的人,可能會訓練食管發聲,因此,需要柔性傳感器來保持對皮膚的貼合從而照顧到這一部位。
好在,有這么一種東西可以滿足這些需要。
它就是用柔性激光直寫(laser-scribed)石墨烯(LSG)制成的機械傳感器,專門用于身體表面。
不過,由于不確定這種設備對低頻肌肉運動和傳遞到皮膚表面的聲音振動是否敏感,作者團隊對它的蜂窩狀微觀結構進行了優化。
最終,它可以做到在>1000次的彎曲測試后仍表現出均勻穩定的靈敏度,準確識別出頻率范圍在100–20kHz之間的振動信息。
由于LSG薄膜具有導電性和導熱性,這種設備也可以通過熱聲效應產生聲音。在聲音發射穩定性的實驗中,作者證明它可以做到連續三小時都保持穩定。
下面是這款可穿戴智能喉的工作流程:
首先,設備將收集到的振動信息編碼為標準脈沖編碼調制(PCM)信號。
然后通過快速傅里葉變換(FFT)生成相應的頻譜圖。
接著通過模型進行外部處理和識別,將檢測到的多模態信號轉換為相應的語音。
最后通過熱聲效應驅動設備發聲,幫助佩戴者完成交流。
實驗表明,這款設備對音素、音調以及單詞的識別準確率平均達到了99.05%。
下圖則顯示了設備在不同強度(dB)噪音下的識別精度。
可以看到,它在環境噪聲超過60dB的情況下,也能保持識別能力,抗噪能力遠遠優于麥克風。
“Talk is cheap”,作者也進行了實戰測試。
他們找來一位完成了喉切除(非全切)手術的志愿者,檢測六個日常短句的識別情況。
從頻譜圖可以看出,可穿戴智能喉可以感知患者喉嚨的發聲振動。
不過由于發聲器官不完整,患者有時會在說話時吞咽聲音。不過微調模型仍然能夠從信號中提取足夠的信息,將識別準確率做到81.25%。
接著,他們又對用到的單個AlexNet模型進行了優化(Alex Net+ReliefF+SVM),最終實現了91%的識別精度。
總的來說,由于制造工藝可行、靈敏度高、性能穩定、抗噪能力強以及集成了發聲能力,作者認為,這款可穿戴喉嚨可以成為下一代語音識別和交互系統的理想工具。
而網友們也腦洞大開:
有讓加個音色調節的過濾器,變成可穿戴變聲器的;
也有說來個實時翻譯,就讓人直接擁有說多種語言的能力的。
你覺得還有哪些妙用?
論文地址:
??https://www.nature.com/articles/s42256-023-00616-6