五分鐘技術趣談 | 基于Speech框架實現APP智能語音交互的解決方案
Part 01
概述
系統的語音框架無法被外部開發者使用,但是蘋果基于機器學習能力為開發者開放了具備類似能力行為的Speech框架,你可以在自己開發的APP應用程序中通過調用開放的接口能力,就可以實現類型鍵盤聽寫功能。例如,你可以使用語音識別來識別語音命令或在應用程序的其他部分中處理文本聽寫。你可以在許多語言中執行語音識別,但每個SFSpeech對象在一種語言上運行,并且Speech框架還依賴于蘋果的服務器進行語音識別,要求設備始終連接網絡。
Part 02
Speech框架:類結構
Part 03
Speech框架:語音識別過程
Speech框架為快速識別語音提供了統一的接口能力,使用方便,但也存在一些需要注意的地方,具體如下:
處理由語音識別限制引起的故障:語音識別是基于網絡的服務,單個設備可能在每天可以執行的識別數量方面受到限制,并且每個應用程序可能會根據其每天發出的請求數量進行全局限制。
音頻持續時間1分鐘的限制:語音識別對電池壽命和網絡使用造成相對較高的負擔。為了最大限度地減輕這種負擔,該框架會停止持續時間超過1分鐘的語音識別任務,此限制類似于與鍵盤相關的聽寫限制。
不要對私人或敏感信息進行語音識別:不要發送密碼,健康或財務數據以及其他敏感語音進行識別。
Part 04
Speech框架:和家親上的實踐應用
Speech框架在和家親上的主要應用在智能語音客服和智能管控上,通過Speech框架,快速實現語音輸入到內容文本的轉換顯示,極大提高了交互體驗效果。和家親應用Speech框架實現設備語音管控的主要方案邏輯流程如下圖所示??
圖片
主要的流程步驟如下:
1??APP本地構建匹配檢索數據表,包括管控動作語義匹配檢索表、設備或活動語義匹配檢索表、自定義語音管控指令匹配檢索表、默認語音管控指令匹配檢索表。
2??應用Speech框架能力接口,將app采集的語音輸入轉換成文本內容,并在APP交互頁面上顯示。
3??將步驟2中轉換好的文本內容與本地構建的自定義語音管控指令匹配檢索表和默認語音管控指令匹配檢索表分別進行文本整體相似度計算排序,分別找到找到一級相似管控指令及其置信度,三級相似指令及其置信度。
4??將步驟2中轉換好的文本內容進行分詞處理,提取文本中的動詞、名詞、地名、產品名等。
5??將步驟4中的動詞、名詞等分別與管控動作語義匹配檢索表、設備或活動語義匹配檢索表進行相似度計算匹配,找到最優的動作匹配結果和最優的活動或設備匹配結果,將動作和活動或設備組合形成二級管控指令及其置信度。
6??將上述的一、二、三級管控指令按照不同權重和其對應的置信度結果進行優先級排序,并將排序結果返回顯示在交互頁面,等待用戶確認最終指令。
7??執行最終管控指令。