語音識別數據庫成為了人工智能的核心
語音識別數據庫、語音合成 數據庫是人工智能的關鍵技術,讓機器能聽會說、能像人一樣的學習、理解和思考,成為人類生活和工作的得力的幫手、親密的伴侶,一直是人類的夢想。隨著近半 個世紀智能語音技術的進步和深度神經網絡技術(DNN)的工程化應用,人類正不斷的接近這個夢想,這個夢想也同時極大的驅動著智能語音技術的發展。最初, 人們只能讓機器發出類似人的聲音,比如18世紀后半葉歐洲人制造的Kempelen講話機,它能說出有限的詞和短句。經歷了兩個多世紀,現在的“聊天機器 人”不僅能以自然度很高的聲音與人交流、還會調侃、賣萌。20世紀50年代AT&T貝爾實驗室的Audry,它可以識別十個英文數字。現在,語音 識別技術的自然語言識別正確率已經高于95%。
微軟發布的“小冰”,和百度發布的“度秘”,再一次在人群中掀起人工智能和人機交互的熱潮。
為了深刻的了解在“小冰”和“度秘”聰明伶俐、能聽會說背后的秘密,記者專訪了”北京海天瑞聲科技有限公司”的CEO唐滌飛先生。作為國內、乃至亞洲***的人工智能數據資源供應商,“海天瑞聲”在語音合成(TTS)、語音識別(ASR)、自然語言理解(NLP)和機器翻譯(MT)等技術領域的基礎數據資 源開發領域,積累了17年的專業經驗。就智能語音基礎數據資源而言,目前已經擁有116種語言、覆蓋70多個國家和地區的數據資源制造能力。
小冰和度秘對人發出的指令的理解能力,比之前的語音助手表現要好很多。在百度世界大會上,面對李彥宏的種種刁難,度秘應對自如,不僅幫“廠長”在網上訂 了 兩杯拿鐵,還訂好了可以帶寵物的餐廳,在網上團購了動畫片電影票。那么,“小冰”和“度秘”能準確理解人的指令的提問背后的秘密是什么呢?
唐滌飛先生說,這是由于語音識別(ASR)技術和自然語言理解(NLP)技術的巨大創新和進步,從最初的 DNN 模型到現在的 LSTM 模型,從機器學習(ML)到深度學習(DL),每次技術創新都給用戶帶來了全新的體驗。不僅如此,在訓練語音識別引擎中所使用的基礎語音語料庫,也是至關 重要的因素。在設計語料時,需要專業的語言學家根據特定語言的語言學現象,全面考慮語料領域分布、應用場景分布、語料時效性等因素,同時借助相應的NLP 處理技術和標注團隊來確保數據庫語料池的規模和結構科學合理、音素覆蓋與平衡、句意完整、語義連貫、拼寫正確且易讀可懂,***再按照發音人分布、口音分 布、文本分布、音素分布、場景分布等條件通過采用相應的算法如DTW動態規則算法對發音人的文本進行抽取形成特定發音的文本。
由于口音、年 齡、教育背景和生活地區的不同,不同的人表達同一個意思、問同一個問題,甚至說同一句話,都會有細微的千差萬別。比如,在智能客服應用中,機器人不僅要聽 懂客戶的話,還要能識別客戶的情緒,比如,根據其情緒是焦躁還是平靜,或根據客戶情緒的變化,來判斷他是變得生氣了,還是慢慢消氣了,而采取不同的處理優 先級和反饋方式。這就涉及要在訓練語料中引入情緒因素。但目前小冰和度秘還不能完全做到這一點。
據唐滌飛先生介紹,為了讓“小冰”能用自然甜 美流暢的聲音說話,大規模的語音合成(TTS)數據庫的設計和開發,從根本性上決定了用戶對她的體驗。在數據庫的設計上,首先要選擇年齡和音質合適的發言 人,她的聲音要年輕、陽光、伶俐且充滿活力。其次,在數據庫的設計上,要充分考慮到語言和音素的全面覆蓋,語料主要來自海量的聊天對話語料。為了強調小冰 是個有情感的小姑娘,她不僅會一本正經的說話,也會生氣、賣萌,因此,需要在語料設計中增加很多口語化的句子和網絡用語,甚至還有網絡小說里的段落。同 時,還要有常用的英語詞匯、中英混合詞匯、數字串、地名等專用語料。在人的自然語言中,同一句話在不同的情境里,說出來的語調和韻律是不一樣的。因此,在 語料設計中,還要考慮到這些因素。如此一來,語料庫的規模往往就要在上萬句甚至數萬句。從某種程度上說,語音合成語料庫設計的失敗,會極大的抵消掉語音合 成技術的進步。
從小冰和度秘這樣的聊天機器人,到真正的機器伴侶,人類還有一段很長的路要走,還有許多困難需要克服。她必須能更準確的聽懂并 響應對她發出的各種指令,還要能“理解”人的情緒變化和情感需要,能進行 “思考“,從而為人提供更接近于真實的人的服務,包括情感支持和慰藉。在語言表達方面,也要更接近人類的真實情感和情緒的表達,要更自然流暢。造成這種困 難的原因當然是多方面的,唐滌飛先生從其中一個方面做了解釋,那就是基礎數據資源的缺乏和成本居高不下。如上面所提到的,為了讓聊天機器人能夠盡可能的聽 懂、甚至真正能“理解”人的語言和情緒,對基礎數據資源設計者和開發者,就提出了更高的要求。