為什么說自然語言處理是人工智能的核心
如果一臺計算機能夠欺騙人類,讓人相信它是人類,那么該計算機就應當被認為是智能的。——阿蘭·圖靈
機器能跟我們人類交流嗎,能像我們人類一樣理解文本嗎,這是大家對人工智能最初的幻想。如今,它已成為人工智能的核心領域——自然語言處理(簡稱:NLP)。自然語言處理是一門融語言學、計算機科學、人工智能于一體的科學,解決的是“讓機器可以理解自然語言”——這一到目前為止都還只是人類獨有的特權,因此,被譽為人工智能皇冠上的明珠。
如今,這門學科受到了國家政府、各大企業的普遍關注。國務院《新一代人工智能發展規劃》,明確指出建立新一代人工智能關鍵共性技術體系,自然語言處理技術作為八大共性技術之一,被重點強調和扶持。
無處不在的自然語言處理
我們每天都在使用或受益于“自然語言處理”的技術,舉個例子,微軟小冰是中國微博上的一款將對話帶入我們日常生活的聊天機器人。百萬年輕中國用戶通過小冰交換信息,與他人分手、丟了工作或感覺沮喪時,人們經常會和小冰聊天。到目前,小冰已經累積了上億用戶,平均聊天的回數23輪,平時聊天時長大概是25分鐘左右。自然語言處理技術更廣泛使用,可見下面的案例:
機器翻譯
去年秋天,谷歌翻譯推出了一個全新升級的人工智能翻譯引擎。這樣一來,曾以產出語言生硬但又可用的翻譯而聞名的谷歌翻譯,已開始產出語言流暢、精確度高的翻譯文本。對未經專業翻譯訓練的人來說,這種文本輸出幾乎與人工翻譯并未有區別。我們將上面這段文字輸入到谷歌翻譯中(中譯英),輸出的英文句子,讓人驚嘆!
垃圾郵件檢測
在自動垃圾郵件檢測等一些應用中,分類只有兩個:垃圾郵件和非垃圾郵件。在其它情況下,分類器可以有多個分類,比如按主題組織新聞報道或按領域組織學術論文。而要是一篇博客文章談論的是體育和娛樂又會怎樣?一個分類器如何在多個選項之間選擇正確的分類?那依賴于具體應用:它可以簡單地選擇最有可能的選項,但有時候為一個文本分配多個分類是有意義的。
問答系統
從2011年Siri誕生,到Google Now,再到Cortana和Alexa,作為語音助手,其實它們本質上都是問答系統。這幾個都是面向公開領域的問答系統,在我們的日常生活中幫忙定鬧鐘、打電話、導航、搜索問題,偶爾還能講講笑話,也正讓我們的生活越來越方便。
尤其是2010年后,深度學習應用于自然語言處理領域,一系列的產品功能逐漸走進我們的生活。各大企業也在紛紛布局相關產業,重金招攬相關領域人才。我國在語言文字信息處理方面就誕生了三家上市公司,從上市的順序來說,最早是漢王,做模式識別,后來科大訊飛做語音識別,然后是拓而思的信息檢索和文本挖掘。
圖四 知名招聘網站崗位圖