知識圖譜是機器理解世界的基礎,看這三位專家如何玩轉知識圖譜技術!
原創【51CTO.com原創稿件】6月21日, WOT2019全球人工智能技術峰會在北京粵財JW萬豪酒店準時拉開序幕。作為2019年度全球技術人員線下交流的知名峰會,本次大會緊緊圍繞著通用技術、應用領域、企業賦能三大核心章節展開。來自全球的60余位一線AI大咖們齊聚一堂,與千余名參會群眾共同分享了深度學習、神經網絡、視覺技術、無人駕駛、機器學習、算法模型、知識圖譜等主題技術內容。
6月21日下午,在通用技術章節中C會場知識圖譜技術分論壇,瑞士再保險數據科學家王冠、美團點評資深算法專家潘路、中國科學院自動化研究所副研究員何世柱三位資深專家受邀出席發表精彩演講。會后51CTO將專家發言整理成文,希望他們的演講內容精華對大家有所幫助。
瑞士再保險數據科學家王冠
知識圖譜構建:數據、算法和架構
知識圖譜在保險行業有很多應用,王冠列舉了四大應用場景:一是智能交互,在客戶理賠時,想知道自己的保險能不能獲賠,這背后不是羅列保單上的條款就能答復的,更多的是需要將保險產品、客戶數據、對話記錄、醫療票據各種信息整合成知識圖譜,然后通過智能客服快速反饋給客戶。二是精準推薦,通過知識圖譜掌握客戶的數據,就可以精準推薦給客戶匹配的產品。三是自動理賠,現在理賠大多是人工操作,尤其是大額保單需要人工做調查,但是通過知識圖譜技術,可以查到一些歷史數據得出結論,從而實現自動化理賠。四是反欺詐,面對詐保現象,用知識圖譜就可以方便地找到詐保人的詐騙軌跡,寫一些相應的查詢語句,就可以找出常見的欺詐模式。
那么如何建立一個保險行業的知識圖譜呢?這是一個非常復雜的流程,涉及到知識體系構建、知識庫獲取、融合、存儲、推理、應用等多個環節。王冠在現場重點講述了實體與關系的抽取算法,從非結構化、半結構化的文本數據中,通過抽取實體和抽取實體之間關系的方法構建知識圖譜。王冠強調,在抽取算法中,詞嵌入非常重要,實現了文本到向量的轉化,只要訓練出了一個向量就可以非常好地表現出中文的語義,并自動抓取到相關的詞語。
信息提取工具架構
文本標準工具架構
實體識別和關系提取都是自然語言處理中非常重要的任務,王冠沒有多加贅述。他表示,根據不同的場景有不少構建知識圖譜的方法,實體就是節點,關系就是邊,通過最短路徑挖掘找到背后的關系。“目前知識圖譜的應用主要集中在三大方面,分別是可視化/探索、圖算法、圖數據庫 (關系型和NoSQL)。”演講中他還給出了非常實用的信息提取工具和文本標注工具的架構。他特別強調有了這些設計之后,人機交互將變得更加智能,知識圖譜成為數據管家,成為全流程的機器學習工具。
美團點評資深算法專家潘路
基于知識圖譜的問答在O2O智能交互場景中的應用和演進
潘路首先回顧了人機交互的演進歷程、智能交互的種類,然后他重點談到,在美團實際生活場景中,如果要進行信息獲取、資源查詢,甚至任務型交互,那么問答系統必然離不開知識圖譜。本文摘取了受限場景下的問答內容。
潘路表示,傳統KBQA(基于知識圖譜的問答)主要分為兩大技術流派:semantic parsing和information retrieval。Semantic parsing就是將原始問句轉換為機器可以理解的邏輯形式,這種形式更貼近知識圖譜的存儲結構,可以直接或間接進行查詢。而Information retrieval則直接通過有效信息的抽取,定位候選答案,之后又有兩種做法,一是利用三元組生成自然語言,和原始問句比較實現查詢;一是把候選答案以及周圍的路徑進行編碼,和原始問句編碼后進行比較得出答案。
在美團的受限場景下(以點餐為例,菜品范圍是限定的,供餐地點和時間也是限定的),應該選擇怎樣的技術路徑呢?潘路表示,美團涉及的領域較多,領域之間關聯較弱,并且沒有足夠的標注數據,還必須滿足快速的領域遷移需求。是否可以借鑒information retrieval的思路,但同時又可以構造查詢語句來查詢圖譜呢?于是美團提出了information retrieval+semantic parsing的方案,通過實體鏈接確定子圖,之后是關系識別、槽位識別、最終生成SparQL來執行查詢,每一步都可以用簡單的規則冷啟動,也可以上無監督或者有監督模型。
潘路強調,在受限場景中,美團面臨的問題特征主要是意圖空間有限、資源有限、交互輪數有限、知識外延有限。因此在這個基礎上,他們提出的KBQA具備四大能力:基礎屬性問答、帶約束的資源查詢、資源信息比較以及動態屬性值計算。
中國科學院自動化研究所模式識別國家重點實驗室副研究員何世柱
基于知識圖譜的問答關鍵技術
何世柱從信息表示發展歷程開始講起,他表示知識圖譜是機器理解世界的基礎,語言系統&知識圖譜也是知識應用的奠基石,問答系統將是下一代搜索引擎的基本形態。
他介紹到,知識問答通常有兩類方法:一是語義解析方法,這種方法準確率高,召回率低,能解決復雜問題,適合限定領域、限定語言表達,而且可以經驗性地解決,不需要訓練機器學習方法,更便于控制,便于干預。二是自然問答方法,它有更友好的交互接口,可以實現知識驅動與數據驅動的融合,但是需要較高質量原始數據和配套知識資源。
在何世柱看來,自然語言問答與精準知識問答、聊天機器人的區別在于——精準知識問答主要回答知識性問題,首先答案要準確,其次在準確的基礎之上才能夠滿足情感的需求,能夠用自然語言的方式去回復。
“對于問答任務而言,關鍵是資源和已有模型能否滿足需求,事實上目前的內容缺失嚴重,資源遠遠不夠,模型數量也較少。 目前開放域的問答系統其性能還遠沒有達到使用的程度,但在限定領域還有很大應用空間。” 何世柱總結道。
以上內容是51CTO記者根據WOT2019全球人工智能技術峰會的《知識圖譜》分論壇演講內容整理,更完整WOT內容請關注51cto.com。
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】