“郁金香”打造智能問答助手,暢通疫情防控期政務信息觸達渠道
面對突如其來的疫情,大眾對于信息的即時性、透明度和傳達效率有了更高的關注。在此背景下,北京市經濟和信息化局和CCF大數據專家委員會,聯合北京智源人工智能研究院,共同舉辦了科技戰疫·大數據公益挑戰賽。一支名為“郁金香”的算法團隊在595支參賽隊伍中表現突出,取得了A榜第二、B榜第三的不俗成績。
據悉,郁金香是一支算法和工程經驗豐富的業界團隊,其成員以一覽群智公司成員為主,也有來自于印信科技的得力外援。成員都是深耕NLP深度學習、信息檢索/互聯網搜索、數據挖掘等領域的資深專家。整個算法開發從立項到測評結束歷時30天。
本次比賽通過DataFountain平臺進行,圍繞“疫情政務問答助手”這一賽題展開。疫情政務問答助手旨在通過對惠民惠企政策數據的收集與處理,通過人機對話式問答的方式,對用戶提出的政策疑問快速、準確地定位相關政策文檔以及其內相關內容返回給用戶,幫助各行業企業準確掌握相關政策,更好地復工復產。
疫情政務問答是一個結合全文檢索和閱讀理解的復雜任務,其任務設置非常貼近人類在面對信息時的判斷邏輯:面對問題,參賽系統不光要找出文檔庫中的相關文檔,還要定位出其中跟問題最相關的內容。這就跟人類在文檔中檢索時的流程類似:為什么這個文檔與問題最相關?是因為里面有這么一段話,能夠最好地回答待解決的問題。
有的放矢:直面“疫情政務問答”的復雜性
對于學界大部分機器閱讀理解任務的數據集,提問及其答案所在文檔往往是直接對應的,閱讀理解模型無須在海量文檔中去尋找相關文檔。但在真實場景中,對于用戶給出的一個問題,首先我們需要確定其答案在哪個文檔中,然后才能通過閱讀理解模型來找出實際答案。而這個答案文檔往往需要通過檢索這一步驟得到。因而在疫情政務問答這個任務中,其中有兩個因素會影響任務效果:其一,檢索模塊不一定能夠保證精準召回包含答案的文檔;其二,在召回的多篇可能存在答案的文檔里,正確答案所在的位置不確定。而且政務文檔篇幅一般都很長,答案可能也很長,這也會加大任務難度。
在信息檢索和認知智能方面的深厚經驗和快速迭代改善模型的能力,是郁金香團隊成功的兩大關鍵。郁金香團隊采用基于ElasticSearch的全文檢索模塊和基于Transformer結構的閱讀理解模型方案,綜合展示了其在問題理解、內容搜索、答案提取等多個環節的全面算法能力。問答系統主要分為“信息檢索”和“閱讀理解”兩部分。“郁金香”在設計疫情政務問答系統時以競賽為目標、實用性為導向,針對疫情文本的領域特殊性,在整個方案的細節上進行了多重優化。整體方案在競賽中取得了優異成績,也再次驗證了相關文本理解技術通用方案的先進性。
在競賽中,郁金香團隊攻克了幾大技術難題:
難題1:中文分詞作為中文自然語言理解中的基礎技術,其準確程度直接影響著下游任務的效果。在ES中,ik是常用的中文分詞工具。但由于政務文本的領域特殊性,ik工具的效果受到很大限制。
應對1:針對政務文檔的特殊性,郁金香團隊利用多種語義理解工具,對文檔進行語義信息理解, 通過對文檔進行深度解析,提取出其中的實體名詞、長名詞、專有名詞、新詞等關鍵要素,構建了自定義詞典,以保證實際分詞效果。
難題2:檢索模塊中一種常見的誤召回是由于事件主體不匹配導致的。舉例來說,有人提問:“蘇州市如何推行政務服務事項網上辦理?”檢索結果可能是其他地區“推進政務服務事項網上辦理”的相關內容。
應對2:在政務問答請求中,文本的事件主體往往是唯一且一致的。所以在文本理解中,郁金香團隊進行了事件主體的提取,來保證事件主體相匹配。同時為了避免強規則過濾造成的誤殺,方案將事件主體放到了一個新的索引域中。查詢時如果問句中能夠發現事件主體,就增加對事件主體索引域的查詢。此外,對于請求中的行政區劃類事件主體特別設置了對于其上級行政區劃的容錯處理。
難題3:賽題訓練數據較少,閱讀理解模型泛化能力受限。
應對3:郁金香團隊采用集成學習技術,實現了全面的融合模型方案,集成模型中內含了近二十個基礎模型,并對不同模型智能分配權重。權重的分配取決于模型在驗證集上的表現。對于使用全量數據訓練的模型,其權重更高。同時加入Fast Gradient Method(FGM)算法,生成對抗樣本,進一步提高模型的泛化能力。
難題4:政務文檔往往很長,遠超閱讀理解模型的長度限制。在進行閱讀理解任務時,長文檔需要被截斷成多個文本片段。然而簡單的進行定長截斷很容易讓答案丟失,并脫離上下文語境。
應對4:郁金香團隊發現絕大部分答案都是在一個句子中,所以采用了基于中文分句的分段算法進行文本預處理。具體來說,將中文分句后的句子序列作為文本基本片段,規定最長子段落是滿足最長序列長度的最長連續句子序列,得到滿足條件的片段。進而通過衡量兩個子片段的交叉度,優化子片段整體冗余度,來選取切分合理的子片段,以保證消除冗余的同時也能降低答案丟失的風險。
多點開花:智能語義搜索引擎的應用
這一智能問答系統的方案不僅在競賽中有出色表現,也已經在智能搜索、智能問答方面實現了應用落地。此方案以自然語言作為交互形式,極大提高了用戶體驗。
據了解,華夏基金研報智能搜索系統就是應用該方案的典型之一。券商的研報對股民價值很高,但研報長,文字多,投資者要從中獲得對自身有益的投資參考往往耗時耗力。如今,這一研報智能搜索系統針對研報中的預評級、跟蹤報告、走勢圖、調研紀要、投資建議等搜索意圖,通過NL2SQL以及結合研報問答助手的閱讀理解,能幫助投資者更快、更簡單、更高效的讀懂研報。只需要一個以日常語言的問題,相關關鍵內容即時展現,極大提高了信息獲取的效率。
此外,基于該技術方案的智能語義搜索引擎產品支持不同行業不同領域的場景拓展。這一產品用知識圖譜融合行業領域內的知識庫,集成問答助手模型通過自然語言“問答式”的語義輸入為用戶提供更精準的智能檢索服務。
面向政府,這一搜索引擎可以針對政府內海量數據的治理、語義解析、智能查詢,助力政府搭建智能化信息綜合應用平臺;面向電商,支持針對電商領域目標商品的精準檢索,可根據用戶畫像推薦更為個性化的搜索結果;面向媒體,支持大型媒體網站的應用場景,將海量信息進行深度整合,深度挖掘數據價值;面向金融,通過整合金融市場信息,進行動態獲取、解析,為金融機構提供更全面、精準的金融數據和信息;面向公安,基于公安系統的行業特點,可以提供針對公安行業的信息檢索、問題研判和知識管理平臺。
傳統的搜索引擎一般是通過簡單機械式的條件組合進行查詢,交互體驗較差,列表形式過于單一,而且針對多源異構數據的處理能力不足。相較而言,智能語義搜索引擎產品支持多源異構數據融合,搜索結果形式呈現多樣,支持針對自然語言“問答式”的語義輸入,搜索功能強大,搜索結果也更為便捷。
【小結】基于語義理解的智能對話、智能搜索越來越多地深入我們的日常生活。放眼未來,相關應用將能依托基于世界構建的巨大的知識圖譜,結合語義理解,提供給用戶前所未有的便捷體驗。相比傳統的檢索技術,以語義理解為基石的智能對話、智能檢索為人機交互提供了更智能、更高效、更善解人意的互動。當搜索不再限于幾個關鍵詞的形態,當搜索引擎對各垂直領域連接程度逐漸加深,智能對話、智能搜索可能真正實現“無處不在”。