一、背景
傳統(tǒng)信貸評審流程中,審貸人員通常依據(jù)貸前盡調報告及自身經驗撰寫評審報告,報告涵蓋擬授信企業(yè)的行業(yè)分析、財務情況評估及市場前景預估等內容,對審貸人員的行業(yè)知識儲備、風險評估能力和趨勢判斷能力有較高的要求,且近年來新能源汽車、芯片等新興行業(yè)的市場情況瞬息萬變,無疑使信貸評審工作增添了更多的挑戰(zhàn)。因此,審貸人員亟需獲取行內資深審貸專家報告來汲取相關評審經驗,輔助審批決策;但由于法律法規(guī)、監(jiān)管規(guī)定對跨分行文檔閱讀權限等安全性方面的制約,基層審貸人員往往難以獲取到該類評審報告。
在此背景下,工行軟開中心對歷史大量評審報告影像資料和業(yè)界數(shù)據(jù)安全技術進行了調研研究,創(chuàng)新性地提出了文檔智能脫敏方案。在符合法律法規(guī)和監(jiān)管規(guī)定的前提下,通過敏感信息塊檢測、敏感要素檢測、敏感圖像檢測等技術手段進行敏感信息識別和涂抹,對信貸評審報告實現(xiàn)了敏感信息99%的自動脫敏,在保證文檔安全性的同時,實現(xiàn)文檔的快速共享。
二、文檔智能脫敏方案
文檔智能脫敏方案主要是借助人工智能技術對文檔進行深度結構化分析,再通過自然語言處理識別文檔中的敏感信息塊和各類敏感要素,通過圖像處理識別敏感圖像,使得文檔中的文字信息和圖像內容安全地脫敏。該方案主要涉及三個核心能力:
1.敏感信息塊檢測
文檔中有些敏感信息通常以孤立的形式存在,缺乏必要的上下文信息,例如,審貸人員的姓名及其所屬機構等數(shù)據(jù),多以嵌入隱藏表格的方式保存,傳統(tǒng)的要素抽取技術和實體識別模型無法滿足識別該類孤立敏感數(shù)據(jù)識別的需求。為了有效識別孤立敏感數(shù)據(jù),工行軟開中心設計并建設了敏感信息塊檢測能力,通過文檔分割并將內容向量化,與自建的敏感短語向量數(shù)據(jù)庫進行比對,高效識別敏感信息塊。
圖1 敏感信息塊效果(紅框所示)
敏感信息塊檢測的主要流程如下:首先,從歷史影像資料中收集可能的敏感短語,并利用基于StructBert訓練的分類模型進行處理;其次,將敏感短語向量化,作為分類模型的隱層特征(768維);再次,將向量化的敏感短語信息存儲到向量數(shù)據(jù)庫中。當需要脫敏的文檔上傳后,將文檔內容分割成多個小部分(chunk)并批量向量化,再計算chunk中的向量與向量數(shù)據(jù)庫中已存儲的敏感短語向量之間的余弦距離,若余弦距離超過預設閾值,則該部分內容被判定為敏感信息。
圖2 敏感塊檢測
2.敏感要素檢測
文檔中的敏感信息種類繁多,包括但不限于企業(yè)名稱、企業(yè)法人姓名、股東名稱、股權代碼、社會統(tǒng)一代碼等十余種關鍵要素,這些敏感要素無固定格式,識別該類要素具有一定的挑戰(zhàn)。因此,工行軟開中心建設了敏感要素檢測能力,采用多種模型集成的方法,來精確識別文檔中各類敏感元素。
對于企業(yè)法人名稱、企業(yè)名稱、股東法人名稱、股東名稱等敏感要素,工行軟開中心采取在BERT模型基礎上進行微調的方法來提升檢出率。具體來說,首先,對文檔語料進行打標,實體的開頭字符用“B-”表示,實體的非開頭部分用“I-”標記,非實體部分則用“0”表示;其次,在原有的BERT模型基礎上,添加條件隨機場(CRF)層,形成微調后的新模型,對打標語料識別'B-I'部分,抽取出不同類型的實體元素,從而提升敏感要素的識別精度。
圖3 敏感元素檢測
對于身份證號碼、股票代碼等敏感要素,工行軟開中心設計了一系列精確的正則表達式來提高檢出率。首先利用Libreoffice框架將doc、wps、docm等各種格式的文檔,統(tǒng)一轉換為docx格式進行處理;其次,基于docx的XML結構,將文檔進行深度結構化拆分,對于拆分出來的每個小部分(chunk),使用正則匹配技術查找符合特定規(guī)則的模式;最后,輸出已識別的身份證號碼、股票代碼等具有規(guī)則化結構的實體信息。
圖4 規(guī)則數(shù)據(jù)解析
對于企業(yè)注冊地址等敏感要素,工行軟開中心對標業(yè)界先進經驗選擇LBERT+CRF模型結合知識圖譜的方法來精準識別企業(yè)的省、市、區(qū)、街道等詳細地址信息。在傳統(tǒng)的BERT模型基礎上引入Lexicon Adapter模塊(即LBERT模型),該模塊能夠關聯(lián)字符和詞匯特征,這樣,LBERT模型在預測實體時,不僅能考慮字符級別的特征,也能考慮詞匯級別的特征,從而提高了地址信息的識別準確度。此外,由于地址信息可能存在因手工輸入錯誤、歷史地名變遷等導致的錯誤或缺失,利用地址知識圖譜對LBERT模型輸出的地址信息進行校正和補充,地址知識圖譜按照省、市、區(qū)、街道的層級構建,并納入了舊名、別名等信息。
圖5 LBERT模型結構
圖6 地址知識圖譜結構
3.敏感圖像檢測
敏感圖像檢測由兩個關鍵能力組成,語義理解和圖像理解。首先,利用結構化分析技術解析文檔內容,將圖像信息與周圍的文本內容結合,通過語義理解模型分析這些關聯(lián)信息,以判斷圖像是否包含敏感內容;其次,構建圖像理解模型,直接解析圖像本身內容,進一步評估圖像是否涉及敏感信息;最后,將這兩個模型的識別結果進行合并,確保不遺漏任何敏感圖像。
圖7 圖像理解能力構建
圖8 語義理解模型構建
圖9 敏感圖像檢測調用流程
三、總結和展望
本文詳細闡述了工行軟開中心如何運用人工智能技術對行內信貸評審報告進行智能脫敏處理,通過敏感信息塊檢測、敏感要素檢測、敏感圖像檢測等技術手段進行敏感信息識別,實現(xiàn)評審報告合規(guī)共享,從而支撐審貸人員更便捷地獲取各行業(yè)的優(yōu)質評審經驗,提升評審質效。
在數(shù)字化轉型的潮流中,金融行業(yè)正迎來前所未有的變革。工行軟開中心積極擁抱科技,引入人工智能、大數(shù)據(jù)等創(chuàng)新技術,充分激活并發(fā)揮行內數(shù)據(jù)資產價值,不斷優(yōu)化和提升金融服務水平。接下來,工行軟開中心將繼續(xù)以積極的態(tài)度和創(chuàng)新的實踐,為金融行業(yè)的高質量發(fā)展貢獻自己的力量。