中國工商銀行軟件開發中心多模非標準貿易影像智能識別方案 原創
出品 | 51CTO技術棧(微信號:blog51cto)
為提升信貸領域業務辦理過程中合同影像信息提取效率,中國工商銀行軟件開發中心利用業界前沿技術多模態識別技術對圖片、視頻等文件內容進行智能提取和解讀,逐步覆蓋傳統技術無法解決的影像識別場景,包括不規則表格、目標信息描述模糊、打包影像等,大幅提升了合同處理效率。
工商銀行軟件開發中心先前引入了基于光學字符識別(OCR)與規則或自然語言處理(NLP)模型的自動化識別技術;然而,該技術對合同元素位置、上下文結構等不一致性的理解能力有一定局限,因此在某些復雜合同的信息提取上,精確度較難提升,主要體現在以下幾個方面:第一,合同格式一般具有多樣性,如不規則表格、傾斜文字、打鉤標記以及不規則元素布局等,這些格式可能破壞文本結構的完整性;第二,合同中目標信息的描述可能較為散亂或模糊,如付款日期和支付方式等,需要深入理解上下文語義并進行轉化;第三,客戶常常將多份文件打包上傳,識別前需準確拆分文件,也增加了識別的復雜性。
為了解決上述問題,中國工商銀行軟件開發中心結合當前業界最先進的模型技術,形成“通用+專業”模型組合方案,具體方案如下:
1.利用通用模型增強多模態元素提取
借助多模態模型在圖文識別上的泛化能力,顯著提升在處理復雜非標準化合同中打鉤、表格、涂抹、印章等長尾場景下的關鍵信息提取精度,同時實現跨頁圖片內容的深度理解。此外,通過對多模態模型進行增量預訓練、全參數微調以及模型視覺修復,進一步優化非標準化合同影像中目標信息的理解準確度。
(左:打鉤、標黑選項的理解;右:不規則表格內容提取)
2.專業模型組合適配垂類定制需求
首先,為了處理通用模型可能遇到的輸入限制,工商銀行軟件開發中心引入了合同拆分模型。這個模型專門設計用于從包含數十頁的合并合同影像包中,按照順序拆解出各個單獨的文件,如貿易合同、發票、補充條款等。這種拆分功能不僅解決了通用模型一次只能處理有限數量頁面的問題,還為后續的處理步驟提供了有序的輸入,提高了業務流程的效率。
其次,圖像精選和增強模型在處理過程中起到關鍵作用。它負責對拆分后的單份文件進行篩選,只保留那些包含關鍵要素的頁面,同時對這些頁面進行圖像增強,比如提高對比度、清晰度,以確保通用模型能夠準確識別圖像中的文字和圖形。通過這種預處理,通用模型的輸入質量得以優化,從而提升了其在識別關鍵信息時的準確率。
圖片
(合同拆分+精選效果圖示:模型將5頁影像拆分成2份合同,并剔除無關的一頁)
再次,為了滿足特定領域的定制需求,工商銀行軟件開發中心建設了專門的分類模型,對貿易合同、發票、補充條款等不同類型的文件進行分類。基于深度學習算法,通過學習不同文件類型的特征,將文件正確地分配到適合的類別中。這種分類能力有助于通用模型專注于處理特定類型的文件,提高了整體處理的針對性和準確性。
最后,為了系統性地提高準確率,引入圖像文字校驗模型,對通用模型輸出的識別結果進行二次校對,通過比對原文本和識別結果,識別并修正可能存在的錯誤。這種“雙保險”策略有助于識別出錯誤的信息,從而提升了整個識別流程的準確率。
3.重塑交互方式提升用戶體驗
通過引入元素高亮模型,優化用戶界面,使得客戶經理可以實時對照并進行調整,這不僅增強了業務感知,也提高了參與度。調整前后數據的回流被用于形成再訓練數據,形成一個高效的迭代優化閉環,持續提升模型性能。
(AI輔助下的新交互模式)
相較于傳統技術,本方案在合同關鍵信息抽取的精確度和召回率上實現了30%以上的提升,同時合同影像的識別覆蓋率也提升了50%以上。因而,單份合同的處理耗時縮短了60%,多份合同處理時間減少80%以上。
中國工商銀行軟件開發中心已將該方案應用到信貸業務非標準合同的智能解讀和提取上,不僅提高了復雜多模態數據內容抽取的精確度和效率,也優化了客戶經理的使用體驗,使他們能夠更加專注于核心業務決策。
本文轉載自??51CTO技術棧??
