金融領域文檔智能應用實踐
吾道科技(iWudao Tech)一直致力于將 AI 技術和金融領域知識相結合,面向一級市場提供金融大數據和資訊服務。站在 2024 年二季度,金融行業試水大模型應用已經一年半了,在以大模型為代表的 AI 技術驅動下,金融行業的眾多技術路線、業務場景迎來升級。在這個大變革的時代下,本次分享將聚焦于文檔智能在金融領域的應用。
一、文檔智能的技術范疇
首先介紹一下文檔智能技術范疇。
文檔是指含有文字的紙張、圖像或電子文件,隨著數字化智能化的發展,對各行各業中圖文并茂的富格式文檔進行分析識別與理解具有廣泛的應用需求。
文檔智能又稱為 Document AI 或 Document Intelligence,包含文檔分析與識別、文檔理解兩個技術領域。
文檔分析與識別的流程,是從輸入文檔圖像到輸出 HTML 等結構化數據,中間經過圖像處理、版面分析、內容識別等主要環節,每個環節有很多不同的技術問題。
- 圖像處理:預處理得到高質量的文檔頁面圖像,為后續版面分析和內容識別提供支撐。
- 版面分析:包含物理版面分析(即區域分割及分類)和邏輯版面分析(即閱讀順序判定),常見的區域類別有文本、表格、圖形等,其中文本又可分為標題、段落、公式、附注等,表格分為有邊框表格、無邊框表格、部分邊框表格等,圖形分為流程圖、結構圖、數據圖、印章、照片等。
- 內容識別:對版面分析輸出的不同分割區域類型進行相對應的內容識別。其中對文本部分的識別稱為光學字符識別即 OCR,OCR 一直是文檔識別研究的中心和主線,通常分為文字檢測和文字識別兩個環節,近年來也有很多端到端的文本識別技術被提出。隨著文本識別技術日趨成熟以及工業界對表格識別需求的日益增長,2019 年以來,表格識別的研究迅猛發展,主要分為自頂向下的行列分割方法、自底向上的單元格檢測方法、由圖片生成結構序列的端到端方法。另外還有圖形識別、公式識別等,就不在這里一一列出。
文檔智能的另一個領域是文檔理解,是指對文檔進行語義理解和信息抽取,過去通常作為文檔分析與識別的重要下游任務,近年來多模態、多模態大模型以及 OCR-Free 的端到端文檔理解技術開始涌現。
二、金融領域的文檔智能
接下來介紹金融領域文檔智能的意義和特點。
金融行業廣泛使用圖文并茂的富格式文檔,這些文檔中蘊含著豐富的高價值信息資源。與手動處理方式相比,自動化地將這些文檔內容轉換為結構化數據可以大幅提升處理效率,且極大地便利后續的數據分析和挖掘工作,從而為金融從業者和決策制定者提供更加全面和精確的數據支持。
隨著深度學習技術的發展,文檔智能相關的新技術紛紛涌現,卷積神經網絡、循環神經網絡、圖神經網絡、Transformer 等技術的發展使得復雜版面的文檔分析與識別實現性能突破,受益于多模態融合、大模型等技術的提出,很多以前不可能做到的文檔深度理解場景已經成為可能。
上圖中列出了常見的金融文檔類型,這些文檔里面包含了大量有價值的信息,比如審計報告里的財務數據、募集說明書和招股說明書里的歷史沿革等,可以很好地反映一個公司的經營狀況和發展歷史。那么如何快速處理海量富格式文檔,從中精準定位并抽取有用的信息,從而構建知識圖譜、進行數據分析或用戶交互,對于金融領域的文檔智能是很大的挑戰。
金融領域文檔的一個顯著特點就是頁數多文字多,像審計報告、年報半年報、募集說明書、招股說明書等通常都是幾百頁的 PDF 文件。即使是目前上下文長度最大的大模型服務,這些 PDF 的字數仍然遠遠超過其最大 token 限制,那么如何從幾百頁的富格式文檔中快速定位是必須要做的工作。
另外,金融領域文檔版面十分復雜,除了常見的單欄和雙欄頁面外,還有很多嵌套的復雜版面格式,比如第一張圖里的評級報告頁面。
金融領域文檔的樣式也足夠豐富,流程圖、結構圖、數據圖等圖形里蘊含大量數據,邏輯結構復雜的表格十分常見,對于信息抽取而言,有時需要合并不同區域對象中抽取到的信息才能獲得完整的結構化數據。
從圖像質量的角度來看,金融領域也存在不少歪曲、模糊等低質量畫面的文檔,尤其是一些拍照掃描材料或年代久遠的文檔,后面會在圖像處理中簡述這方面的原因及修復工作。另外,金融文檔也常見密集小尺寸的文本對象,如圖中的財務報表,往往都是至關重要的數據。再加上印章、水印的干擾,尤其是黑白印章的覆蓋,使得后續的內容識別任務相當困難。
以上就是金融領域文檔智能的特點和面臨的挑戰。
三、文檔分析與識別
接下來對文檔分析與識別的各項技術做一下歸納綜述并介紹一下我們的探索。
1. 圖像處理
文檔圖像質量影響后續的版面分析和內容識別效果,而圖像質量取決于物理文檔形狀、成像條件和成像視角等。
常見的文檔圖像預處理工作有:文檔檢測、圖像矯正和圖像增強。
文檔檢測是為了判斷圖像是否是文檔頁面以及文檔的類型。
圖像矯正的目的是將 90 度旋轉或傾斜的頁面進行修正,以及還原扭曲變形的紙張。旋轉和傾斜是因為紙張放置不正導致的,因此 20 世紀 90 年代以來一些學者開始研究如何矯正,主要采用多方向投影。紙張不平、彎曲、褶皺以及相機視角是造成圖像形變的因素,早期基于 3D 重構和 2D 圖像處理的矯正方法不具備普適性,近幾年基于深度學習形變矯正已成為主流,例如基于預測密集形變場進行矯正的方法,典型的有 ICCV-2019 上的工作 DewarpNet 如右上角所示,通過預測出三維坐標圖、形變場和陰影圖等來繼續更精細的文檔矯正,也有一些工作是基于預測稀疏控制點進行矯正的方法,可以減少矯正模型的計算量。
圖像增強的目的是為了去除頁面中陰影、水印等有干擾的噪聲,為后續版面分析和內容識別的工作提供支撐。歷史文檔因紙張陳舊、污損等,圖像噪聲多,為此提出了一些顏色分離、局部二值化等改進方法來處理文本和背景的分離問題。值得一提的是,因為黑白掃描導致和文字顏色相同的印章去除仍是比較有挑戰性的工作。
2. 版面分析
版面分析的目的是將文檔圖像分割成不同類型內容的區域并分析區域之間的關系,是內容識別之前的關鍵步驟。
一種方式是采用基于目標檢測或實例分割的路線,Faster R-CNN、Mask R-CNN 等通用框架被用來對文檔圖像中的目標區域進行分割。近年來隨著基于 Vision Transformer 和多模態技術的提出,版面分析技術得到進一步發展,比如這里貼出的??低曉?ICDAR-2021 發表的工作 VSR、以及阿里在 ICCV-2023 發表的工作 VGT,都是我們常用的模型,另外,LayoutLM 系列模型除了文檔理解任務以外,版面分析也是其工作一個主要任務。
下面介紹一下我們在版面分析的一些實驗工作,在使用 Mask R-CNN 框架的模型中,我們把傳統的 CNN BackBone 替換為 ViT BackBone,比如這邊我們用差不多參數量的 Swin-T 替換 ResNet-50,發現精度提升明顯,尤其是檢測目標不完整或遺漏的情況得以緩解。
另外一個工作是基于多模態融合的版面分析工作,通過實驗我們發現 VSR 等多模態模型和基于 Mask R-CNN 等分割模型相比,視覺上相似目標區域的識別精度提升明顯,如圖所示,文本段落和表格附注的視覺特征很相似,加入語義信息后,版面分析的精度提升顯著。
3. 內容識別
接下來介紹內容識別的工作,將分別介紹文本檢測與識別、表格識別和圖形識別。
(1)文本檢測與識別
文本檢測與識別,也是我們常說的光學字符識別(OCR),接下來我會分別介紹一下二階段也就是先文字檢測再文本識別的技術以及端到端的方法。
文本檢測旨在獲取文檔或自然場景圖像中的文本區域,與通用目標不同,文本往往具有多方向、極端長寬比和形狀多變等特點,這導致基于水平框的通用目標檢測方法難以處理。受限于手工設計特征的表征能力,早期的文本檢測方法性能不佳。隨著深度學習方法的流行,文本檢測性能快速提升。檢測方法演變的顯著趨勢是變得越來越靈活以及輕量化,從簡單場景水平文本到多方向文本再到復雜場景的任意形狀文本檢測,從復雜多階段以及煩瑣的后處理方法再到輕量級單階段的方法。
首先講一下基于回歸的方法:基于回歸的方法與通用目標檢測類似,需要回歸預測文本包圍框的頂點坐標位置。然而,由于文本往往存在多方向、任意形變以及極端長寬比變化等特點,現有的通用目標檢測框架難以直接用于處理文本檢測,為此提出了一些有針對性的方法。
一個比較著名的早期工作是 ECCV-2016 上發表的工作 CTPN,如左上角所示,將圖像空間劃分為多個小塊,再使用循環神經網絡去分析小塊的上下文連接關系。CTPN 對于長文本檢測具有穩定的效果,但只能處理近似水平的文本。
右下角所示的 AAAI-2017 上發表的工作 TextBoxes 系列設計了一系列具有不同長寬比的錨點和卷積核來適應文本的長寬比變化,通過多任務學習來同時預測文本的水平框和四邊形框。
為了針對任意方向的文本進行檢測,SegLink 系列和 DRRG 都是直接回歸獲得文本單元以及關系。
為了更好地擬合不規則文本的輪廓,一些方法采用基于曲線擬合的方法來擬合文本的形狀,比如 CVPR-2021 上的基于傅里葉曲線的 FCENet 等,就不在這里一一贅述。
再來介紹一下基于圖像分割的方法。基于圖像分割的方法能夠提供像素級的檢測結果,可適應文本的任意形狀?;趫D像分割的場景文本檢測通常可以看做是二分類分割任務,旨在精確分離文本和背景。由于分割方法只能提供一個像素級的預測概率,這類方法通常需要后處理操作以獲取精準的文本檢測結果。
華科白翔老師的團隊在 CVPR-2016 首次提出用全卷積網絡 FCN 檢測文本行,實現了多方向場景文本檢測。
AAAI-2018 上的工作 PixelLink,在預測文本像素的同時,預測了像素間的文本連接關系,對于分割后處理提供了更豐富的信息。
此后的代表性分割方法大多致力于設計信息更豐富的分割網絡,這有利于后處理過程能夠獲得更加準確的文本區域。比如同在 CVPR-2019 上的文章 PSENet 和 Naver 的 CRAFT。
雖然基于分割的文本檢測能夠適應文本形狀的多樣性,但其后處理過程往往帶來了更多的時間消耗。為了簡化后處理的過程,華科白翔老師團隊在 AAAI-2020 上的工作 DBNet 提出了一個可微的二值化網絡模塊,該模塊可以與分割網絡一同進行優化,并使模型自適應地選擇所有位置所需的二值化閾值。聯合優化的過程不僅提升了檢測的性能,而且簡化了后處理的操作,在場景文本檢測任務的速度和精度方面取得了理想的平衡。DBNet 后來被著名的開源項目 PaddleOCR 選做檢測算法,且在 OpenCV 和微信 OCR 中被使用,是一個應用廣泛的文字檢測算法。
除此之外,還有混合的方法,將回歸和分割融合到一起,結合兩者的優勢從而更精確地定位文本位置。
其中最具代表性的工作是曠視在 CVPR-2017 上發表的工作 EAST 以及中科院自動化研究所劉成林老師團隊在 ICCV-2017 上發表的工作,在全卷積分割網絡的基礎上直接得到本文區域任意四邊形框,消除了中間候選框提取的過程,具有較高的效率和精度。
近幾年,基于 Transformer 的混合回歸與分割的方法也在文本檢測領域上逐步展現了潛力,例如 CVPR-2022 上阿里和網易的兩篇工作在上圖中列出,就不在這里展開。
檢測出文字區域后,我們需要通過文本識別技術將區域內的文本內容提取出來。傳統的文本識別主要針對紙張文檔,包括印刷體文本識別和手寫體文本識別兩大類。近年來,自然場景文本識別由于其字形多變、背景復雜等技術挑戰,受到了廣泛關注,逐漸成為 OCR 領域新的研究熱點。對于我們金融行業來說,傳統的紙張文檔文本識別還是我們主要的處理對象。
首先講一下基于 CTC 的方法,CTC 方法的優勢在于無需進行單字符切分,也無需文本標注和模型輸入的對齊信息,即可學習到二者的隱式對齊信息。
最著名的工作是華科白翔老師團隊在 TRAMI-2016 上發表的工作 CRNN,如右圖所示,該方法將文本識別任務視為序列識別任務,在多種不同場景下都展現了不錯的性能。從 CRNN 以后,基于 CNN + RNN + CTC 的文本識別方法成為文本識別領域的主流方法之一。有句話這么講,比 CRNN 速度快的性能沒它好,比 CRNN 性能好的速度沒它快,因此該方法在發布后的很多年里在工業界極具競爭力。
此外,Facebook 在 KDD-2018 上發表的 Rosetta 也是一個基于 CTC 的工作,商湯在 AAAI-2020 上發表的 GTC 提出使用注意力機制來引導 CTC 的訓練,并使用圖卷積網絡來發揮 CTC 解碼器的潛力。
百度 Paddle 在 IJCAI-2022 上出品的 SVTR 摒棄了包含特征模型和序列模型的二階段算法,僅通過單個視覺模型就完成了特征提取和文本轉錄這兩個任務,既能保證推理速度,又能獲得更好的識別效果。
文本識別的另一種方法是基于注意力機制也就是 Attention 的方法,Attention 的方法早期應用于機器翻譯,特點是可以自動地為需要關注的區域分配較高的權重。在文字識別任務中,模型會為每個字符預測一個注意力權重,通過該注意力權重與視覺特征的加權和,來預測出相應的字符。
基于Attention 的方法可以分為基于 RNN Attention 和基于Transformer Attention 的方法。
CVPR-2016上雅虎支持的一項工作 R2AM 首次將 Attention 引入文本識別領域,同樣在 CVPR-2016 華科白翔老師團隊發表的 RARE,如左圖所示,較早地將注意力機制用于文本識別,值得一提的是這個方法后來在 ppstructure 中被修改去做表格識別的任務。
根據 PaddleOCR 的實驗結論,從效果上來看,通用 OCR 場景 CTC 的識別效果優于 RNN Attention,因為常用中文漢字三千字以上,訓練樣本不足的情況下序列關系挖掘比較困難,導致中文場景下 Attention 模型的優勢無法體現。而且 Attention 適合短語句識別,對長句子識別比較差。從訓練和預測速度上來看,RNN Attention 的串行解碼結構限制了預測速度,而 CTC 網絡結構更高效,預測速度上也更有優勢。
前面提到 RNN Attention 串行解碼的方式耗時較多且計算量大,因此很多工作開始使用基于 Transformer 來進行并行化處理,相比 RNN 也可獲得更強的語義信息。
中科院在 2018 年一項工作 NRTR 使用了完整的 Transformer 結構對輸入圖片進行編碼和解碼,如左圖所示,只使用了簡單的幾個卷積層做高層特征提取,在文本識別上驗證了 Transformer 結構的有效性。
還有 Naver 在 2019 年提出的 SATRN、平安在 2019 年提出的 Master、中科大團隊分別在 CVPR-2021 發表的 ABINet 和 ICCV-2021 發表的 VisionLAN 等,都驗證了基于 Transformer 方法并行訓練的高效性和精度可靠性。
近年來,有些工作將文本檢測和識別聯合起來考慮,提出了一系列端到端文本檢測與識別技術,稱為 Text Spotting。
基于深度學習的端到端方法大致可以分為兩階段和一階段兩大類方法。
兩階段模型中,劉成林老師團隊在 ICCV-2019 上發表的 TextDragon 及 Naver 在 ECCV-2020 發表的 CRAFTS,都是基于組件的方式處理不規則文本。華南理工團隊的 ABCNet 系列對不規則文本的邊界進行幾何建模,而華科白翔老師團隊的 Mask TextSpotter 系列模型結合上述兩種方式的特點,在 Mask R-CNN 檢測文本行的基礎上加入了單字檢測與識別。華南理工金連文老師團隊在 CVPR-2022 提出的 SwinTextSpotter 模型可以使識別分支更充分地利用來自檢測分支的反饋,提高了端到端文本識別的性能。
近年來,考慮到端到端聯合訓練檢測與識別分支時,特征對齊與變換的操作會造成特征的失真,從而給識別帶來負面影響,一些學者提出了單階段的方法,即模型可以在檢測文本區域的同時預測文本的內容。深圳碼隆科技在 ICCV-2019 提出的 CharNet 是較早提出的方法。海康威視在 AAAI-2021 提出的 MANGO 可根據字符級別的分類結果,并行輸出端到端識別結果。CVPR-2022 上發表的 TESTR 設計了雙通道解碼器,同時輸出文本檢測框及其對應的文本識別內容。華南理工金連文老師團隊和華科白翔老師團隊聯合發布的 SPTS 模型首次將端到端文本檢測和識別任務建模為簡潔的序列預測問題,采用基于 Transformer 的序列預測模型將文本檢測和識別融為一體。
總體來看,近年來此領域涌現出不少基于 Transformer 框架的端到端場景文本識別新方法,是值得關注的發展方向。
(2)表格識別
接下來介紹內容識別的第二個部分:表格識別。
表格識別的目標是識別出表格的布局結構、層次結構等,將表格視覺信息轉換成可重建表格的結構描述信息,這些表格結構描述信息包括:單元格的具體位置、單元格之間的關系和單元格的行列位置等。在當前的研究中,表格結構信息主要包括以下兩類描述形式:①單元格的列表(包含每個單元格的信息:行列位置、單元格坐標、文本坐標及內容等);②表格的邏輯結構(HTML、Latex 等)。表格識別的方法主要分為自頂向下的行類分割方法、自底向上的單元格檢測方法、由圖片生成序列的端到端方法,接下來我會具體介紹這三類方法的處理流程及特點。
首先是自頂向下的行列分割方法,是較早開始研究的基于深度學習的方法。通常分為兩個步驟,第一步是將表格分割成網格單元(語義分割或目標檢測獲得分割交點、行列像素分類)。第二步是判斷網格關系(規則判斷、CNN 或多模態相鄰網格二分類、GNN 邊分類、基于網格單元的 RNN/Transformer)。
當然早期很多工作沒考慮網格關系判斷,因此無法處理有合并單元格的表格,只能處理簡單二維表格。
第一個比較完善的方法是 Adobe 在 ICDAR-2019 上發表的工作 SPLERGE,對表格的行列分割和分割后的合并都進行了詳細的討論,提出了一個合并網絡,將表格分割為最細粒度的基本單元,然后進行合并得到真正的表格結構。
隨后國內在表格識別領域逐漸興起并逐漸處于較為領先的水平,中科大團隊在 ICDAR-2021 提出的 SEM 在會議舉辦的比賽中獲得復雜表格識別的第一名,采用 ResNet-34 + FPN 做行列分割,復用分割網絡的視覺特征 + Bert 提取的語義信息作為網格特征,采用 GRU 處理網格合并,而在 2023 年更新的 SEMv2 中,用 Transformer 獲取網格單元的依賴關系來處理單元格的合并。
另外一個微軟亞洲的工作 TSRFormer 在使用 ResNet-18 + FPN + Spatial CNN 提取特征后,采用基于 Transformer 的 Decoder 分割行列,然后通過 Grid CNN 判斷相鄰網格是否需要合并。
接著是自底向上的單元格檢測方法,通常分為兩個步驟,先檢測單元格或文本塊區域(語義分割、頂點檢測、文本聚合等),再判斷單元格或文本塊關系(根據位置規則判斷、GNN 邊分類、多模態等)。
一個較早在 2019 年提出的方法 GraphTSR 模型,將每個單元格視做一個節點,構建出全連接圖,使用圖網絡來對每條邊進行分類,判斷 K 鄰的單元格對是否在同一行或同一列。另一個由北交大團隊在 ICDAR-2019 提出的 Res2TIM 系統,在融合得到特征后,構建單元格對來判斷兩個單元格的上下左右關系來重建表格。不過這兩個工作都沒有給出完善的單元格區域檢測說明。
另一個工作是來自印度的團隊在 ECCV-2020 上提出的 TabStruct-Net,使用修改的 Mask R-CNN 檢測單元格,FPN 和 LSTM 提取單元格的視覺特征,DGCNN 構建無向圖,判斷單元格對是否屬于同行同列。
??低曉?ICDAR-2021 奪得比賽第一名的 LGPMA,重點優化了空白單元格對檢測模型的干擾。阿里在 ICCV-2021 提出的 Cycle-CenterNet,通過同時檢測單元格的中心以及 4 個單元格的交匯點來得到單元格區域。騰訊優圖在 CVPR-2022 提出的 NCGM 提取幾何、視覺和文本等多模態特征,判斷文本行是否同行、同列、同單元格。
這個分類的方法較多,已在左下角列出,就不一一介紹了。
在圖片生成序列的方法中,早期使用 RNN 生成結構序列和單元格信息(單元格坐標或文本內容),近幾年基于 Transformer 的序列生成方法在公開數據集效果提升顯著。
早期的幾個工作都是基于 RNN 生成結構序列,如微軟亞洲在 LREC-2020 發表的工作 TableBank、Bloomberg 在 ICDAR-2019 發表的工作 Table2Latex、IBM 澳洲在 ECCV-2020 發表的工作 EDD 等。
平安在 ICDAR-2021 提出的 TableMaster 首先將 Transformer Decoder 應用在基于序列生成的表格識別任務中,隨后 IBM 在 CVPR-2022 發表了處理流程差不多的 TableFormer,他們加入Transformer Encoder 做特征提取并降低了 Transformer 的參數量使得模型更輕量化。
華為在 CVPR-2023 上提出的 VAST 額外添加了視覺和結構對齊模塊,以解決單元格 bounding box 漂移的問題。
另外 IBM 在 ICDAR-2023 上提出新的表格表示方法 OTSL,和 HTML 的表示方式相比可以極大得減少序列長度。
復旦團隊在 ACL-2023 上提出的 TableVLM 融合文本、視覺、空間位置特征的多模態 Transformer 作為 Encoder,而 Decoder 依然采用標準 Transformer 輸出 HTML 序列。
金融領域的表格樣式非常豐富,那么面對這些差異很大的表格時,能否訓練一個通用模型來解決金融領域所有的表格識別場景呢,目前來看是很難做到的,因為每類方法都有明顯的優缺點。如圖所示的這些表格,表頭結構十分復雜,如果用 image-to-sequence 的方法,Transformer 畢竟是為語言模型設計的,而表格復雜的部分往往是在序列靠前的位置,因此想要整個序列完全正確會十分困難。
再看這一頁的例子,行或列的分割特征不明顯情況下,使用行列分割的方法難度很大,并且如果使用基于 OCR 的多模態技術,如何檢測出準確的文本行也是一個挑戰。如果表格過大的話會導致 HTML 序列長度很長,如果使用基于 image-to-sequence 的方法會帶來很大的計算量,同時也要考慮到 Transformer 誤差累積的特性,大表格也更容易出錯。預測出來的單元格框容易偏移。
這一頁的左圖,表格有大量空白單元格,對于基于單元格檢測的方法會很不利,并且對于判斷相鄰單元格關系對的方法,兩個空白單元格沒有任何特征,不可能實現合并的判斷。對白右邊的圖,單元格內有多行文本,這種情況不適合以文本行為節點構建圖用 GNN 邊分類判斷關系的方法,否則會導致計算量過大。
僅憑視覺信息無法判斷表格結構的表格也很常見,例如左邊這張表,最左邊一列是同樣的縮進,最下面的字段是換行關系,而上方的字段則是歸屬關系,這種情況沒有多模態技術是很難做對的。
每一類的表格識別方法都有明顯的優缺點,如何自動識別表格的種類從而選擇最合適的識別方法,也是工業領域工程落地工作的一個難點。
(3)圖形識別
內容識別里面最重要的兩個模塊:OCR 和表格識別已經介紹完了,還有很多的特殊版塊內容識別就不在這里一一列舉了,下面簡單介紹一下我們在圖形識別中的一個工作:股權結構圖的識別。
這項工作是吾道科技和華中科技大學合作的,主要目標是從招股說明書或募集說明書中識別股權結構,以構建金融知識圖譜。我們提出了一種更可靠的框圖識別系統,用于股權結構圖識別,能夠很好識別各種場景下的復雜連線。此外,我們利用股權結構圖自身的結構特點,開發實現了一套自動生成股權結構圖和對應標注數據的工具。
首先使用 VSR 版面分析抽取出股權結構圖,然后基于 Oriented R-CNN,使用改進后的關鍵點檢測對股權圖的節點和線進行檢測,最后生成股權關系三元組。
實驗結果顯示我們提出的方法對于 Arrow R-CNN 在性能上有顯著的進步,尤其是對連線的識別有巨大的改進,如果有興趣可以到 arxiv 查看我們的論文。
四、文檔理解
接下來介紹一下文檔理解的相關技術。
在文檔分析與識別工作的基礎上,通過信息抽取或語義理解等技術來處理文檔理解,此時文檔理解作為文檔分析與識別的一個重要下游任務。
隨著大模型的發展,越來越多的信息抽取及語義理解任務被降維替換,但文檔分析與識別目前來看依舊可以扮演重要的角色,相對于簡單文本行的抽取,一個性能良好的文檔分析與識別工具可以為大模型提供帶有結構信息的穩定輸入,很大程度提高大模型信息抽取的性能。
這邊的例子是我們關于股權變動事件抽取的工作,首先通過章節定位和版面分析將事件所在的段落和表格篩選出來,然后判斷變動事件的類型是增資、減資還是轉讓,從表格抽取子事件并分析篩選出相關的句子,然后用基于觸發詞的事件抽取模型從文本中抽取子事件論元,最后將子事件合并為完整的股權變動事件。
在我們的業務場景中,還有很多相似的業務流程,以前通常我們要為每個任務訓練專用模型,從準備數據、訓練模型到工程落地往往持續較長的周期,隨著大模型的發展,很多簡單的任務只需替換為 zero-shot 或 few-shot 的 prompt 就可以達到應用需求,極大地提升了開發效率。
多模態文檔理解的一個常見的工作范式:圖像經過 OCR 獲取到文本,圖像通過視覺的 BackBone 獲得視覺特征,然后做特征融合送進 Transformer Encoder 去獲取融合之后的特征,然后去做后續的預訓練任務,每個模型的預訓練任務都是不一樣的,做完預訓練后再去做下游的微調任務。
基于這個范式會有很多優化工作,比如 LayoutLM 系列,右下角這張是微軟亞洲在 ACM-MM-2022 發表的 LayoutLMv3,他的做法是對圖像做成 patch embedding 來和文本拼接,省去了 LayoutLMv2 中 CNN BackBone 的計算量,然后直接把 Transformer Encoder 當做一個 ViT 做融合學習。
然后左上角這個圖是一個比較有特點的模型,是華南理工金連文老師團隊在 ACL-2022 發表的 LiLT,LiLT 是雙塔結構,把 text flow 和 layout flow 分開了,可以進行靈活的替換 text 或 layout,并且 LiLT 是純文本輸入,沒有圖像作為輸入也可以達到一個很好的效果,甚至比 LayoutLMv2 還要好。
此外還有百度在 ACM-MM-2021 發表的 StructTexT、螞蟻在 CVPR-2022 的工作 XYLayoutLM、Google 在 ACL-2022 的工作 FormNet 系列、微軟亞洲在 AAAI-2023 的工作 KVPFormer、阿里在 CVPR-2023 的工作 GeoLayoutLM 以及發表在 EMNLP-2023 針對關系抽取任務做優化的 GOSE,如右上角圖片所示,時間關系就不在這里展開介紹了。
隨著大模型把 Transformer Decoder 帶入我們的視角,誕生了一種 OCR-Free 的架構,這個做法是把圖像直接送進 Transformer Encoder 里,然后直接經過一個 Transformer Decoder 去理解信息,最后通過自回歸的方式直接輸出信息。
這方面最早的工作是 Naver 在 ECCV-2022 發表的工作 Donut,以及百度在 ICLR-2023 的工作 StrucTexTv2。
雖然 OCR-Free 的模型非常靈活可以同時做多任務訓練,但也存在一個問題就是文字準確率不如前面我們講的范式,這也是后續研究需要解決的問題。
隨著 MLLM(多模態大模型)和 LVLM(視覺大模型)的發展,文檔理解從去年下半年開始迎來新的范式,很多基于多模態大模型或視覺大模型的文檔理解工作開始涌現。這里展示的是今年最新的文檔理解模型:華科和金山研究人員在 CVPR-2024 發表的多模態大模型 Monkey 基礎上提出的 TextMonkey、阿里的 DocOwl 1.5。
隨著大模型技術的不斷發展,很多以前無法自動化處理的任務都成為了可能,比如如圖所示的一些 Chart Understanding 領域的工作,將圖表轉化成結構化數據,之前沒有太關注,現在已經有大模型產品比如 GPT4V、Claude 提供類似的功能。
隨著LVLMs(Large Vision Language Models)的持續發展,Chart Understanding 的各項任務都取得了變革性的突破,SOTA 基本都是被基于預訓練模型和 LVLM 所刷新的。
下面這篇文章是我這幾天看到的一篇曠視在本周開源的工作,是一篇關于圖表結構化提取的最新文章,柱狀圖、折線圖、餅圖等圖表的理解和推理能力是目前 VLM 研究中的重點和難點。在金融領域會有很多可落地的場景,是值得我們去持續關注和探索的研究領域。
五、文檔智能未來展望
最后探討一下文檔智能技術的未來發展趨勢和展望。
首先回顧一下文檔智能在金融領域面臨的挑戰和問題:
- 金融行業是文檔密集型的行業,有海量的公告、文書需要處理,金融文檔種類繁多且復雜多樣,如何構建能夠泛化到不同金融文檔類型的模型是目前面臨的一大挑戰。
- 金融文檔通常頁數很多,并且需要保持較高的分辨率,用基于深度學習或大模型的方法處理幾百頁的文檔需要很多算力,如何快速響應是需要考慮的問題。
- 金融行業對數據安全性有極高的要求,如何保證模型尤其是大模型的可靠性和穩定性是工程落地需要思考的問題。
接著說下大模型技術給我的沖擊和啟示:
- ChatGPT 從發布到現在一年多,其發展速度說實話是比我想象中要快不少的,回看去年年初測試 davinci 和 codex 的實驗文檔,無論是從上下文長度、速度、價格還是效果來看都有非常大的進步,而多模態大模型和視覺大模型所擁有的理解能力也讓我覺得很不可思議,我們的工作方式和技術路線都產生了巨大的變革。
- 大模型從技術上并不算是一個全新的概念,2020 年就發布了 GPT-3,但是感覺部署這樣龐大的模型距離實際生產環境的落地還很遠,所以繼續聚焦在 BERT 為代表的常規預訓練模型上,OpenAI 在發展很久還是局面不利的情況下依舊堅持 Autoregressive,是他們成功的原因。這也啟示我要跳出局限的認知用發展的眼光看待技術。
最后講一下我對未來的展望,拋出我的觀點,我相信并且期望大模型可以一統江山,一個模型可以處理 NLP 和 CV 所有的任務,希望那一天早日到來。在學術研究迅速發展的同時,我們工業界也應該跟上節奏,提升對新技術的關注和敏感性,及時探索更多的落地場景和實際應用。