文檔解析技術指南:從傳統Pipeline到端到端大模型 原創
編者按: 每天我們都在與各種格式的文檔打交道,如何快速準確地從這些文檔中提取有價值的信息,如何讓 AI 理解文檔中的表格、公式和圖表,成為擺在我們面前的一道難題。
特別是對于從事數據分析、學術研究或法律工作的專業人士來說,手動處理和整理這些文檔不僅耗時耗力,還容易出錯。一份技術報告中的復雜數學公式,一篇論文中的多層嵌套表格,或是一份合同中的關鍵條款,都需要我們投入大量精力去理解和提取。
本文深入剖析了當前文檔解析技術的兩大主流方向:模塊化 pipeline 系統和基于大型視覺-語言模型的端到端處理方法。作者不僅詳細介紹了從布局分析、OCR 到數學公式識別、圖表處理的各個技術模塊,還對包括 Nougat、Fox、OmniParser 在內的多個前沿模型進行了深入介紹。
作者 | Florian June
編譯 | 岳揚
眾多文檔,如技術手冊、歷史檔案、學術論文和法律文件,往往以掃描件或圖片形式存在。這對檢索增強生成(Retrieval-Augmented Generation, RAG)、內容提取以及文檔解讀等后續處理工作構成了極大的挑戰。
文檔解析技術應運而生,它能夠識別并提取文檔中的多種元素,如文字、公式、表格和圖片,同時保持它們之間的結構聯系。提取后的內容可轉換成 Markdown、HTML 或 JSON 等結構化格式,從而實現與下游任務的無縫集成。
01 Overview
圖 1:文檔解析方法概述。來源:Document Parsing Unveiled[1]
文檔解析技術主要分為兩大類:模塊化 pipeline 系統和基于大型視覺-語言模型的端到端處理方法。
圖 2:兩種文檔解析方法。來源:Document Parsing Unveiled[1]
模塊化 pipeline 系統[2]將文檔解析任務拆分為多個獨立階段,每個階段針對特定的功能和任務。這些模塊通常包括:
- 布局分析:它通過識別文本塊、標題、圖片、表格和數學表達式等元素,以及它們在文檔中的空間布局和閱讀順序,來檢測文檔布局結構。
- 內容提取:這一步驟涉及多個關鍵流程,例如文本提取、數學公式提取、表格數據提取和結構提取,以及圖表識別。
- 關系整合:在保持元素間空間和語義關系的基礎上,將提取的文本、表格和圖表等元素進行整合。
圖 3:基于模塊化 pipeline 方法的概覽圖,此圖由作者提供
而端到端視覺-語言模型(VLMs)則致力于通過多模態大模型統一處理任務,從而簡化文檔解析流程。
圖 4:端到端視覺-語言模型(VLMs)的概覽圖,此圖由作者提供
02 模塊化 pipeline 系統:布局分析
布局分析(Layout analysis)是識別文檔結構的關鍵步驟,它能夠精確地定位文本塊、圖片和表格,從而實現信息的準確提取。
圖 5:文檔布局分析 (DLA) 算法概覽。來源:Document Parsing Unveiled[1]
布局分析采用的方法包括使用卷積神經網絡(CNNs)來捕捉視覺特征,以及 Transformers 和基于圖的網絡來處理元素間的空間與語義關系。
通過引入多模態模型,如 LayoutLM,布局分析得以同時結合文檔的布局和文本信息,進一步提升了文檔解析的準確性。
用于布局分析的主流數據集如圖 6 所示。
圖 6:DLA 常用數據集摘要。來源:Document Parsing Unveiled[1]
這些數據集分為合成數據集、真實數據集和混合數據集,覆蓋了從歷史文獻、學術論文到收據等多種文檔類型。
早期數據集,例如 IMPACT 和 GW20,主要關注歷史文件,而像 PubLayNet 這樣的新數據集則更注重復雜的印刷布局。ICDAR 等競賽提供的帶有高質量標注的標準化數據集,對于模型評估和基準測試至關重要。
03 模塊化 pipeline 系統:光學字符識別技術(OCR)
光學字符識別(Optical Character Recognition, OCR)技術是將文檔圖像轉換為機器可讀文本的核心,它為多種后續處理任務提供了基礎支持。
圖 7:OCR 算法概覽。來源:Document Parsing Unveiled[1]
文本檢測是首個步驟,采用了包括 YOLO 等單階段回歸模型和 Faster R-CNN 等兩階段提議方法來定位文本區域。
緊隨其后的文本識別步驟,則通過 CRNN 等基于 CTC loss 的模型和基于 Transformer 的序列到序列(sequence-to-sequence)方法,將識別出的文本轉換為結構化格式。
最新的研究進展通過整合語義信息,顯著提高了對復雜和不規則文本的識別精度。
端到端的文本定位模型將檢測與識別合二為一,通過共享特征表示提升了操作的效率和準確性。
OCR 使用的主流數據集如圖 8 所示。
圖 8:OCR 常用數據集摘要。來源:Document Parsing Unveiled[1]
這些 OCR 數據集既包含印刷文本也包含自然場景文本,其中 ICDAR 競賽提供的數據集(如 ICDAR2013 和 ICDAR2015 )在自然場景文本檢測評估中尤為突出。專門針對復雜場景下不規則文本的數據集,如 Street View Text Perspective 和 MSRA-TD500,也是研究的重要資源。SynthText 和 SynthAdd 等合成數據集則為文本檢測和識別提供了大量訓練數據。端到端 OCR 任務得益于 ICDAR2015 和 ICDAR2019 等帶有區域和文本注釋的數據集的支持。
04 模塊化 pipeline 系統:數學表達式的檢測和識別
數學表達式的識別與檢測旨在識別和解釋文檔中的數學符號,包括獨立表達式和內聯表達式。
圖 9:數學表達式識別與檢測的全景圖。來源:Document Parsing Unveiled[1]
4.1 檢測過程
這一過程著重于在文檔中搜尋并確定數學表達式的位置,使其與周圍的文字區分開來。
最初,這一領域依賴于基于規則的方法,但現在,深度學習技術的應用,如使用邊界框和圖像分割,極大地提升了檢測的精確度和速度。卷積神經網絡(CNN)最初為這一領域帶來了定位能力,而 DS-YOLOv5 和 R-CNN 等新算法更是將這一能力推向了新的高度。
4.2 識別過程
而識別的任務則是解讀那些被檢測到的數學表達式的含義,將其中的符號和結構轉換成 LaTeX 或 MathML 等編碼格式。
編碼器-解碼器模型負責將數學圖像轉換成 LaTeX 等格式,這通常涉及到使用 CNN 來提取圖像的局部特征,以及使用 Transformer 來處理復雜的依賴關系。
在數學表達式識別(MER)領域,使用遞歸神經網絡(RNNs)和 Transformer 模型來進行序列處理,這與 OCR 領域類似。帶有注意力機制的 RNN 擅長處理嵌套和層次化的結構,而 GRU 等先進設計則提升了處理效率。樹形結構和 Transformer 解碼器解決了梯度消失和計算成本高等問題,因此它們在處理復雜公式時更為得心應手。
4.3 數據集
數學表達檢測(MED)和識別(MER)數據集對于提高印刷和手寫數學表達式的識別準確率至關重要。
圖 10:MED 和 MER 常用數據集摘要。來源:Document Parsing Unveiled[1]
重要數據集,例如 UW-III、InftyCDB-1 和 Marmot,支持各種文檔類型的檢測、提取和定位等任務。ICDAR 系列數據集對此領域貢獻頗大,尤其是 ICDAR-2017 POD 和 ICDAR-2021 IBEM,它們針對的是更為復雜的場景。同時,FormulaNet 和 ArxivFormula 等大型數據集則專注于從圖片中提取數學公式。
盡管現有資源豐富,但為了更好地支持多格式識別和提高模型的穩健性,數據集的進一步開發仍然十分必要。
05 模塊化 pipeline 系統:圖表處理
常見的圖表類型包括折線圖、條形圖、面積圖、餅圖和散點圖,每種圖表都在傳達關鍵信息方面發揮著重要作用。
圖表處理任務包括圖表分類、元素識別和數據提取等,目的是將圖表中的視覺信息轉化為表格或 JSON 等易于分析和訪問的結構化數據格式。
圖 13:文檔中與圖表相關的任務概覽。來源:Document Parsing Unveiled[1]
圖表分類是區分不同圖表類型(如條形圖、折線圖、餅圖等)的關鍵,利用 CNN 和Vision Transformer技術,Swin-Chart 等模型在處理復雜和相似的圖表方面表現卓越。
圖表檢測和元素識別則需要布局檢測算法來定位圖表區域、匹配標題和分割復合圖表,這通常需要借助 YOLO 和 Faster R-CNN 等目標檢測模型實現。
圖表感知技術(chart perception)能夠從圖表中提取數據結構和文本信息。ChartDETR 等先進方法結合了 CNN 和 Transformer,實現了端到端的數據提取,而 FR-DETR 等模型則優化了流程圖和樹狀圖的結構提取,但處理復雜連接線的挑戰依然存在。
圖 14:圖表相關任務常用數據集匯總。來源:Document Parsing Unveiled[1]
DeepChart、VIEW 和 ReVision 等成熟數據集支持圖表分類研究,提供了豐富的圖表類型。對于數據提取和結構提取,UB-PMC 和 Synth 等自定義數據集提供了寶貴但有限的資源。UB-PMC 包含真實的科學圖表,而 Synth 則是生成的模擬圖表。LineEX430k 和 OneChart 等最新數據集專注于更高級的任務,如信息提取、問答和推理。
06 大模型助力文檔解析
大型文檔提取模型(DELMs)采用基于 Transformer 的架構,能夠將文本、圖像、表格等多模態信息轉換成結構化數據,這對于深入解析復雜文檔極為關鍵。
早期的模型,例如 LLaVA-Next 和 Qwen-VL,雖然為多模態信息處理奠定了基礎,但在處理專業文檔時,它們在光學字符識別(OCR)和文檔結構理解方面的精細度不足。
隨后開發的模型,如 Nougat[3] 和 Vary[4],則在 OCR、結構化信息提取以及頁面布局編排方面進行了優化,有效應對了技術文檔處理中的難題。
2024 年,Fox 模型[5]在處理多頁文檔方面取得了突破,能夠在不同頁面間整合視覺與文本數據,且無需調整模型權重。Detect-Order-Construct 模型[6]通過將文檔結構解析分解為檢測、排序和構建三個步驟,進一步提高了分層解析的精度。OmniParser[7] 等模型則朝著集成化框架邁進,提升了文本與表格的識別能力。而 GOT 模型[8]則開創了一種全能的 OCR 方法,能夠應對包括樂譜和復雜布局在內的多種文檔類型。
這些進步預示著大型文檔提取模型(DELMs)解決方案正在更加全面地發展,為學術研究到專業領域的文檔處理帶來了速度與準確性的雙重提升。
07 開源文檔解析工具及其評估
7.1 Tools
以下是一些廣受歡迎的開源工具。
圖 15:在 GitHub 上獲得超過 1000 個星標的開源文檔解析工具。來源:Document Parsing Unveiled[1]
在 OCR 工具方面,Tesseract 和 PaddleOCR 以其高精確度、高速度以及多語言支持而處于領先地位。Tesseract 適合處理大規模的任務,而 PaddleOCR 在應對復雜情況時尤為出色。
對于那些結構較為復雜的文檔,Unstructured[9] 和 Zerox 等專業框架展現出了卓越的性能,它們能夠高效地提取出嵌套表格和混合內容。
包括 Nougat[3]、Fox[5]、Vary[4] 和 GOT[8] 在內的先進大模型,提供了專項解析功能。Nougat 特別適合解析含有公式的科學文檔,Fox 擅長整合多模態信息,Vary 能夠處理文本與圖像混合的多種格式,而 GOT 憑借其統一架構,在處理表格、幾何圖形等不同內容類型時表現優異。
GPT-4 和 LLaMA 系列等多模態模型也在一定程度上支持文檔解析任務。
7.2 Evaluation
此外,本研究還對 10 種熱門 PDF 解析工具在 6 個不同文檔類別中的表現進行了評估和對比。
圖 16:文本和表格提取工具概覽。這些工具的主要提取功能包括圖像(I)、文本(T)、元數據(M)、目錄(TOC)以及表格(TB)。大多數工具采用的是基于規則(RB)的技術,部分工具還提供了光學字符識別(OCR)功能。需要注意,Nougat 和 Table Transformers 并不是本研究的主要重點。來源:A Comparative Study of PDF Parsing Tools[10]
以下是基于 DocLayNet 數據集的 PDF 解析器評估結果的簡明摘要。
在文本提取方面,不同文檔類型間的性能差異頗為顯著。PyMuPDF 和 pypdfium 在 Financial、 Tender、Law 和 Manual 類別中表現尤為出色,尤其是在保留單詞結構方面。而在 visual transformer 模型 Nougat 的對比下,基于規則的解析器在文本提取上的表現則略顯遜色。
圖 17:基于規則的解析器與 Nougat 在科學文檔文本提取能力的對比。來源:A Comparative Study of PDF Parsing Tools[10]
在表格提取方面,基于規則的工具在某些特定類別中表現不俗,Camelot 在 Tender 類別中領先,Tabula 則在 Manual、Scientific 和 Patent 類別中表現優異。不過,TATR[11] 在多數類別中展現出了穩定而全面的表現,尤其是在 Scientific 類別中(召回率超過0.9),盡管在 Manual 和 Tender 類別中它稍遜于 PyMuPDF 和 Camelot。
基于規則的方法,如 PyMuPDF 和 pdfplumber,在處理結構較為簡單的文檔時表現良好。但當遇到科學和專利文檔時,基于學習的方法,如 Nougat 和 TATR,由于能夠更好地處理復雜的布局和結構,因此表現更為出色。
08 Thoughts and Insights
8.1 實際應用現狀
據我所知,目前模塊化 pipeline 系統在實際應用中得到了廣泛應用,而端到端的大模型在實際應用中仍面臨一些限制。
盡管如此,端到端的大模型展現出了發展的巨大潛力。
8.2 文檔解析的挑戰
模塊化 pipeline 系統面臨的挑戰包括:
- 文檔布局分析(DLA)需要更深入地理解嵌套式布局。
- 光學字符識別(OCR)在處理密集文本和多字體文本時存在難題。
- 表格識別需要能夠處理那些邊界不清晰或跨多頁的表格。
- 數學表達式識別需要加強對不同表達形式的處理能力。
- 圖表提取缺乏統一的標準定義。
端到端的大模型雖然規避了模塊化系統的復雜性,并提升了文檔結構理解的深度,但仍面臨以下挑戰:
- 大多數用于文檔解析的大模型并未在所有方面超越模塊化 pipeline 系統。
- 由于參數固定,OCR 功能受限。
- 資源消耗大,處理密集文檔效率不高,以及在大規模數據上圖像與文本特征對齊的難題。
8.3 復雜文件的文檔解析
當前的研究往往聚焦于結構簡單的文檔類型(如科學論文),而忽視了更為復雜的文件類型(例如簡歷)。
我們需要更加多樣化的數據集。
8.4 文檔類型的影響
評估結果顯示,文檔類型對解析器性能有著顯著影響,因此工具的選擇應符合具體的任務要求。
8.5 模型的可解釋性與反饋循環
隨著文檔解析在法律和金融文件處理等關鍵領域的應用越來越重要,模型的可解釋性變得不可或缺。能夠提供透明度的技術(比如解釋為何某些行或單元格被特定方式分組或標記)具有極其重要的價值。
展望未來,如果能夠將用戶的反饋循環納入系統,讓用戶糾正錯誤的解釋,可以為模型的自我優化開辟一條新的路徑。這些模型將通過學習人類的糾正行為來動態地改進文檔解析的預測結果。
09 Conclusion
本文深入評述和分析了文檔解析技術,探討了這一快速發展的領域中所采用的各種方法和技術。文章最后,作者分享了一些個人的思考和見解。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the authors
Florian June
AI researcher, focusing on LLMs, RAG, Agent, Document AI.
END
本期互動內容 ??
?『技術之辯』模塊化 pipeline vs 端到端大模型,你更看好哪種方案?為什么?
??文中鏈接??
[1]??https://arxiv.org/pdf/2410.21169v2??
[2]??https://ai.gopubby.com/demystifying-pdf-parsing-02-pipeline-based-method-82619dbcbddf??
[3]??https://ai.gopubby.com/demystifying-pdf-parsing-03-ocr-free-small-model-based-method-c71310988129??
[5]??https://arxiv.org/pdf/2405.14295v1??
[6]??https://arxiv.org/pdf/2401.11874v2??
[7]??https://arxiv.org/pdf/2403.19128v1??
[9]??https://pub.towardsai.net/advanced-rag-02-unveiling-pdf-parsing-b84ae866344e??
[10]??https://arxiv.org/pdf/2410.09871v1??
[11]??https://arxiv.org/pdf/2110.00061v3??
原文鏈接:
??https://pub.towardsai.net/unlocking-key-technologies-in-document-parsing-81bfe20d741b??
