從OCR瓶頸到結構化理解來有效提升RAG的效果
譯文譯者 | 李睿
審校 | 重樓
OCR錯誤在RAG流程中級聯,將嚴重影響人工智能系統的性能。擁有2.56億個參數的SmolDocling能夠實現對文檔的整體化處理,進而生成結構化輸出,有效提升了RAG的效果。
當人們探討如何讓人工智能系統更好地從文檔中查找和使用信息時,通常關注的是令人矚目的算法和前沿的大型語言模型。但問題是:如果文本提取的質量很差,那么后續的努力都將付諸東流。本文探討OCR質量如何影響檢索增強生成(RAG)系統,尤其是在處理掃描文檔和PDF文件的常見場景時。
通過在RAG流程中探索光學字符識別(OCR)錯誤的級聯效應,并使用SmolDocling(一種端到端處理文檔的超緊湊視覺語言模型)提出了一種現代解決方案。OHRBench研究報告(Zhang et al., 2024)提供了令人信服的證據,表明即使是現代OCR解決方案也難以處理現實世界的文檔。展示了只有2.56億個參數的SmolDocling(Nassar等人,2025年)如何通過整體理解文檔而不是逐個字符處理,以輸出結構化數據,從而顯著提升下游RAG性能。
引言
“垃圾進,垃圾出”的原則不僅僅是一個口號——它是基于文檔的RAG系統的現實。當人工智能社區對最新的嵌入模型和檢索算法充滿興趣,許多人忽視了一個基本的瓶頸:從現實世界的文檔中提取文本的質量。
最近進行的一些研究開始揭示這個問題。Zhang等人(2024)引入了OHRBench,表明當前的OCR解決方案都無法勝任為RAG系統構建高質量知識庫的任務。這是對OCR技術應用現狀的一個相當糟糕的評價。
錯綜復雜的OCR現狀
1.好消息與壞消息
好消息是,現代OCR技術已經取得了長足進步。谷歌的Tesseract現在已發展到4.0+版本,使用LSTM神經網絡,在干凈的印刷的文本上實現令人印象深刻的準確率(Patel等人,2020年)。而壞消息是,出現了一些問題:
根據最近進行的基準研究,歷史文檔中20%或更高的OCR錯誤率仍然很常見(Bazzo等人,2020)。Rigaud等人(2021)記錄了數字圖書館和專業文檔類型中的類似問題。
Hamdi等人(2022)的一項基準研究對Tesseract、Amazon Textract和Google Document AI進行了比較,發現Document AI提供了最佳結果,基于服務器的處理器(Textract and Document AI)的性能明顯優于Tesseract,尤其是在背景嘈雜的文檔上。但即使是表現最好的OCR系統,也難以應對復雜的布局和歷史文件。
2.為什么OCR系統面臨多種困難和挑戰
OCR系統面臨的挑戰不僅僅是老舊的或褪色的文檔(這些文件會有問題)?,F代OCR面臨幾個持續存在的問題:
(1)復雜的布局:多欄格式、表格和混合文本/圖像內容使大多數OCR系統感到困惑。
(2)質量參差不齊:即使是來自同一來源的文檔,掃描質量也可能大不相同。
(3)語言和字體多樣性:非拉丁文字和不常見的字體會顯著降低性能。
(4)現實世界的干擾:咖啡漬、手寫注釋、郵票——這些讓文件變得真實的事物也讓它們難以閱讀。
正如OHRBench論文(Zhang et al., 2024)所述,語義噪聲和格式噪聲這兩種主要的OCR噪聲類型,被認為是影響下游RAG性能的主要因素。
OCR錯誤如何通過RAG級聯
1.多米諾骨牌效應
當OCR錯誤進入RAG流程時,會發生以下情況——這并不美妙:
(1)分塊混亂:復雜的語義分塊算法試圖在文本中找到句子邊界,例如“出現嚴重癥狀的患者(Thepatient presentedwith severesymptoms)”,然后要么創建無意義的小塊,或者要么大量的文本。
(2)嵌入混淆:當嵌入模型看到“diabetus”這種錯誤拼寫而不是“diabetes”(糖尿病)時,它可能會將該分塊放在完全不同的語義空間中。如果將這種情況出現在數千個文檔中,其向量空間將變得混亂不堪。
(3)檢索失敗:用戶搜索“糖尿病治療(diabetes treatmen)”,但是相關的數據塊被索引在“diabetus”或“diabetes”下——找不到匹配項。
(4)產生幻覺:由于上下文質量不佳或缺失,LLM開始編造內容來填補空白。
2.對RAG性能的實際影響
OHRBench的研究提供了發人深省的數據。他們發現OCR噪聲對RAG系統有顯著影響,在所有測試配置中均出現性能損。這不僅僅是幾個百分點的問題——而是系統變得無法有效地用于關鍵應用程序。
Bazzo等人(2020年)在詳細調查中發現,雖然OCR錯誤在平均水平上可能看似影響不大,但單一查詢可能會受到很大影響。調查表明,從5%的錯誤率開始,就會注意到顯著的影響,并且報告了在存在錯誤的情況下索引術語數量的顯著增加——本質上,OCR錯誤會創建虛假的詞匯表,進而導致索引規模膨脹。
建議:采用SmolDocling的現代解決方案
1.超越傳統的OCR
在經歷了傳統OCR流程的各種挫折之后,采用了一種完全不同的方法,即使用SmolDocling,這是IBM Research和HuggingFace于2025年3月發布的一款超緊湊視覺語言模型(Nassar等人,2025年)。
這就是一切得以改變的原因:與傳統的OCR→后處理→分塊→嵌入流程不同。SmolDocling將文檔圖像直接處理成結構化的輸出。它只有2.56億個參數,其規模足夠小,可以在消費級GPU上運行,同時提供與大27倍的模型相媲美的結果。
2.SmolDocling架構
該模型使用了一個巧妙的架構,它結合了:
- 直接處理文檔圖像的視覺編碼器(具有9300萬個參數的SigLIP)
- 生成結構化輸出的語言模型(具有1.35億個參數的SmolLM-2變體)
- 有效壓縮視覺特征的積極像素洗牌策略
其特別之處在于,SmolDocling不只是提取文本——它從整體上理解文檔結構。表保持表格的形式,代碼塊保持縮進,公式得以保留,元素之間的空間關系也被捕獲。
3.DocTags:實際有效的結構化輸出
smoldoling的關鍵創新之一是DocTags,這是一種專門為文檔表示而設計的標記格式。而不是轉儲非結構化文本,可以得到結構化的輸出與精確的位置信息:
1 <picture><loc_77><loc_45><loc_423><loc_135>
2 <other>
3 <caption><loc_58><loc_150><loc_441><loc_177>
4 Figure 1: SmolDocling/SmolVLM architecture. SmolDocling converts images of document pages to DocTags sequences.
5 </caption>
6 </picture>
7 <text><loc_58><loc_191><loc_441><loc_211>In this work, we outline how we close the gaps left by publicly available datasets and establish a training approach to achieve end-to-end, full-featured document conversion through a vision-language model.
8 </text>
9 <unordered_list>
10 <list_item><loc_80><loc_218><loc_441><loc_259>· SmolDocling: An ultra-compact VLM for end-to-end document conversion
11 </list_item>
12 <list_item><loc_80><loc_263><loc_441><loc_297>· We augment existing document pre-training datasets with additional feature annotations
13 </list_item>
14 </unordered_list>
15 <table>
16 <table_row>
17 <table_cell><loc_50><loc_320><loc_150><loc_340>Test Name</table_cell>
18 <table_cell><loc_151><loc_320><loc_250><loc_340>Result</table_cell>
19 <table_cell><loc_251><loc_320><loc_350><loc_340>Normal Range</table_cell>
20 </table_row>
21 <table_row>
22 <table_cell><loc_50><loc_341><loc_150><loc_361>Glucose</table_cell>
23 <table_cell><loc_151><loc_341><loc_250><loc_361>126 mg/dL</table_cell>
24 <table_cell><loc_251><loc_341><loc_350><loc_361>70-100 mg/dL</table_cell>
25 </table_row>
26 </table>
請注意每個元素如何包含指定精確邊界框坐標(x1,y1,x2,y2)的<loc_X>標簽。這意味著:
- RAG系統確切地知道每條信息出現在頁面上的位置(自動圖像提取非常容易)。
- 表格以適當的單元格邊界維護其結構。
- 列表、標題和不同的文本類型被清楚地區分開來。
- 復雜的布局得以保留,而不是將其扁平化為文本流。
這種具有空間信息的結構化格式意味著,RAG系統可以根據實際的文檔結構和位置而不是任意的字符計數來智能地分塊。這種差異是巨大的——傳統的OCR可能會產生格式丟失的混亂文本,而SmolDocling則保持了使文檔有意義的語義結構和空間關系。
4.實際表現
SmolDocling論文(Nassar等人,2025)中的數據講述了一個引人注目的故事。以下可以直觀了解一下這個擁有2.56億參數的模型與更大規模的模型相比的表現:
圖1 文本識別(OCR)指標
圖2 布局理解(mAP)
圖3模型特征
要點:SmolDocling的精度比27倍于其大小的LLM更高,同時使用的內存和處理頁面的時間減少了28倍,僅需0.35秒(在A100 GPU上每頁平均0.35秒)。對于RAG應用程序來說,這意味著可以在性能適中的硬件上更快、更準確地處理文檔,同時還能保留文檔結構,使智能分塊成為可能。
5.在RAG流程中實施SmolDocling
許多團隊忽略了一個關鍵見解:數據準備的質量決定了RAG流程后續的一切。SmolDocling不僅僅是一個OCR工具——它從根本上改變了處理文檔的方式。
為什么結構化提取會改變一切
傳統OCR提供的是一面文字墻。而SmolDocling提供是文檔的語義地圖。這種差異貫穿整個流程:
(1)智能分塊成為可能:通過DocTags提供元素類型和邊界,可以基于實際文檔結構進行分塊。表作為一個語義單元保持在一起。代碼塊保持其完整性。多段落可以保持連貫。不再盲目地削減文字數量。
(2)上下文感知嵌入:當分塊具有結構時,嵌入將變得更有意義。包含帶有標題的表格的塊會創建與混雜在一起的相同文本不同的嵌入。語義關系得以保留,使檢索更加準確。
(3)分層索引:位置標簽(<loc_x1><loc_y1><loc_x2><loc_y2>)不僅僅是坐標——它們代表文檔層次結構。標頭、子標頭及其關聯內容保持它們之間的關系。這支持復雜的檢索策略,可以根據文檔結構確定優先級。
重要的準備過程
在實施SmolDocling時,需要考慮分層的數據準備:
- 文檔攝取:以適當的分辨率處理文檔(144 DPI是最佳分辨率)。
- 結構化提?。?/strong>讓SmolDocling創建DocTags表示。
- 語義分塊:解析DocTags以基于元素類型創建有意義的塊。
- 元數據充實:使用結構信息向每個塊添加充實的元數據。
向量生成:創建受益于保留結構的嵌入。
對RAG質量的實際影響
對RAG質量實際影響的差別是顯著的。在傳統流程中,搜索“季度收入數字”可能會返回碰巧包含這些單詞的隨機文本片段。使用SmolDocling準備的數據,將獲得包含這些數據的實際表格,其標題和周圍的上下文保持完整。
這不是理論上的——當從傳統的OCR轉換到保留結構的提取時,檢索精度提高了30%~50%。在數據準備上的適當投入會在RAG性能上獲得指數級的回報。
6.為什么這樣可以解決OCR問題
還記得討論的級聯錯誤嗎?以下介紹SmolDocling如何解決這些問題:
- 不會傳播OCR錯誤:由于它不是逐字符識別,而是從整體上理解文檔,因此不會發生許多傳統的OCR錯誤。
- 從一開始就了解結構:表格、列表和格式在初始提取中就得以保留,因此分塊策略有豐富的信息可供使用。
- 統一處理:一個模型就可以處理文本、表格、公式和代碼,無需將多個專用工具的輸出整合在一起。
- 為現代文檔而設施:雖然傳統OCR在處理復雜布局時遇到困難,但SmolDocling經過多種文檔類型的訓練,包括技術報告、專利和表格。
從傳統OCR到SmolDocling等視覺語言模型的轉變,代表了如何處理RAG文檔的根本變化。可以從一開始就使用干凈、結構化的數據,而不是在事后與OCR錯誤作斗爭,并試圖重建文檔結構。
實施注意事項
1.何時使用SmolDocling而不是傳統OCR
實際上,雖然SmolDocling更具優勢,但它并不總是合適的工具:
在以下情況下使用SmolDocling:
- 正在處理各種文檔類型(報告、表格、技術文檔)。
- 文檔結構對用例很重要。
- 需要處理表格、公式或代碼塊。
- 可以使用GPU(即使是消費級的也可以)。
- 想要一個單一的解決方案,而不是使用多個工具。
在以下情況下堅持使用傳統OCR:
- 只需要來自簡單文檔的純文本。
- 處理的文檔量非常大,其中0.35秒/頁太慢了。
- 有特殊需求(如歷史手稿處理)。
- 受限于僅使用CPU的環境。
2.監控和質量保證
即使SmolDocling有所改進,仍然需要進行質量檢查:
(1)針對已知模式的驗證:如果處理發票,需要檢查是否提取了標準字段。
(2)交叉引用:對于關鍵數據,考慮同時使用SmolDocling和傳統OCR進行處理,然后進行比較。
(3)用戶反饋循環:建立用戶報告問題的機制。
結論:未來是多模態的
要點:將OCR作為單獨的預處理步驟處理的日子已經屈指可數了。像SmolDocling這樣的視覺語言模型展示了這樣的未來:文檔理解是整體進行的,而不是通過碎片化的流程。
對于當今構建RAG系統的組織來說,這既是機遇也是挑戰。其機遇是顯而易見的:更好的文檔理解可以提高RAG的性能。而面臨的挑戰是,現在正處于兩種方法都有一席之地的過渡時期。
在此給出的建議是,可以從嘗試使用SmolDocling處理最棘手的文檔(即傳統OCR始終失敗的文檔)開始,不僅要衡量字符準確性方面的改進,還要衡量端到端RAG性能的改進。當系統真正理解文檔結構,而不僅僅是提取字符時,可能會驚訝地發現系統性能得以顯著提升。
如今的研究進展迅速。Zhang等人(2024)在其文章中展示了當前OCR對RAG的影響有多大。Nassar等人(2025)隨后提出了 SmolDocling 作為可行的解決方案。而且,很可能未來還會有更出色的進展。
不過,用戶不要一味地等待完美。利用SmolDocling能夠有效處理90%文檔的RAG系統,要比在理論上能處理100%文檔但在面對現實復雜性時卻失敗的RAG系統要有價值得多。
最終,用戶并不關心開發人員面臨的技術難題。他們只希望從文檔中獲取準確的答案。而借助像SmolDocling這樣的方法,將會更接近于實現這一承諾。
參考文獻
- Bazzo, G.T., Lorentz, G.A., Vargas, D.S., & Moreira, V.P. (2020). "Assessing the Impact of OCR Errors in Information Retrieval." In Advances in Information Retrieval. ECIR 2020. Lecture Notes in Computer Science, vol 12036. Springer, Cham.
- Chen, K., et al. (2023). "LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking." Proceedings of the 31st ACM International Conference on Multimedia.
- Hamdi, A., et al. (2022). "OCR with Tesseract, Amazon Textract, and Google Document AI: a benchmarking experiment." Journal of Computational Social Science, 5(1), 861-882.
- Lewis, P., et al. (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks." Advances in Neural Information Processing Systems, 33, 9459-9474.
- Nassar, A., et al. (2025). "SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion." arXiv preprint arXiv:2503.11576.
- Neudecker, C., et al. (2021). "A Survey of OCR Evaluation Tools and Metrics." Proceedings of the 6th International Workshop on Historical Document Imaging and Processing, 13-20.
- Patel, D., et al. (2020). "Improving the Accuracy of Tesseract 4.0 OCR Engine Using Convolution-Based Preprocessing." Symmetry, 12(5), 715.
- Rigaud, C., et al. (2021). "What Do We Expect from Comic Panel Text Detection and Recognition?" Multimedia Tools and Applications, 80(14), 22199-22225.
- Shen, Z., et al. (2021). "LayoutParser: A Unified Toolkit for Deep Learning Based Document Image Analysis." Proceedings of the 16th International Conference on Document Analysis and Recognition (ICDAR).
- Zhang, J., et al. (2024). "OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation." arXiv preprint arXiv:2412.02592.
原文標題:From OCR Bottlenecks to Structured Understanding,作者:Pier-Jean MALANDRINO