顛覆傳統OCR輕松搞定復雜PDF的工具
LLM 輔助 OCR 項目是一個先進的系統,旨在顯著提高光學字符識別 (OCR) 輸出的質量。通過利用尖端的自然語言處理技術和大型語言模型 (LLM),將原始 OCR 文本轉換為高度準確、格式良好且可讀的文檔成為可能。本篇文章將介紹一款在github上擁有1.7k star的開源實現工具LLM-Aided OCR。
特征
本項目支持以下功能:
- PDF 到圖像轉換
- 使用 Tesseract 進行 OCR
- 使用 LLM(本地或基于 API)進行高級錯誤更正
- 智能文本分塊,高效處理
- Markdown 格式選項
- 抑制頁眉和頁碼(可選)
- 最終輸出的質量評估
- 支持本地 LLM和基于云的 API 提供商(OpenAI、Anthropic)
- 異步處理以提高性能
- 用于流程跟蹤和調試的詳細日志記錄
- 用于本地 LLM 推理的 GPU 加速
工作原理
LLM 輔助 OCR 項目采用多步驟流程將原始 OCR 輸出轉換為高質量、可讀的文本:
- PDF 轉換:使用將輸入的 PDF 轉換為圖像?
?pdf2image?
?。 - OCR:應用 Tesseract OCR 從圖像中提取文本。
- 文本分塊:將原始 OCR 輸出分成可管理的塊進行處理。
- 錯誤更正:每個塊都經過基于 LLM 的處理,以糾正 OCR 錯誤并提高可讀性。
- Markdown 格式(可選):將更正后的文本重新格式化為干凈、一致的 Markdown。
- 質量評估:基于 LLM 的評估將最終輸出質量與原始 OCR 文本進行比較。
代碼優化
- 并發處理:使用基于 API 的模型時,會并發處理塊以提高速度。
- 上下文保存:每個塊與前一個塊有小的重疊,以維持上下文。
- 自適應token管理:系統根據輸入大小和模型約束動態調整用于 LLM 請求的token數量。
效果展示
原始文檔
OCR識別結果
LLM 校正的 Markdown 輸出
項目地址:
https://github.com/Dicklesworthstone/llm_aided_ocr
相比傳統的處理流程,需要使用大量的時間進行格式校對、格式調整;用了該工作后,直接一步到位了,輕松很多。代碼全開源,跑起來吧。
本文轉載自公眾號哎呀AIYA
原文鏈接:??https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA??
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦