顛覆傳統OCR輕松搞定復雜PDF的工具

發布于 2024-9-18 14:48

瀏覽

0收藏

LLM 輔助 OCR 項目是一個先進的系統，旨在顯著提高光學字符識別 (OCR) 輸出的質量。通過利用尖端的自然語言處理技術和大型語言模型 (LLM)，將原始 OCR 文本轉換為高度準確、格式良好且可讀的文檔成為可能。本篇文章將介紹一款在github上擁有1.7k star的開源實現工具LLM-Aided OCR。

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

特征

本項目支持以下功能：

PDF 到圖像轉換
使用 Tesseract 進行 OCR
使用 LLM（本地或基于 API）進行高級錯誤更正
智能文本分塊，高效處理
Markdown 格式選項
抑制頁眉和頁碼（可選）
最終輸出的質量評估
支持本地 LLM和基于云的 API 提供商（OpenAI、Anthropic）
異步處理以提高性能
用于流程跟蹤和調試的詳細日志記錄
用于本地 LLM 推理的 GPU 加速

工作原理

LLM 輔助 OCR 項目采用多步驟流程將原始 OCR 輸出轉換為高質量、可讀的文本：

PDF 轉換：使用將輸入的 PDF 轉換為圖像??pdf2image??。
OCR：應用 Tesseract OCR 從圖像中提取文本。
文本分塊：將原始 OCR 輸出分成可管理的塊進行處理。
錯誤更正：每個塊都經過基于 LLM 的處理，以糾正 OCR 錯誤并提高可讀性。
Markdown 格式（可選）：將更正后的文本重新格式化為干凈、一致的 Markdown。
質量評估：基于 LLM 的評估將最終輸出質量與原始 OCR 文本進行比較。

代碼優化

并發處理：使用基于 API 的模型時，會并發處理塊以提高速度。
上下文保存：每個塊與前一個塊有小的重疊，以維持上下文。
自適應token管理：系統根據輸入大小和模型約束動態調整用于 LLM 請求的token數量。

效果展示

原始文檔

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

OCR識別結果

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

LLM 校正的 Markdown 輸出

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

項目地址：

https://github.com/Dicklesworthstone/llm_aided_ocr

相比傳統的處理流程，需要使用大量的時間進行格式校對、格式調整；用了該工作后，直接一步到位了，輕松很多。代碼全開源，跑起來吧。

本文轉載自公眾號哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA??

標簽

自然語言處理技術

大型語言模型

光學字符識別

贊

回復

舉報

回復

相關推薦

無需架構變化+復雜微調，輕松擴展8倍

duhorse ? 3612瀏覽 ? 0回復
北大快手攻克復雜視頻生成難題！新框架輕松組合各種細節，代碼將開源

Crystalcxt ? 3068瀏覽 ? 0回復
Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果

Syrupup ? 6039瀏覽 ? 0回復
揭秘YOLO-World：顛覆傳統，開啟實時開放詞匯檢測新時代

sword_hero ? 5594瀏覽 ? 0回復
好萊塢級視頻模型：4種混合模型，顛覆傳統生成方法

Aceryt ? 2648瀏覽 ? 0回復
利用LlamaIndex和本地PDF文檔，輕松打造知識圖譜GraphRAG

小虎哦哦 ? 4298瀏覽 ? 0回復
如何利用RAG+Agent輕松解決企業復雜問題？

玄姐聊AGI ? 2913瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 5495瀏覽 ? 0回復
Ollama，本地運行大模型最強工具，輕松上手

小虎哦哦 ? 1.0w瀏覽 ? 0回復
Agent遇上4萬個工具？一個Token搞定！

探索AGI ? 2481瀏覽 ? 0回復
微軟亞洲研究院2025六大預測：AI Agents 將顛覆傳統工作模式

AIGC新知 ? 2419瀏覽 ? 0回復
顛覆傳統搜索方式！向量相似性與圖數據庫的強強聯合

Halo咯咯 ? 2746瀏覽 ? 0回復
剛剛，OpenAI發布NextGenAI，徹底顛覆傳統教育

Aceryt ? 2062瀏覽 ? 0回復
支持GPU加速，輕松應對復雜文檔

AI博物院 ? 6914瀏覽 ? 0回復
DeepSeek如何顛覆傳統軟件測試？測試工程師會被淘汰嗎？

mb67d4200f74d5e ? 1527瀏覽 ? 0回復
Cursor 們搞定開發， 8 款 AI 測試工具助你打造高效研發閉環！

凝固的雨_1 ? 3246瀏覽 ? 0回復
顛覆傳統渲染：實時云渲染技術的五大核心優勢與產業變革

AI算力補給站 ? 1733瀏覽 ? 0回復
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 1812瀏覽 ? 0回復
AI agent如何顛覆傳統軟件？深入解析軟件進化史

Halo咯咯 ? 1151瀏覽 ? 0回復

恰似驚鴻

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

顛覆傳統OCR輕松搞定復雜PDF的工具

特征

工作原理

代碼優化

效果展示

目錄