成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

顛覆傳統OCR輕松搞定復雜PDF的工具

發布于 2024-9-18 14:48
瀏覽
0收藏

LLM 輔助 OCR 項目是一個先進的系統,旨在顯著提高光學字符識別 (OCR) 輸出的質量。通過利用尖端的自然語言處理技術和大型語言模型 (LLM),將原始 OCR 文本轉換為高度準確、格式良好且可讀的文檔成為可能。本篇文章將介紹一款在github上擁有1.7k star的開源實現工具LLM-Aided OCR。

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區


特征

本項目支持以下功能:

  • PDF 到圖像轉換
  • 使用 Tesseract 進行 OCR
  • 使用 LLM(本地或基于 API)進行高級錯誤更正
  • 智能文本分塊,高效處理
  • Markdown 格式選項
  • 抑制頁眉和頁碼(可選)
  • 最終輸出的質量評估
  • 支持本地 LLM和基于云的 API 提供商(OpenAI、Anthropic)
  • 異步處理以提高性能
  • 用于流程跟蹤和調試的詳細日志記錄
  • 用于本地 LLM 推理的 GPU 加速

工作原理

LLM 輔助 OCR 項目采用多步驟流程將原始 OCR 輸出轉換為高質量、可讀的文本:

  1. PDF 轉換:使用將輸入的 PDF 轉換為圖像??pdf2image??。
  2. OCR:應用 Tesseract OCR 從圖像中提取文本。
  3. 文本分塊:將原始 OCR 輸出分成可管理的塊進行處理。
  4. 錯誤更正:每個塊都經過基于 LLM 的處理,以糾正 OCR 錯誤并提高可讀性。
  5. Markdown 格式(可選):將更正后的文本重新格式化為干凈、一致的 Markdown。
  6. 質量評估:基于 LLM 的評估將最終輸出質量與原始 OCR 文本進行比較。

代碼優化

  • 并發處理:使用基于 API 的模型時,會并發處理塊以提高速度。
  • 上下文保存:每個塊與前一個塊有小的重疊,以維持上下文。
  • 自適應token管理:系統根據輸入大小和模型約束動態調整用于 LLM 請求的token數量。

效果展示

原始文檔

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

OCR識別結果

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區

LLM 校正的 Markdown 輸出

顛覆傳統OCR輕松搞定復雜PDF的工具-AI.x社區


項目地址:

https://github.com/Dicklesworthstone/llm_aided_ocr

相比傳統的處理流程,需要使用大量的時間進行格式校對、格式調整;用了該工作后,直接一步到位了,輕松很多。代碼全開源,跑起來吧。


本文轉載自公眾號哎呀AIYA

原文鏈接:??https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美一区二区三区久久精品 | 欧美国产精品一区二区三区 | 二区久久 | 中文字幕一区二区三区四区不卡 | 国产精品女人久久久 | 精品成人在线视频 | 国产精品爱久久久久久久 | 国产精品1| 久草www | 岛国视频 | 婷婷久久网 | 久久人体 | 亚洲欧美日韩精品久久亚洲区 | 免费黄色录像片 | 午夜小电影 | 午夜激情免费视频 | 国产亚洲成av人片在线观看桃 | 欧美一级在线 | 老头搡老女人毛片视频在线看 | 韩国av网站在线观看 | 国产精品日日做人人爱 | 日韩精品成人一区二区三区视频 | 犬夜叉在线观看 | 高清色| 美女张开腿露出尿口 | 亚洲高清在线观看 | 国产精品久久久一区二区三区 | 亚洲一区中文字幕 | 精品在线一区二区三区 | 在线国产小视频 | 天天操夜夜爽 | 伊人影院在线观看 | 日韩高清中文字幕 | 日韩一区二区三区在线观看 | 久久久久成人精品 | 国产成人精品一区二区三区 | 国产亚洲一区二区精品 | 国产精品地址 | 亚洲欧美中文日韩在线v日本 | 日日草夜夜草 | 欧美激情国产精品 |