成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="oqcio"><abbr id="oqcio"></abbr></abbr>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

RAG之PDF文件中多種格式數據解析實踐原創

發布于 2024-7-2 11:15

瀏覽

0收藏

RAG 檢索增強生成由2部分構成：一是離線對異構的數據進行數據工程處理成知識，并存儲在知識庫中，二是基于用戶的提問進行知識庫的檢索增強。如下圖所示：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

其中最關鍵的一個環節是 PDF 格式的文件如何提取成知識，下面詳細剖析。

1、PDF 文件中文本數據如何提取？

能夠處理文本提取的 Python 庫有多個，其中較為知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在這些庫中，PyMuPDF 因其出色的文本提取能力而備受推崇。特別是在處理雙欄布局等復雜格式的 PDF 文件時，PyMuPDF 能夠最大程度地保留 PDF 的閱讀順序，這對于確保文本內容的準確性和完整性至關重要。

下面我們將以雙欄布局的 PDF 文件為例，展示使用 PyMuPDF 庫進行文字提取的效果。

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

進行文本提取的代碼如下所示：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

打印的結果如下所示：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

2、PDF 文件中表格數據如何提取？

在處理表格提取任務時，camelot 和 tabula 是兩個備受推崇的庫。它們各自在提取有線表和少線表（即含有較少分隔線的表格）方面展現出了良好的效果。接下來，我將分別以有線表為例，簡要介紹 camelot庫的使用。

camelot 是一個強大的 Python 庫，專門用于從 PDF 文件中提取表格數據。對于有線表，即表格中包含明確分隔線的表格，camelot 表現出色。通過指定 PDF 文件路徑和表格所在的頁面區域，camelot 能夠準確地識別并提取出表格中的數據，比如有線表原始數據：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

使用 camelot 提取有線表的示例代碼如下：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

表格數據的打印結果如下所示：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

3、掃描 PDF 的文本數據如何提取？

在從掃描的 PDF 文件中提取文本時，使用開源的 PaddleOCR，并且用 PPStructure 做版面的分析。我們還是以下面的 PDF 文件為例，不過這是 PDF 文件的掃描版。

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

提取文本的代碼如下：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

得到的結果如下所示：

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

圖中的左邊是根據給出的版面分析結果畫出來的，可以看出對雙欄 PDF 做了正確的解析。右邊是根據識別出來的文本以及文本的坐標畫出來的，可以看出基本上和左邊的版面以及內容是一致的。

本文轉載自公眾號玄姐聊AGI 作者：玄姐

原文鏈接：??https://mp.weixin.qq.com/s/fsntWsBQMZY2hjBXKAcC2w??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

生成式AI大模型之提示詞工程實踐

數字化助推器 ? 3551瀏覽 ? 0回復
機器學習之特征工程深度解析

51CTO內容精選 ? 2903瀏覽 ? 0回復
Gptpdf：一個簡單巧妙的復雜Pdf解析工具，提升RAG效果

Syrupup ? 6034瀏覽 ? 0回復
從數據倉庫到數據飛輪：技術進化與實踐案例解析

wx6110dd2be671e ? 2691瀏覽 ? 0回復
輕松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 ? 5491瀏覽 ? 0回復
RAG增強之路：增強PDF解析并結構化技術路線方案及思路

大模型自然語言處理 ? 2770瀏覽 ? 0回復
【多模態&RAG】多模態RAG ColPali實踐

大模型自然語言處理 ? 2381瀏覽 ? 0回復
高效信息檢索新方法：LangChain中Retriever的多種高級策略

Halo咯咯 ? 3958瀏覽 ? 0回復
Agent實踐之如何在京東LLM落地

數字化助推器 ? 2626瀏覽 ? 0回復
高效抽取PDF文件打造RAG，從LlamaParse轉向PymuPDF4llm

AI科技論談 ? 3348瀏覽 ? 0回復
AI大模型實踐之字節0-1智能客服

數字化助推器 ? 2197瀏覽 ? 0回復
大模型之深入探索RAG流程

一起AI技術 ? 3072瀏覽 ? 0回復
大模型之深入了解Retrievers解析器

一起AI技術 ? 3395瀏覽 ? 0回復
模型訓練之數據集操作——矩陣變換

AI探索時代 ? 1890瀏覽 ? 0回復
Transformer中的位置編碼技術：從理論到實踐的深度解析！

南夏的算法驛站 ? 2199瀏覽 ? 0回復
MCP協議之MCP-server(sse方式)實踐

一起AI技術 ? 8694瀏覽 ? 0回復
十大PDF解析工具在不同文檔類別中的比較研究

大模型自然語言處理 ? 1803瀏覽 ? 0回復
Dify Sandbox實現文件路徑獲取與Excel數據處理

九歌AI大模型 ? 2751瀏覽 ? 0回復
開源的輕量化VLM-SmolVLM模型架構、數據策略及其衍生物PDF解析模型SmolDocling

大模型自然語言處理 ? 1414瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

AI 智能體架構設計三階段演進和三大關鍵技術對比剖析 3天前發布
AI 大模型應用落地到底選用單智能體架構還是多智能體架構？ 7天前發布

熱門推薦

一文搞定 AI 智能體架構設計的九大核心技術 0回復

性能提升90%，Anthropic 首次公開多智能體架構構建全流程 0回復

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

上一篇：大模型應用落地：如何選擇合適的 Embedding 模型？

下一篇：新RAG架構范式！DSPy將革命性改變RAG系統架構方式！！

社區精華內容

目錄

主站蜘蛛池模板：九九久久久 | 久久一区 | 国产视频福利在线观看 | 毛片免费视频 | av黄色片在线观看 | 久久久国产精品 | 亚洲精品v | 91久久精品一区二区二区 | 国产成人精品免费 | 久久精品日 | 亚洲精品久久久 | www四虎com| 日韩欧美在线播放 | 亚洲精品综合精品自拍 | 男人的天堂久久 | 亚洲精品麻豆 | 天天舔天天| av影音在线 | 色精品视频 | 国产精品日韩在线观看 | 久久久久久亚洲精品 | 爱爱视频日本 | 日韩欧美一区二区三区 | 无码国模国产在线观看 | 午夜国产羞羞视频免费网站 | 欧美中文字幕在线观看 | 精久久久 | 亚洲国产精品自拍 | 国产99久久精品一区二区永久免费 | 天天操人人干 | 国产视频精品免费 | 欧美日韩一区二区视频在线观看 | 欧美三级在线 | japan21xxxxhd美女日本欧美国产在线 | 欧美日韩亚洲一区二区 | jlzzxxxx18hd护士| 99日韩| 538在线精品 | 午夜专区 | 国产日韩欧美在线 | www.亚洲一区二区 |

<delect id="q8aa8"></delect>

<li id="q8aa8"><object id="q8aa8"></object></li>

<code id="q8aa8"><object id="q8aa8"></object></code>