成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG之PDF文件中多種格式數據解析實踐 原創

發布于 2024-7-2 11:15
瀏覽
0收藏

RAG 檢索增強生成由2部分構成:一是離線對異構的數據進行數據工程處理成知識,并存儲在知識庫中,二是基于用戶的提問進行知識庫的檢索增強。如下圖所示:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

其中最關鍵的一個環節是 PDF 格式的文件如何提取成知識,下面詳細剖析。

1、PDF 文件中文本數據如何提取?

能夠處理文本提取的 Python 庫有多個,其中較為知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在這些庫中,PyMuPDF 因其出色的文本提取能力而備受推崇。特別是在處理雙欄布局等復雜格式的 PDF 文件時,PyMuPDF 能夠最大程度地保留 PDF 的閱讀順序,這對于確保文本內容的準確性和完整性至關重要。

下面我們將以雙欄布局的 PDF 文件為例,展示使用 PyMuPDF 庫進行文字提取的效果。

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區


進行文本提取的代碼如下所示:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

打印的結果如下所示:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區


2、PDF 文件中表格數據如何提取?

在處理表格提取任務時,camelot 和 tabula 是兩個備受推崇的庫。它們各自在提取有線表和少線表(即含有較少分隔線的表格)方面展現出了良好的效果。接下來,我將分別以有線表為例,簡要介紹 camelot庫的使用。

camelot 是一個強大的 Python 庫,專門用于從 PDF 文件中提取表格數據。對于有線表,即表格中包含明確分隔線的表格,camelot 表現出色。通過指定 PDF 文件路徑和表格所在的頁面區域,camelot 能夠準確地識別并提取出表格中的數據,比如有線表原始數據:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區


使用 camelot 提取有線表的示例代碼如下:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區


表格數據的打印結果如下所示:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

3、掃描 PDF 的文本數據如何提取?

在從掃描的 PDF 文件中提取文本時,使用開源的 PaddleOCR,并且用 PPStructure 做版面的分析。我們還是以下面的 PDF 文件為例,不過這是 PDF 文件的掃描版。

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

提取文本的代碼如下:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區


RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

得到的結果如下所示:

RAG之PDF文件中多種格式數據解析實踐 -AI.x社區

圖中的左邊是根據給出的版面分析結果畫出來的,可以看出對雙欄 PDF 做了正確的解析。右邊是根據識別出來的文本以及文本的坐標畫出來的,可以看出基本上和左邊的版面以及內容是一致的。


本文轉載自公眾號玄姐聊AGI  作者:玄姐

原文鏈接:??https://mp.weixin.qq.com/s/fsntWsBQMZY2hjBXKAcC2w??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 九九久久久 | 久久一区 | 国产视频福利在线观看 | 毛片免费视频 | av黄色片在线观看 | 久久久国产精品 | 亚洲精品v | 91久久精品一区二区二区 | 国产成人精品免费 | 久久精品日 | 亚洲精品久久久 | www四虎com| 日韩欧美在线播放 | 亚洲 精品 综合 精品 自拍 | 男人的天堂久久 | 亚洲精品麻豆 | 天天舔天天| av影音在线 | 色精品视频 | 国产精品日韩在线观看 | 久久久久久亚洲精品 | 爱爱视频日本 | 日韩欧美一区二区三区 | 无码国模国产在线观看 | 午夜国产羞羞视频免费网站 | 欧美中文字幕在线观看 | 精久久久 | 亚洲国产精品自拍 | 国产99久久精品一区二区永久免费 | 天天操人人干 | 国产视频精品免费 | 欧美日韩一区二区视频在线观看 | 欧美三级在线 | japan21xxxxhd美女 日本欧美国产在线 | 欧美日韩亚洲一区二区 | jlzzxxxx18hd护士| 99日韩| 538在线精品 | 午夜专区 | 国产 日韩 欧美 在线 | www.亚洲一区二区 |