成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步 原創(chuàng)

發(fā)布于 2025-2-10 09:24
瀏覽
0收藏

01、概述

在信息驅(qū)動(dòng)的時(shí)代,基于圖的RAG(Graph RAG)正迅速成為一種強(qiáng)大的工具,超越了傳統(tǒng)依賴向量存儲(chǔ)的RAG應(yīng)用。它不僅提供語義相似性檢索,更具備強(qiáng)大的推理能力。例如,向量存儲(chǔ)能輕松回答“XYZ公司去年的CFO是誰?”這種基于顯式信息的問題,但對于“XYZ公司哪兩位董事畢業(yè)于同一所學(xué)校?”這樣需要隱式推理的問題,圖RAG更勝一籌。

但問題在于,如何構(gòu)建圖數(shù)據(jù)庫以支持這種高級檢索?更進(jìn)一步,如何從復(fù)雜的年報(bào)中提取信息,為圖數(shù)據(jù)庫的構(gòu)建鋪平道路?

本文將重點(diǎn)探討年報(bào)信息的提取與轉(zhuǎn)化,尤其是如何將PDF轉(zhuǎn)化為Markdown這一工程關(guān)鍵環(huán)節(jié)。

02、PDF轉(zhuǎn)化為富文本:選擇正確的工具

PDF是信息存儲(chǔ)的常見格式,但年報(bào)中不僅有文本,還包括圖表、表格等關(guān)鍵信息。如何高效、準(zhǔn)確地將這些內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的富文本,直接決定了后續(xù)數(shù)據(jù)處理和圖數(shù)據(jù)庫構(gòu)建的質(zhì)量。

常用PDF處理工具評測

1) PyPDF2
對于大多數(shù)Python程序員來說,PyPDF2可能是處理PDF的首選工具。它的主要優(yōu)勢是快速、輕量化。然而,它的缺點(diǎn)也很明顯:提取的內(nèi)容缺乏結(jié)構(gòu)性,沒有區(qū)分標(biāo)題、列表或表格,這使得后續(xù)處理變得復(fù)雜。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

2) PyMuPDF4LLM
PyMuPDF4LLM是一個(gè)將PDF直接轉(zhuǎn)換為Markdown的工具,且保留了文本的結(jié)構(gòu)信息。Markdown格式的文本因其內(nèi)嵌的層次信息,被Langchain等框架廣泛支持。這種格式不僅方便分塊處理,還為數(shù)據(jù)存儲(chǔ)和檢索提供了更多維度的信息。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

然而,PyMuPDF4LLM在處理表格時(shí)表現(xiàn)不佳,提取結(jié)果往往與原始表格大相徑庭。

3) Dockling
Dockling由IBM Deep Search團(tuán)隊(duì)開發(fā),它在提取PDF內(nèi)容方面表現(xiàn)出色,尤其是在保留表格信息和文檔結(jié)構(gòu)方面。Dockling生成的Markdown包含占位符以標(biāo)記圖片,并且準(zhǔn)確保留了層級標(biāo)題和表格信息,這對創(chuàng)建塊結(jié)構(gòu)和圖數(shù)據(jù)庫非常有幫助。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

4) Marker
Marker是另一個(gè)優(yōu)秀的Markdown提取工具,在處理表格和復(fù)雜文檔時(shí)與Dockling不相上下。但性能和速度稍遜一籌。

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

03、性能比較:四種工具的優(yōu)劣勢

為了更直觀地比較這些工具,我們選取了包含文本、表格和圖片的年報(bào)片段,并測試了它們在不同頁數(shù)PDF上的處理速度。

測試結(jié)果

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

如何高效轉(zhuǎn)換PDF為Markdown:構(gòu)建優(yōu)質(zhì)Graph RAG的第一步-AI.x社區(qū)

分析與選擇

在性能和提取質(zhì)量之間存在顯著權(quán)衡:

  • 如果速度是首要考慮因素,PyPDF2是最佳選擇,但需額外處理提取內(nèi)容的結(jié)構(gòu)化問題。
  • 如果需要高質(zhì)量的表格和結(jié)構(gòu)信息,Dockling是最優(yōu)解,盡管其速度偏慢。

對于我們的年報(bào)處理項(xiàng)目,每份年報(bào)約300頁,使用Dockling處理50份年報(bào)需耗時(shí)17小時(shí)。如果擴(kuò)展到S&P500企業(yè)過去30年的年報(bào)(假設(shè)每年一份),單線程處理將耗時(shí)208天。

04、如何解決性能瓶頸

并行化處理與云服務(wù)
為了應(yīng)對大規(guī)模文檔處理需求,我們開發(fā)了一個(gè)云服務(wù),將PDF轉(zhuǎn)化工作分布到多個(gè)并行進(jìn)程中。

  • 并行處理:將年報(bào)分塊到多個(gè)處理節(jié)點(diǎn),利用云計(jì)算資源顯著提升效率。
  • 動(dòng)態(tài)擴(kuò)展:根據(jù)項(xiàng)目規(guī)模調(diào)整并行任務(wù)的數(shù)量,實(shí)現(xiàn)彈性擴(kuò)展。

這種方式不僅解決了單線程的速度限制,還為項(xiàng)目未來的擴(kuò)展提供了可行路徑。

05、最終解決方案:PDF到Markdown的轉(zhuǎn)化策略

結(jié)合以上測試結(jié)果與性能優(yōu)化方案,我們的最終工作流程如下:

  • 使用Dockling提取PDF內(nèi)容為Markdown,確保表格和結(jié)構(gòu)信息的完整性。
  • 將Markdown文件按邏輯分塊,為圖數(shù)據(jù)庫構(gòu)建提供更優(yōu)質(zhì)的數(shù)據(jù)源。
  • 通過并行化的云服務(wù)加速處理,滿足大規(guī)模數(shù)據(jù)處理需求。

06、結(jié)語

從PDF到Markdown的轉(zhuǎn)化是構(gòu)建圖RAG的第一步,而選擇合適的工具則是實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)提取的關(guān)鍵。盡管Dockling在速度上存在劣勢,但其卓越的提取質(zhì)量使其成為優(yōu)選工具。通過并行處理,我們克服了性能瓶頸,為構(gòu)建更智能、更高效的RAG系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。

未來,隨著技術(shù)的進(jìn)一步發(fā)展,PDF轉(zhuǎn)化工具的性能和準(zhǔn)確性有望進(jìn)一步提升。到那時(shí),Graph RAG的構(gòu)建過程將更加高效,為AI領(lǐng)域帶來更多創(chuàng)新應(yīng)用。


本文轉(zhuǎn)載自公眾號Halo咯咯    作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/YGdqMYnK-VENPvi5RLVsMg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久99视频 | 超碰人人插 | 欧美日韩精品久久久免费观看 | 国产黄色在线观看 | 午夜国产精品视频 | 国产一区二区美女 | 欧美综合一区二区三区 | 国产成人在线视频免费观看 | 免费一区 | 夜夜草 | 一级欧美 | 激情福利视频 | 一区二区三区视频在线观看 | 亚洲一区二区在线免费观看 | 国产精品一区二区久久精品爱微奶 | 日韩伦理一区二区三区 | 亚洲欧美一区二区三区视频 | 亚洲最大的黄色网址 | 国产精品久久久久久久午夜 | 国产 欧美 日韩 一区 | 九九综合九九 | 成人激情视频网 | 亚洲一区视频在线 | 国产精品日本一区二区在线播放 | 美女久久久久久久久 | 一级做a爰片性色毛片 | 自拍视频网| 夜夜艹| 狠狠视频 | 欧美激情精品久久久久久 | 99视频在线免费观看 | 精品国产亚洲一区二区三区大结局 | 五月槐花香 | 九色 在线| 欧美激情在线一区二区三区 | 中文字幕一区二区三区日韩精品 | 精品国产一区二区三区久久久久久 | 在线一区 | 亚洲一区二区三区四区在线观看 | 一区中文字幕 | 久久午夜视频 |