RAG項目必備!文檔解析神器MinerU:2.5萬星標!支持GPU加速,輕松應對復雜文檔 原創
我們都知道,對于RAG(檢索增強生成)的項目來說,構建知識庫的過程常常包含文檔的解析。文檔的解析效果直接影響到知識庫的質量,進而影響問答系統的質量。因此,一款好的PDF解析工具對于RAG項目的成功至關重要。
今天,向大家推薦一款由上海人工智能實驗室打造的智能文檔處理工具——MinerU。這款工具剛剛完成了新年大升級,在GitHub上已經獲得了超過2.5萬星標,甚至連谷歌工程師都在安利!
獲取MinerU
- MinerU官網:https://mineru.net/
- MinerU代碼地址:https://github.com/opendatalab/MinerU
- MinerU 線上demo入口:https://mineru.net/OpenSourceTools/Extractor
通過以上鏈接,你可以訪問MinerU的官方網站、獲取源代碼以及嘗試在線演示功能。
產品介紹
支持多種類型轉換
MinerU能夠輕松應對各種PDF文檔需求,包括考題、PPT、論文、教科書、圖書、雜志、筆記、新聞、研報等,并支持其他類型的文檔轉換為PDF后提取,如圖片、PPT和Word文檔。
支持多語言識別
跨語言識別,全球通用。目前支持中文(簡體和繁體)、英文、俄語、日語、韓語等多種語言。
多元素解析
精確解析多種元素,全面提取信息,包括文本、公式、表格、化學方程式、圖表等。
技術介紹
刪除頁眉、頁腳、腳注、頁碼等元素
精準識別版面元素,刪除頁眉/頁腳/腳注,同時保留正文內容。
識別圖片和表格,轉換為多模態的Markdown
MinerU能夠識別并轉換圖片和表格為多模態的Markdown格式。
解析數學公式、超長公式,轉換為Markdown格式
無論是簡單的數學公式還是復雜的超長公式,MinerU都能準確解析并轉換為Markdown格式。
保留原文檔的結構,包括標題、段落、列表等
MinerU能夠保留原文檔的結構,確保輸出的內容與原文件保持一致。
支持多種輸出格式
MinerU支持多種輸出格式,包括多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等。
多平臺支持
MinerU兼容Windows、Linux和Mac平臺,支持CPU、GPU、NPU加速。
如何使用
本地運行
創建并激活Conda環境:
conda create -n MinerU python=3.10
conda activate MinerU
安裝??magic-pdf?
?及其依賴:
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
安裝??modelscope?
?并下載模型:
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py
配置??magic-pdf.json?
??: 配置文件會自動生成在用戶目錄下,文件名為??magic-pdf.json?
?。你可以根據需要修改配置文件中的功能開關:
{
"bucket_info": {
"bucket-name-1": [
"ak",
"sk",
"endpoint"
]
},
"models-dir": "{path}/models", # 這里的path默認會是模型下載下來的路徑,也可以挪動模型,修改路徑
"layoutreader-model-dir": "{path}/layoutreader",
"device-mode": "cpu", # 配置服務運行的基礎環境,如果是cpu環境就配置cpu,如果是gup cuda,這里就配置為cuda
"layout-config": {
"model": "layoutlmv3" // 使用layoutlmv3請修改為“layoutlmv3"
},
"formula-config": {
"mfd_model": "yolo_v8_mfd",
"mfr_model": "unimernet_small",
"enable": true // 公式識別功能默認是開啟的,如果需要關閉請修改此處的值為"false"
},
"table-config": {
"model": "rapid_table", // 表格識別默認使用"rapid_table"這個速度最快,可以切換為"tablemaster"和"struct_eqtable"
"enable": false, // 表格識別功能默認是開啟的,如果需要關閉請修改此處的值為"false"
"max_time": 400
},
"config_version": "1.0.0"
}
使用Docker部署
下載Dockerfile:
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
構建Docker鏡像:
docker build -t mineru:latest .
運行Docker容器:
docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"
驗證安裝: 在容器內運行以下命令,驗證??magic-pdf?
?是否安裝成功:
magic-pdf --help
注意事項
- 模型下載:?
?download_models.py?
?腳本會自動下載所需的模型文件,確保網絡連接正常。 - 配置文件:?
?magic-pdf.json?
?文件中的配置項可以根據實際需求進行調整,例如關閉某些功能以節省資源。 - Docker部署:如果使用GPU,請確保主機上已安裝NVIDIA驅動(大于12.1)和CUDA,并且Docker已配置為支持GPU。
本文轉載自公眾號AI 博物院 作者:longyunfeigu
