成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG項目必備!文檔解析神器MinerU:2.5萬星標!支持GPU加速,輕松應對復雜文檔 原創

發布于 2025-3-10 08:12
瀏覽
1收藏

我們都知道,對于RAG(檢索增強生成)的項目來說,構建知識庫的過程常常包含文檔的解析。文檔的解析效果直接影響到知識庫的質量,進而影響問答系統的質量。因此,一款好的PDF解析工具對于RAG項目的成功至關重要。

今天,向大家推薦一款由上海人工智能實驗室打造的智能文檔處理工具——MinerU。這款工具剛剛完成了新年大升級,在GitHub上已經獲得了超過2.5萬星標,甚至連谷歌工程師都在安利!

RAG項目必備!文檔解析神器MinerU:2.5萬星標!支持GPU加速,輕松應對復雜文檔-AI.x社區


獲取MinerU

  • MinerU官網:https://mineru.net/
  • MinerU代碼地址:https://github.com/opendatalab/MinerU
  • MinerU 線上demo入口:https://mineru.net/OpenSourceTools/Extractor

通過以上鏈接,你可以訪問MinerU的官方網站、獲取源代碼以及嘗試在線演示功能。

產品介紹

支持多種類型轉換

MinerU能夠輕松應對各種PDF文檔需求,包括考題、PPT、論文、教科書、圖書、雜志、筆記、新聞、研報等,并支持其他類型的文檔轉換為PDF后提取,如圖片、PPT和Word文檔。

支持多語言識別

跨語言識別,全球通用。目前支持中文(簡體和繁體)、英文、俄語、日語、韓語等多種語言。

多元素解析

精確解析多種元素,全面提取信息,包括文本、公式、表格、化學方程式、圖表等。

技術介紹

刪除頁眉、頁腳、腳注、頁碼等元素

精準識別版面元素,刪除頁眉/頁腳/腳注,同時保留正文內容。

識別圖片和表格,轉換為多模態的Markdown

MinerU能夠識別并轉換圖片和表格為多模態的Markdown格式。

解析數學公式、超長公式,轉換為Markdown格式

無論是簡單的數學公式還是復雜的超長公式,MinerU都能準確解析并轉換為Markdown格式。

保留原文檔的結構,包括標題、段落、列表等

MinerU能夠保留原文檔的結構,確保輸出的內容與原文件保持一致。

支持多種輸出格式

MinerU支持多種輸出格式,包括多模態與NLP的Markdown、按閱讀順序排序的JSON、含有豐富信息的中間格式等。

多平臺支持

MinerU兼容Windows、Linux和Mac平臺,支持CPU、GPU、NPU加速。

如何使用

本地運行

創建并激活Conda環境

conda create -n MinerU python=3.10
conda activate MinerU

安裝??magic-pdf??及其依賴

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安裝??modelscope??并下載模型

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py

配置??magic-pdf.json???: 配置文件會自動生成在用戶目錄下,文件名為??magic-pdf.json??。你可以根據需要修改配置文件中的功能開關:

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "{path}/models", # 這里的path默認會是模型下載下來的路徑,也可以挪動模型,修改路徑
    "layoutreader-model-dir": "{path}/layoutreader",
    "device-mode": "cpu", # 配置服務運行的基礎環境,如果是cpu環境就配置cpu,如果是gup cuda,這里就配置為cuda
    "layout-config": {
        "model": "layoutlmv3" // 使用layoutlmv3請修改為“layoutlmv3"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true // 公式識別功能默認是開啟的,如果需要關閉請修改此處的值為"false"
    },
    "table-config": {
        "model": "rapid_table", // 表格識別默認使用"rapid_table"這個速度最快,可以切換為"tablemaster"和"struct_eqtable"
        "enable": false, // 表格識別功能默認是開啟的,如果需要關閉請修改此處的值為"false"
        "max_time": 400
    },
    "config_version": "1.0.0"
}

使用Docker部署

下載Dockerfile

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile

構建Docker鏡像

docker build -t mineru:latest .

運行Docker容器

docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"

驗證安裝: 在容器內運行以下命令,驗證??magic-pdf??是否安裝成功:

magic-pdf --help

注意事項

  • 模型下載:??download_models.py??腳本會自動下載所需的模型文件,確保網絡連接正常。
  • 配置文件:??magic-pdf.json??文件中的配置項可以根據實際需求進行調整,例如關閉某些功能以節省資源。
  • Docker部署:如果使用GPU,請確保主機上已安裝NVIDIA驅動(大于12.1)和CUDA,并且Docker已配置為支持GPU。


本文轉載自公眾號AI 博物院 作者:longyunfeigu

原文鏈接:??https://mp.weixin.qq.com/s/PYZFqAcDtrd6Z-tvhOEYqg??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
標簽
已于2025-3-10 08:12:24修改
收藏 1
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 自拍 亚洲 欧美 老师 丝袜 | 久久伊人精品 | 国产成人综合在线 | 欧美日韩在线精品 | 国产午夜av片 | 日韩精品成人一区二区三区视频 | 中文字幕一区二区三区四区 | 国产精品视频一区二区三区, | 色99视频 | 亚洲人成在线播放 | 亚洲精品大片 | 美女午夜影院 | 人人草人人干 | 色综合av| 91av入口| 国内久久精品 | 人人草天天草 | 91在线电影| 精品区一区二区 | 国产精品久久久久久久免费观看 | 欧美在线a | 欧美精品日韩精品国产精品 | 亚洲成人免费 | 神马久久久久久久久久 | 天天综合网永久 | 伊人精品久久久久77777 | 国产毛片毛片 | 久久中文免费视频 | 成人亚洲精品 | 青青草一区 | www国产成人 | 久久人| 国产伊人精品 | 五月激情婷婷六月 | 国产黄色在线观看 | 成人区精品 | 午夜影院普通用户体验区 | 干干干日日日 | 亚洲一区二区免费看 | 黄色在线免费观看 | 国产午夜精品一区二区三区四区 |