成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MinerU一款全能、開源的文檔與網(wǎng)頁數(shù)據(jù)提取工具

開源
MinerU 是一款強大且多功能的數(shù)據(jù)提取工具,它能夠幫助用戶從各種文檔中提取高質(zhì)量的數(shù)據(jù),特別適合于AI研究和大數(shù)據(jù)模型訓練。盡管存在一些局限性,但其開源特性和持續(xù)的社區(qū)支持使其成為一個值得關(guān)注和嘗試的工具。?

MinerU 是一款由上海人工智能實驗室OpenDataLab團隊發(fā)布的全能、開源的文檔與網(wǎng)頁數(shù)據(jù)提取工具。它能夠?qū)瑘D片、表格、公式等元素的多模態(tài)PDF文檔轉(zhuǎn)化為清晰、易于分析的Markdown格式,同時也支持從包含廣告等干擾信息的網(wǎng)頁中快速解析、抽取正式內(nèi)容,并將其批量轉(zhuǎn)化為Markdown格式。

圖片

一、主要特點

多功能性:MinerU 包含兩個主要部分:Magic-PDF和Magic-Doc,分別負責PDF文檔提取和網(wǎng)頁與電子書提取。

多模態(tài)處理:Magic-PDF能夠處理PDF中的圖像、表格、公式等多種內(nèi)容類型,并保留原文檔的結(jié)構(gòu)和格式。

高質(zhì)量解析:MinerU使用了先進的模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以確保數(shù)據(jù)提取的高準確度。

廣泛的應用場景:適用于學術(shù)、財務、法律等多個領(lǐng)域,并支持多達176種語言的準確識別。

跨平臺支持:能夠在Windows、Linux和Mac平臺上運行,并支持CPU和GPU環(huán)境。

圖片

二、使用場景

MinerU 適用于需要從復雜格式的文檔中提取數(shù)據(jù)的場景,尤其適合于AI研究和大模型訓練中處理大量非結(jié)構(gòu)化數(shù)據(jù)的需求。

三、技術(shù)細節(jié)

圖片

PDF文檔提取:MinerU的PDF提取過程包括PDF文檔分類預處理、模型解析和管線處理等環(huán)節(jié)。它能夠識別和處理文本型、圖層型和掃描版的PDF文檔,并通過一系列深度學習模型進行版面分析、OCR和公式識別。

網(wǎng)頁與電子書提取:Magic-Doc能夠從多種類型的網(wǎng)頁和電子書中提取信息,支持包括epub、mobi在內(nèi)的多種格式,并能夠處理文章、論壇、音樂、視頻等內(nèi)容類型。

圖片

四、快速安裝與使用

CPU Demo

# 1. 安裝依賴
conda create -n MinerU pythnotallow=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple


# 2. 下載模型權(quán)重文件
# 根據(jù)官方文檔(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作


# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 編輯 ~/magic-pdf.json,設(shè)置正確的模型文件路徑


# 4. 開始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

Docker 快速部署

# 檢查您的設(shè)備是否支持Docker上的CUDA加速。
docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi


# 運行 docker 部署
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .
docker run --rm -it --gpus=all mineru:latest /bin/bash
magic-pdf --help

更多使用方式,請查閱如下提供地址

總結(jié)

MinerU 是一款強大且多功能的數(shù)據(jù)提取工具,它能夠幫助用戶從各種文檔中提取高質(zhì)量的數(shù)據(jù),特別適合于AI研究和大數(shù)據(jù)模型訓練。盡管存在一些局限性,但其開源特性和持續(xù)的社區(qū)支持使其成為一個值得關(guān)注和嘗試的工具。

體驗鏈接: https://opendatalab.com/OpenSourceTools/Extractor/PDF

開源倉庫:https://github.com/opendatalab/MinerU/

MinerU開源模型(PDF-Extract-Kit): https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit

責任編輯:龐桂玉 來源: 頂層架構(gòu)領(lǐng)域
相關(guān)推薦

2023-06-08 08:46:37

Motrix下載工具

2025-04-07 08:10:00

2020-02-17 07:20:22

SSH遠程連接工具Linux

2023-07-11 08:30:56

2024-12-31 09:17:05

開源小程序

2024-02-23 08:13:25

Excalidraw白板工具開源

2015-09-23 17:39:52

Github開源工具

2015-09-28 09:56:17

Github開源工具編程

2021-06-09 09:52:29

開源Pyroscope代碼

2015-08-07 09:44:36

開源數(shù)據(jù)中心

2024-08-16 08:31:05

2024-03-06 08:26:29

2016-12-15 15:08:38

HTML文檔工具

2021-07-23 16:50:19

httpJava框架

2022-09-08 09:00:38

Ansible開源

2019-08-02 14:45:22

阿里Java命令

2016-02-15 11:44:23

源碼開源項目watch

2025-04-10 09:10:00

.NET開源Windows

2020-02-28 10:10:07

開源技術(shù) 工具

2022-05-24 15:03:44

開源工具可視化
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩三级 | 国产人久久人人人人爽 | 日韩中文在线视频 | 午夜影院在线观看 | 国产精品国产成人国产三级 | 精品欧美一区二区在线观看欧美熟 | 国产精品久久久久久久久久不蜜臀 | av中文在线 | 天天干免费视频 | 久草欧美视频 | 国产欧美一区二区三区日本久久久 | 国产精品日韩欧美一区二区 | 欧美黄色大片在线观看 | 亚洲国产精品一区 | 久久99这里只有精品 | 免费黄色片在线观看 | 中文字幕在线视频精品 | 日韩在线一区二区三区 | 99视频免费播放 | 成人自拍视频网站 | 欧美在线视频一区 | 成人福利电影 | 国产午夜亚洲精品不卡 | 成人高潮片免费视频欧美 | 成人在线一区二区 | 午夜av免费| 精品国产一区二区久久 | 亚洲精品一区二区三区四区高清 | 日韩一区二区三区四区五区六区 | 中文无码日韩欧 | www.国产 | 国产精品久久久久久久免费大片 | 99在线免费视频 | 天天综合干 | 在线免费观看黄网 | 国产欧美日韩一区二区三区在线 | 欧美亚洲高清 | www久久久| 在线视频中文字幕 | 日本理论片好看理论片 | 久久99精品久久久久婷婷 |