成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節開源Dolphin文檔解析模型-部署指南+實戰測試

發布于 2025-6-11 06:39
瀏覽
0收藏

在數字化辦公席卷全球的今天,文檔解析技術已成為企業數字化轉型的關鍵瓶頸。面對海量的合同、報告、論文等文檔資料,傳統解決方案要么速度緩慢,要么錯誤百出。5月22日,字節跳動開源的全新文檔解析模型Dolphin橫空出世,憑借僅322M參數的輕量級架構,在性能上實現了對GPT-4.1、Claude3.5等重量級模型的全面超越!

github: https://github.com/bytedance/Dolphin

在線Demo:  http://115.190.42.15:8888/dolphin

下面開始部署指南:

一、安裝依賴環境

# 下載代碼

git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin


# 創建虛擬環境
conda create -n Dolphin  python=3.11

# 激活虛擬環境
conda activate Dolphin 


# 安裝uv

pip install uv -i https://pypi.tuna.tsinghua.edu.cn/simple/


# 修改numpy版本
先修改requirements.txt文件,否則會報錯,報錯信息放在了文末:
把numpy==1.24.4  改為  numpy==1.26.0


# 安裝requirements.txt依賴包

uv pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple/

二、下載模型權重

選項A:原始模型格式(基于配置)

從百度云或谷歌驅動器下載,并將它們放在。/checkpoint文件夾中。

百度網盤:??https://pan.baidu.com/share/init?surl=5zcARoX0CTOHKbW8bFZovQ&pwd=9rpx??

谷歌云盤:??https://drive.google.com/drive/folders/1PQJ3UutepXvunizZEw-uGaQ0BCzf-mie??

選項B:Huggingface模型格式

huggingface模型地址:??https://huggingface.co/ByteDance/Dolphin??

魔搭的模型地址:??https://www.modelscope.cn/models/ByteDance/Dolphin??

#從Hugging Face Hub下載模型

Git LFS安裝

git clone https://huggingface.co/ByteDance/Dolphin ./hf_model

本文采用選項A:原始模型格式,百度網盤下載模型權重,放入checkpoints 目錄中;

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

三、實戰測試效果

模型推理的配置文件:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

1、頁面級解析(Page-level Parsing)

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

解析單個文檔圖片(page_1.jpeg)

python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs/page_1.jpeg --save_dir ./results

輸出結果:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

顯存占用量高達15g多;

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

處理一個目錄中的所有文檔圖像

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

json和md文件都會生成一份;

python demo_page.py --config ./config/Dolphin.yaml --input_path ./demo/page_imgs --save_dir ./results

運行日志截圖:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

顯存截圖:顯存占用量最高達到17g;

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

2、元素級解析(Element-level Parsing)

Using Original Framework (config-based)

# Process a single table image
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table

# Process a single formula image
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula

# Process a single text paragraph image
python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text

# Process a single table image 顯存截圖

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

# Process a single formula image  顯存截圖

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

1、單個段落處理

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

結果:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

2、單個表格處理

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

結果:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

把md文件,在線解析一下看看,表格還原程度如何:

模型解析的md結果:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

原始圖片的:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

結果竟然是正確的,效果很厲害!

3、單行公式處理

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

結果:

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

字節開源Dolphin文檔解析模型-部署指南+實戰測試-AI.x社區

部署中常見的錯誤:

numpy==1.24.4  與opencv-pythnotallow==4.11.0.86 版本沖突的報錯信息:

and opencv-pythnotallow==4.11.0.86 depends on numpy>=1.26.0, we can conclude that opencv-pythnotallow==4.11.0.86 depends on numpy>=1.26.0.

And because you require numpy==1.24.4 and opencv-pythnotallow==4.11.0.86, we can conclude that your requirements are unsatisfiable.

解決方案:

修改numpy版本

先修改requirements.txt文件:

把numpy==1.24.4  改為  numpy==1.26.0

總結:本文手把手教學,從零開始安裝Dolphin項目,使用官方示例代碼,測試過程中發現,元素級解析顯存占用5G左右,頁面級解析顯存占用到達17G,這個確實令人驚訝,不過看著效果還可以的,尤其是表格解析,挺不錯的,快來一起本地部署使用吧!

本文轉載自??????AI小新??????,作者:AI小新

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 97精品国产97久久久久久免费 | 欧美视频精品 | 亚洲一区免费 | 亚洲国产精品久久久久婷婷老年 | 天天亚洲 | 99视频久| 久久久免费毛片 | a级毛片免费高清视频 | 国产美女视频黄a视频免费 国产精品福利视频 | 一级欧美日韩 | 成人一级黄色毛片 | 国产精品久久久久久久久免费相片 | 国产一区二区三区在线看 | 欧美黄页 | 91福利在线观看 | 欧洲一区二区三区 | 免费欧美| 日本不卡免费新一二三区 | 午夜电影在线播放 | 欧美不卡在线 | 毛片网站在线观看视频 | 操皮视频 | 中文字幕综合 | 国产av毛片 | 成人九区 | 日韩激情在线 | 国产精产国品一二三产区视频 | 性国产丰满麻豆videosex | 久久久国产一区 | 在线成人福利 | 久久综合狠狠综合久久综合88 | 四季久久免费一区二区三区四区 | 不卡av电影在线播放 | 精品视频国产 | 久草中文在线 | 99reav| 欧美一a一片一级一片 | 中文字幕一级毛片视频 | 亚洲精品视频在线 | 欧美精品一区二区三区在线 | 国产剧情一区二区三区 |