成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Allenai開源多模態的文檔智能解析大模型(Olmocr)方法、效果淺析

人工智能
如果是下游rag文檔的元素不是特別復雜可以用一用這個端到端的多模態模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結合prompt結合的方式值得一看。

先說結論,實際體驗一般,如果是下游rag文檔的元素不是特別復雜可以用一用這個端到端的多模態模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結合prompt結合的方式值得一看。

  • 在線demo:https://olmocr.allenai.org/
  • 開源權重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview
  • paper:Efficient PDF Text Extraction with Vision Language Models,https://arxiv.org/pdf/2502.18443v1
  • code:https://github.com/allenai/olmocr

筆者測試case:

原圖原圖

OLMOCR解析后,紅色框表格缺失部分OLMOCR解析后,紅色框表格缺失部分

核心問題與背景

PDF文檔蘊含海量高質量文本數據,但因其復雜的視覺布局(多欄、表格、公式等)和元數據缺失,傳統OCR工具難以準確提取內容。現有解決方案存在以下痛點:

  • pipline系統(如Grobid)依賴多組件串聯,對復雜布局泛化性差;

pipline系統pipline系統

  • 端到端模型(如Nougat)僅依賴圖像輸入,忽略PDF原生元數據,成本高昂(如GPT-4o處理百萬頁需$6,200);
  • 數據稀缺:缺乏大規模、多樣化的PDF訓練數據。

OLMOCR創新點

  1. DOCUMENT-ANCHORING技術

圖片圖片

PromptPrompt

如:原圖:圖片通過pdfpaser得到元數據拼接提示詞得到:

圖片圖片

  • 兼容性:對無元數據的掃描文檔仍保持高精度,僅依賴圖像輸入。
  • 元數據提取:通過pypdf庫解析PDF結構,提取關鍵元素的位置信息,動態注入模型提示(Prompt)。
  • 多模態輸入融合(通過提示詞):同時利用PDF原生元數據(文本塊坐標、圖像位置)和頁面圖像,顯著減少模型幻覺。
  1. 蒸餾模型
  • 模型架構:基于Qwen2-VL-7B-Instruct微調,支持Markdown結構化輸出(公式LaTeX、表格Markdown)。
  • 訓練數據:構建olmOCR-mix-0225數據集(26萬頁PDF),涵蓋學術論文、法律文件、手冊等多樣化來源(表1-2)。圖片

實驗結果

與教師模型GPT-4o的文本對齊度達87.5%,優于GPT-4o mini(83.3%)。溫度(τ=0.8)下對齊度略降(85.9%),但減少生成重復。

圖片圖片

在2,017份PDF的對比測試中,OLMOCR以ELO 1800+顯著優于Marker、MinerU等工具(圖6)。使用OLMOCR數據微調OLMo-2模型,在MMLU、ARC等基準上平均提升1.3%。

圖片圖片


責任編輯:武曉燕 來源: 大模型自然語言處理
相關推薦

2024-12-12 00:25:09

2025-01-08 08:21:16

2023-08-14 07:20:10

2024-03-25 12:40:19

訓練模型

2024-01-22 13:59:00

模型訓練

2023-05-28 23:26:16

多模態機器學習大腦

2024-07-12 11:35:20

2024-10-28 08:55:19

2024-04-02 09:17:50

AI數據開源

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-10 12:11:18

2024-12-30 00:01:00

多模態大模型Python

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-03-19 09:30:00

2024-09-25 14:53:00

2024-05-17 16:02:00

2023-12-25 13:24:00

模型OCR頁面

2025-04-25 02:30:00

機械臂大模型多模態
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: se婷婷 | 亚洲国产一区二区三区四区 | 国产99精品 | 中文字幕丁香5月 | 亚洲国产高清高潮精品美女 | 国产1区2区| www.狠狠干| 中文字幕动漫成人 | 天天干夜夜操 | a天堂在线| 精品欧美乱码久久久久久 | 久久久久久久久久久久久9999 | 欧美a免费 | 亚洲色图第一页 | 色综合天天天天做夜夜夜夜做 | 欧美精品一区二区蜜桃 | 亚洲精品在线看 | 奇米久久 | 嫩草研究影院 | 国产精品久久久99 | www亚洲免费国内精品 | 精品欧美一区二区三区久久久 | 成人国产免费视频 | 成人免费视频一区 | 久久精品亚洲精品国产欧美kt∨ | 久久久久久国产精品免费免费狐狸 | 国产精品国产三级国产a | 99久久久99久久国产片鸭王 | 亚洲精品视频久久 | 欧美一区二不卡视频 | 日韩av在线一区二区三区 | 国产高清精品在线 | 亚洲天堂一区二区 | 精品国产一区二区三区免费 | 色狠狠一区 | 午夜影视网 | 日本不卡在线视频 | 日本黄色影片在线观看 | av毛片在线免费观看 | 欧美一区二区三区在线播放 | 日本久久精品视频 |