成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節開源高精度文檔解析大模型Dolphin:輕量高效,性能超GPT4.1、Mistral-OCR!

人工智能 新聞
這款輕量級模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。

字節跳動剛剛開源一款全新文檔解析模型——Dolphin。

與目前市面上各類大模型相比,這款輕量級模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍

測試結果顯示,Dolphin在文檔解析任務上解析準確率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模態大模型,以及最近推出的號稱最強OCR大模型的Mistral-OCR等垂類大模型。

圖片

論文已被收錄于ACL 2025,項目鏈接可見文末。

突破性的兩階段解析方法

文檔圖像解析解決方案可以分為兩大流派:集成式方法以及端到端方法。

集成式方法在鏈路中組裝多個專家模型,端到端方法則利用視覺語言模型通過自回歸解碼直接生成結構化結果。

而Dolphin采用了全新的“先解析結構后解析內容”(analyze-then-parse)兩階段范式:

圖片


△Dolphin遵循一種基于編碼器-解碼器Transformer架構的分析-解析范式

  • 第一階段—文檔布局解析:按照自然閱讀順序生成文檔元素序列,即每個文檔元素的類別及其坐標。這里的文檔元素值得是標題、圖表、表格、腳注等。
  • 第二階段—元素內容解析:使用這些元素作為”錨點”,配合特定提示詞實現并行內容識別,從而完成整頁文檔的內容提取。

這種創新架構一箭雙雕,既避免了傳統商用方案中多OCR專家模型級聯帶來的錯誤累積問題,又克服了通用多模態大模型易丟失版面結構信息、自回歸解碼效率低的痛點。

因為獲取孤立的元素圖像(例如表格、公式)及其標注比收集包含多種元素的完整文檔頁面更可行,Dolphin的元素解耦解析策略在數據收集方面提供了獨特的優勢。

更輕量、更高效

圖片

△Dolphin與先進VLMs在基準測試中的比較

對于流行的基準測試,Dolphin在多種頁面級和元素級解析任務中達到了最先進的性能。

圖片△頁面級文檔解析的性能比較

盡管Dolphin具有輕量級架構(322M參數),但其性能優于基于集成的方法和更大的VLM。

“Plain Doc”代表僅包含文本內容的文檔,而“Complex Doc”包括包含混合元素(表格、公式和圖形)的文檔。

對于純文本文檔,Dolphin在英文和中文測試集上分別達到了0.0114和0.0131的編輯距離,優于垂類的VLM如GOT(編輯距離為0.035和0.038)和通用VLM如GPT-4.1(編輯距離為0.0489和0.2549)。

在處理包含表格、公式、圖像等混合元素的文檔時,Dolphin達到了0.1283的編輯距離,優于所有基線

此外,憑借并行解析設計,Dolphin展示了顯著的效率提升,達到了0.1729FPS,比最有效的基線(Mathpix,0.0944FPS)快近2倍。

圖片

△文本段落、公式和表格的元素級解析性能比較

對于文本段落解析,Dolphin在Fox-Block和Dolphin-Block測試集上都取得了具有競爭力的結果。

在公式識別方面,Dolphin在不同復雜度級別(SPE、SCE和CPE)上都展現出強大的能力,取得了與專業公式識別方法相當的具有競爭力的CDM分數。

對于表格解析,Dolphin在PubTabNet和PubTab1M基準測試上顯示出有前景的結果,有效地捕捉了結構關系和單元格內容。

在文本段落、公式和表格上這些持續強勁的結果展示了Dolphin在基礎識別任務中的具有競爭力的性能。

實際案例展示

下面通過幾個實際案例,直觀展示Dolphin的文檔解析能力:

無論是多欄學術論文、復雜公式、中英表格,Dolphin都能精準識別、高效處理。

圖片

△Dolphin的頁面級解析結果可視化

  • 左:第一階段布局分析,包含預測的元素邊界和閱讀順序。
  • 中:第二階段特定元素的解析輸出。
  • 右:最終以markdown格式渲染的文檔。
圖片

△Dolphin在各種場景下的元素級解析演示

頂部行顯示輸入圖像,底部行顯示相應的識別結果。

  • 左:復雜布局中的文本段落解析。
  • 中:雙語文本段落識別。
  • 右:復雜表格解析(顯示渲染結果)。

圖片

△Dolphin的其他功能

  • 左:從給定的邊界框區域中解析文本內容。
  • 右:文本識別結果,顯示了檢測到的文本行(在圖像中可視化)及其內容。

Demo:http://115.190.42.15:8888/dolphin/

Github:https://github.com/bytedance/DolphinHugging Face:https://huggingface.co/ByteDance/Dolphin論文:https://arxiv.org/abs/2505.14059

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-05-26 16:46:38

2025-05-23 09:14:57

2025-03-10 18:50:57

2025-04-15 09:50:06

2024-02-27 13:38:16

微軟OpenAI模型

2025-04-15 07:41:18

2025-05-30 08:11:30

2025-06-11 08:54:52

2025-04-16 09:35:03

2025-05-15 10:50:46

2024-03-04 00:00:00

GemmaAI模型

2022-03-21 15:06:10

模型字節跳動框架

2022-03-21 17:56:59

大模型訓練訓練框架

2025-05-15 09:34:39

2024-01-08 08:23:08

OpenCV機器學習計算機視覺

2023-09-11 15:57:16

人工智能模型GPT-4

2021-10-13 17:21:13

模型人工智能開源

2025-04-15 08:51:05

2023-12-25 13:24:00

模型OCR頁面

2024-02-19 13:45:14

OpenAIGPT-2模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲成人国产 | 插插插干干干 | 欧美专区日韩 | 精品国产黄a∨片高清在线 成人区精品一区二区婷婷 日本一区二区视频 | 91精品国产乱码麻豆白嫩 | 久久九九网站 | 操网站| 精品成人在线视频 | 亚洲欧美网站 | 日韩中文一区二区 | 黄色网络在线观看 | 国产精品久久久久久久久久免费看 | 亚洲视频在线观看 | 中文字幕色站 | 日韩一级欧美一级 | 国产精品毛片一区二区三区 | 国产一区亚洲 | 福利一区二区 | 成人在线一区二区 | 日本精品一区二区 | av天天干| 人人澡视频 | 久久精品av麻豆的观看方式 | 99在线观看视频 | 久久久久久999 | 午夜寂寞影院在线观看 | 亚洲国产精品激情在线观看 | 新超碰97 | www.99re | 亚洲国产成人精品女人 | 超碰精品在线观看 | 国产精品成人一区 | 伊人久久在线观看 | 欧美久久免费观看 | 美国a级毛片免费视频 | 免费视频一区 | 妹子干综合| 欧美精品一区二区三 | 亚洲www| 狠狠爱综合 | 毛片高清 |