字節開源高精度文檔解析大模型Dolphin:輕量高效,性能超GPT4.1、Mistral-OCR!
字節跳動剛剛開源一款全新文檔解析模型——Dolphin。
與目前市面上各類大模型相比,這款輕量級模型不僅體積小、速度快,并且取得了令人驚艷的性能突破,解析效率提升近2倍。
測試結果顯示,Dolphin在文檔解析任務上解析準確率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模態大模型,以及最近推出的號稱最強OCR大模型的Mistral-OCR等垂類大模型。
論文已被收錄于ACL 2025,項目鏈接可見文末。
突破性的兩階段解析方法
文檔圖像解析解決方案可以分為兩大流派:集成式方法以及端到端方法。
集成式方法在鏈路中組裝多個專家模型,端到端方法則利用視覺語言模型通過自回歸解碼直接生成結構化結果。
而Dolphin采用了全新的“先解析結構后解析內容”(analyze-then-parse)兩階段范式:
△Dolphin遵循一種基于編碼器-解碼器Transformer架構的分析-解析范式
- 第一階段—文檔布局解析:按照自然閱讀順序生成文檔元素序列,即每個文檔元素的類別及其坐標。這里的文檔元素值得是標題、圖表、表格、腳注等。
- 第二階段—元素內容解析:使用這些元素作為”錨點”,配合特定提示詞實現并行內容識別,從而完成整頁文檔的內容提取。
這種創新架構一箭雙雕,既避免了傳統商用方案中多OCR專家模型級聯帶來的錯誤累積問題,又克服了通用多模態大模型易丟失版面結構信息、自回歸解碼效率低的痛點。
因為獲取孤立的元素圖像(例如表格、公式)及其標注比收集包含多種元素的完整文檔頁面更可行,Dolphin的元素解耦解析策略在數據收集方面提供了獨特的優勢。
更輕量、更高效
△Dolphin與先進VLMs在基準測試中的比較
對于流行的基準測試,Dolphin在多種頁面級和元素級解析任務中達到了最先進的性能。
△頁面級文檔解析的性能比較
盡管Dolphin具有輕量級架構(322M參數),但其性能優于基于集成的方法和更大的VLM。
“Plain Doc”代表僅包含文本內容的文檔,而“Complex Doc”包括包含混合元素(表格、公式和圖形)的文檔。
對于純文本文檔,Dolphin在英文和中文測試集上分別達到了0.0114和0.0131的編輯距離,優于垂類的VLM如GOT(編輯距離為0.035和0.038)和通用VLM如GPT-4.1(編輯距離為0.0489和0.2549)。
在處理包含表格、公式、圖像等混合元素的文檔時,Dolphin達到了0.1283的編輯距離,優于所有基線。
此外,憑借并行解析設計,Dolphin展示了顯著的效率提升,達到了0.1729FPS,比最有效的基線(Mathpix,0.0944FPS)快近2倍。
△文本段落、公式和表格的元素級解析性能比較
對于文本段落解析,Dolphin在Fox-Block和Dolphin-Block測試集上都取得了具有競爭力的結果。
在公式識別方面,Dolphin在不同復雜度級別(SPE、SCE和CPE)上都展現出強大的能力,取得了與專業公式識別方法相當的具有競爭力的CDM分數。
對于表格解析,Dolphin在PubTabNet和PubTab1M基準測試上顯示出有前景的結果,有效地捕捉了結構關系和單元格內容。
在文本段落、公式和表格上這些持續強勁的結果展示了Dolphin在基礎識別任務中的具有競爭力的性能。
實際案例展示
下面通過幾個實際案例,直觀展示Dolphin的文檔解析能力:
無論是多欄學術論文、復雜公式、中英表格,Dolphin都能精準識別、高效處理。
△Dolphin的頁面級解析結果可視化
- 左:第一階段布局分析,包含預測的元素邊界和閱讀順序。
- 中:第二階段特定元素的解析輸出。
- 右:最終以markdown格式渲染的文檔。
△Dolphin在各種場景下的元素級解析演示
頂部行顯示輸入圖像,底部行顯示相應的識別結果。
- 左:復雜布局中的文本段落解析。
- 中:雙語文本段落識別。
- 右:復雜表格解析(顯示渲染結果)。
△Dolphin的其他功能
- 左:從給定的邊界框區域中解析文本內容。
- 右:文本識別結果,顯示了檢測到的文本行(在圖像中可視化)及其內容。
Demo:http://115.190.42.15:8888/dolphin/
Github:https://github.com/bytedance/DolphinHugging Face:https://huggingface.co/ByteDance/Dolphin論文:https://arxiv.org/abs/2505.14059