字節開源Dolphin,高精度文檔圖像解析大模型,創新先分析后解析新范式
在數字時代,從掃描文檔、圖片等非結構化數據中高效、準確地提取結構化信息,是人工智能領域長期面臨的挑戰。無論是復雜的表格、交織的文本段落,還是難以識別的數學公式,都對文檔解析技術提出了嚴苛要求。傳統的解決方案往往依賴于多個專業模型的串聯,不僅集成成本高昂,還容易在處理過程中累積誤差 。而一些通用多模態大模型在直接自回歸生成頁面內容時,也常遭遇效率瓶頸和關鍵布局信息丟失的問題 。
正是在這樣的背景下,一個名為 Dolphin(全稱:Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting)的創新多模態文檔圖像解析模型應運而生。這項研究成果已獲得學術界認可,其相關論文被計算語言學協會(ACL 2025)正式接收 ,并且其預訓練模型和推理代碼也已向全球社區開放 。
模擬人類理解的先分析后解析范式
Dolphin 的核心創新在于其獨特的先分析后解析兩階段范式,這一設計巧妙地模擬了人類閱讀和理解復雜文檔的認知過程 。
第一階段,全面的頁面級布局分析。在這一初始階段,Dolphin 對整個輸入文檔圖像進行全局性分析。其主要目標是精準識別頁面上的所有異構布局元素(例如,文本段落、圖表、公式和表格),并按照自然的閱讀順序進行排列。對于每個識別出的元素,模型會確定其精確的類型和邊界框(使用標準化坐標)。
這一階段的關鍵在于建立對文檔整體布局結構及其組成部分之間空間和邏輯關系的全面理解,為后續的內容提取奠定基礎 。
第二階段:高效的文檔元素并行解析。第一階段識別并排序的布局元素,在Dolphin中被視為異構錨點。這些代表不同內容塊的錨點,隨后被用于指導其各自內容的并行解析。
Dolphin 利用這些元素的特定類型和相關的任務特定提示(task-specific prompts
)并發處理它們 。
例如,對于表格,模型會使用Parse the table in the image.這樣的提示來生成HTML格式的結構化數據;而對于文本段落和公式,則可能使用Read text in the image.這樣的統一提示來生成純文本或LaTeX標記 。
這種跨多個元素的并行處理機制是 Dolphin 實現卓越效率的關鍵設計選擇,相較于傳統的順序解析方法,其效率顯著提升 。
技術架構:輕量級與多模態的融合
Dolphin 的技術架構建立在強大的視覺編碼器-解碼器模型之上,充分利用了 Transformer 網絡的強大能力,并針對文檔圖像解析任務進行了優化 。
視覺編碼器,負責從輸入文檔圖像中提取豐富、層次化的視覺特征。
該組件基于 Swin Transformer 實現,能夠有效地捕捉文本的形狀、布局、顏色,以及表格中的線條和圖像中的輪廓等關鍵視覺信息。輸入圖像通常會調整大小至 896x896 的固定尺寸,同時保持縱橫比 。
文本解碼器,負責將編碼器提供的視覺特征轉換為可讀文本。
該解碼器基于 MBart 模型,通過交叉注意力機制,在準確解碼各種文本格式方面表現出色,包括連續文本段落、嵌入在表格中的內容以及數學公式中的符號 。
基于提示的接口,Dolphin 架構的一個顯著特點是其基于提示(prompt-based interface
)的交互方式。
這允許用戶通過自然語言提示直觀地控制和引導特定的解析任務,有效地充當模型的靈活指揮官,極大地增強了模型的適應性和可擴展性 。
為了更廣泛的可訪問性和易于集成,該模型與廣泛的Hugging Face Transformers生態系統兼容 。同時Dolphin 的開發也借鑒了多個成熟的開源項目,如 Donut、Nougat、GOT、MinerU、Swin 和 Hugging Face Transformers 。
解決行業痛點,推動文檔智能發展
Dolphin 的出現,旨在解決當前文檔圖像解析領域存在的諸多痛點,并展現出超越現有方案的潛力。
首先是克服傳統方法的局限性。 傳統方法常將多個OCR專家模型串聯使用,導致集成開銷大、錯誤累積等問題 。Dolphin 的兩階段統一模型設計,有效避免了這些問題,提供了一個更集成、更準確的解決方案 。
彌補通用大模型的不足。 盡管通用多模態大型模型(VLM)功能強大,但在處理文檔圖像時,往往面臨效率瓶頸,且在解碼過程中容易丟失關鍵的布局結構信息 。Dolphin 的先分析后解析范式和并行處理機制,顯著提升了效率,并更好地保留了文檔的結構信息 。
卓越的性能與效率。盡管 Dolphin 架構輕量(僅 322M 參數),但其在多項基準測試中表現出色 。在處理純文本文檔和包含混合元素(表格、公式、圖形)的復雜文檔時,Dolphin 在中英文測試集上均展現出卓越的解析能力 。其解析效率甚至比現有最快的基線模型 Mathpix 提升了近 2 倍,達到 0.1729 FPS 。
廣泛的應用潛力。Dolphin 能夠將整個文檔圖像解析為結構化的 JSON 和 Markdown 格式,也能針對單個元素(如文本段落、表格、公式)進行精準解析,這使其在多個行業具有廣闊的應用前景。
寫在最后
Dolphin 的開源,為文檔智能領域帶來了新的活力,為更復雜文檔理解以及模型性能和效率優化方面提供了支持。也為構建個人知識庫的文檔解析提供了一種新的思路。
2025年的今天,AI創新已經噴井,幾乎每天都有新的技術出現。作為親歷三次AI浪潮的技術人,我堅信AI不是替代人類,而是讓我們從重復工作中解放出來,專注于更有創造性的事情,關注我們公眾號口袋大數據,一起探索大模型落地的無限可能!