讓GPT-4o準確率大降，這個文檔理解新基準揭秘大模型短板

2025-05-26 08:33:00

字節跳動 OCR 團隊聯合華中科技大學打造了?WildDoc——?首個真實世界場景文檔理解的基準數據集。

本文的共同第一作者為字節跳動算法工程師王安瀾和廖蕾，本文的通訊作者為字節跳動算法工程師唐景群。

在文檔理解領域，多模態大模型（MLLMs）正以驚人的速度進化。從基礎文檔圖像識別到復雜文檔理解，它們在掃描或數字文檔基準測試（如 DocVQA、ChartQA）中表現出色，這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而，現有的文檔理解基準存在兩大核心缺陷：

脫離真實場景：現實中文檔多為手機 / 相機拍攝的紙質文件或屏幕截圖，面臨光照不均、物理扭曲（褶皺 / 彎曲）、拍攝視角多變、模糊 / 陰影、對焦不準等復雜干擾；
無法評估魯棒性：現有基準未模擬真實環境的復雜性和多樣性，導致模型在實際應用中表現存疑；

這些缺陷引出了一個關鍵疑問：當前 MLLMs 模型距離在自然環境中實現全面且魯棒的文檔理解能力到底還有多遠？

為了揭開這個謎底，字節跳動 OCR 團隊聯合華中科技大學打造了 WildDoc—— 首個真實世界場景文檔理解的基準數據集。

WildDoc 選取了 3 個常用的具有代表性的文檔場景作為基準（Document/Chart/Table），包含超過 12,000 張手動拍攝的圖片，覆蓋了環境、光照、視角、扭曲和拍攝效果等五個影響真實世界文檔理解效果的因素，且可與現有的電子基準數據集表現進行對比。

為了嚴格評估模型的魯棒性，WildDoc 構建了一致性評估指標（Consistency Score）。實驗發現主流 MLLMs 在 WildDoc 上性能顯著下降，揭示了現有模型在真實場景文檔理解的性能瓶頸，并為技術改進提供可驗證的方向。本工作不僅填補了真實場景基準的空白，更推動文檔理解研究向「實用化、泛化性」邁出關鍵一步。

論文鏈接：https://arxiv.org/abs/2505.11015
項目主頁：https://bytedance.github.io/WildDoc/
Github：https://github.com/bytedance/WildDoc

WildDoc 數據構造與組成

WildDoc 數據包含超 1.2 萬張手動采集的真實文檔圖像，模擬自然環境中的復雜挑戰，并引入一致性分數指標，量化評估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對，其構造過程如下：

1、數據采集：

場景多樣化：在自然環境（如戶外、室內不同光照條件）中手動拍攝文檔，確保覆蓋環境、光照、視角等多維度干擾因素。
基準對齊：復用現有基準的電子文檔，通過物理打印后拍攝，保證與傳統基準的可比性。

2、多條件拍攝：

對同一文檔進行四次拍攝，每次改變環境參數（如光照強度、拍攝角度、紙張扭曲程度），獲取各種不同效果的對比樣本。

3、標注與驗證：

對圖像中的文本、布局等關鍵信息以及對于問題的可回答性進行人工驗證，確保準確性。
通過一致性分數計算，評估模型在不同條件下的穩定性，輔助篩選高質量數據。

實驗結果

研究團隊對眾多具有代表性的 MLLMs 進行了測試，包括通用 MLLMs（如 Qwen2.5-VL、InternVL2.5）、專注文檔理解的 MLLMs（如 Monkey、TextHarmony）和領先的閉源 MLLMs（如 GPT4o、Doubao-1.5-pro）。實驗結果揭示了當前多模態大模型在真實場景下的諸多不足。

首先，現有 MLLMs 在 WildDoc 上的性能相比傳統文檔基準（如 DocVQA）測試大幅下降。例如，GPT-4o 平均準確率下降 35.3，ChartQA 子集下降達 56.4；開源模型 Qwen2.5-VL-72B 平均準確率 70.6，為開源最佳，但仍低于原始基準約 15%。目前最優的閉源模型為 Doubao-1.5-pro 表現最優（平均準確率 73.7%），但其一致性分數僅 55.0，這也意味著它在一半多的情況下都不能在不同條件下保持準確回答。這表明，當前 MLLMs 模型在面對真實場景的變化時，缺乏足夠的穩定性和適應性。

實驗結果揭示了在真實世界文檔理解中 MLLMs 模型的表現，有以下幾點發現：

物理扭曲最具挑戰性：皺紋、褶皺、彎曲等物理變形導致模型性能下降最顯著（如 GPT-4o 下降 34.1-34.7），遠超光照（-25.9）或視角（-26.2）變化的影響。
非正面視角與圖像質量：非正面拍攝（如傾斜視角）因文本形變和模糊導致性能下降（Qwen2.5-VL-72B 下降 17.6），但屏幕捕獲圖像因數據增強算法成熟，性能下降較小（-8.3 至 - 9.1）。
語言模型規模影響有限：大參數量模型（如 72B 參數的 Qwen2.5-VL）在 WildDoc 上表現略優，但未完全克服真實場景挑戰，表明模型架構需針對性優化。