成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser 原創

發布于 2025-6-16 08:29
瀏覽
0收藏

前期《文檔智能》專欄詳細中介紹了文檔智能解析詳細pipline鏈路技術方案,如下圖:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

現在來看一個新思路,指出pipline鏈路依賴大量標注數據、并且會出現錯誤傳播問題,導致解析效果不佳,故提出一個基于布局強化學習(layoutRL)的多模態大模型的端到端的解析框架,通過強化學習(GRPO)的方式訓練模型的布局感知能力。(ps:筆者看來,在通用場景下解析效果也許并不會有文中評價的那么好,但這個數據合成思路及強化學習的訓練方式可以參考。)

方法

如下圖所示,方法分兩步走:數據合成和GRPO強化學習訓練多模態文檔解析模型。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

1、數據集構建

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

為了構建Infinity-Doc-55K,設計了一個雙管道框架,結合了合成和真實世界文檔生成。數據細節如上圖:數據集涵蓋了七個不同的文檔領域(ps:說實話,這個場景數量還不夠多)。

1.1、真實世界數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

這一個還是聯合了pipline解析流程中的專家小模型,收集了來自金融報告、醫療記錄、學術論文、書籍、雜志和網頁等多樣化的掃描文檔。為了生成標注數據,其中專業模型處理不同的結構元素,如布局塊、文本、公式和表格。

  • 布局分析:使用視覺布局模型分析整體布局。
  • 公式識別:使用專門的公式識別模型處理公式區域。
  • 表格解析:使用基于Transformer的表格提取器解析表格。

然后通過交叉驗證機制,比較專家模型和VLM的輸出,過濾掉不一致的結果,只保留跨模型預測一致的區域的注釋作為高置信度的偽GT。

1.2、合成數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

合成數據構建管道通過將采樣內容注入預定義的單列、雙列或三列HTML布局中,使用Jinja模板從維基百科、網絡爬蟲和在線語料庫中收集文本和圖像。這些頁面使用瀏覽器引擎渲染成掃描文檔,隨后自動過濾掉低質量或重疊的圖像。通過解析原始HTML生成對齊的Markdown表示作為真實注釋。

2、采用布局感知的強化學習

布局感知的強化學習框架(layoutRL),通過優化多方面的獎勵函數來訓練模型,使其能夠更好地理解和解析文檔的布局結構。使用GRPO方法,通過從基于規則的獎勵信號中學習訓練架構如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

layoutRL訓練架構

那么這一部分的核心就是獎勵函數的設計了。主要分三部分:

2.1、編輯距離獎勵

編輯距離獎勵基于預測輸出與參考輸出之間的歸一化Levenshtein距離。該獎勵通過計算將預測輸出轉換為參考輸出所需的最小插入、刪除或替換操作的數量來衡量預測的準確性。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.2、段落計數獎勵

目的是鼓勵模型準確地分割段落。該獎勵通過比較預測段落數量與參考段落數量的差異來計算:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.3、順序獎勵

通過計算預測段落與參考段落之間的順序反轉次數來衡量閱讀順序的保真度。公式如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

最終獎勵計算

最終的獎勵是上述三個部分的加權和,通過匈牙利算法確定預測與參考段落之間的最佳匹配,然后計算每個匹配對的編輯相似性、段落數量和順序保真度。公式如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

該設計平衡了內容保真度與結構正確性和順序保真度,為端到端的文檔解析提供監督。

實驗評估

  • OmniDocBench評估:在OmniDocBench基準上,Infinity-Parser-7B在所有子任務中表現均衡

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

  • 表格識別評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

  • 文檔級OCR評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

示例

參考文獻:Infinity-Parser: Layout-Aware Reinforcement Learning for Scanned Document Parsing,https://arxiv.org/pdf/2506.03197repo:https://github.com/infly-ai/INF-MLLM/tree/main/Infinity-Parser


本文轉載自??大模型自然語言處理??   作者:余俊暉


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-6-16 09:35:16修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91成人在线| www.日韩免费| 欧美影院久久 | 伊人狼人影院 | 手机看片1| 国内精品成人 | 亚洲午夜电影 | 成人午夜免费在线视频 | 欧美a在线 | 亚洲欧美中文日韩在线v日本 | 日本黄色的视频 | 国产精品片 | 中文字幕在线精品 | 成人国产精品久久 | 99九色| 日韩精品a在线观看图片 | 精品一区二区三区四区 | 亚洲综合视频 | 1000部精品久久久久久久久 | 国产成人99久久亚洲综合精品 | 日韩成人免费视频 | 黄色国产视频 | 日美女逼逼 | 日本黄色大片免费 | 欧美国产视频 | 日本视频免费 | 成人国产在线观看 | 欧美久久久网站 | 亚洲精品日韩一区二区电影 | 亚洲成av人影片在线观看 | 中文字幕av中文字幕 | 日韩精品免费 | 91麻豆精品国产91久久久久久 | 一级黄色生活视频 | 国产精品精品视频一区二区三区 | 中文一区二区 | 日日操夜夜操视频 | av在线免费观看不卡 | 天堂中文在线播放 | 欧美激情久久久 | h片在线观看免费 |