成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser 原創

大模型自然語言處理

發布于 2025-6-16 08:29

瀏覽

0收藏

前期《文檔智能》專欄詳細中介紹了文檔智能解析詳細pipline鏈路技術方案，如下圖：

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

現在來看一個新思路，指出pipline鏈路依賴大量標注數據、并且會出現錯誤傳播問題，導致解析效果不佳，故提出一個基于布局強化學習（layoutRL）的多模態大模型的端到端的解析框架，通過強化學習（GRPO）的方式訓練模型的布局感知能力。（ps：筆者看來，在通用場景下解析效果也許并不會有文中評價的那么好，但這個數據合成思路及強化學習的訓練方式可以參考。）

方法

如下圖所示，方法分兩步走：數據合成和GRPO強化學習訓練多模態文檔解析模型。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

1、數據集構建

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

為了構建Infinity-Doc-55K，設計了一個雙管道框架，結合了合成和真實世界文檔生成。數據細節如上圖：數據集涵蓋了七個不同的文檔領域（ps：說實話，這個場景數量還不夠多）。

1.1、真實世界數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

這一個還是聯合了pipline解析流程中的專家小模型，收集了來自金融報告、醫療記錄、學術論文、書籍、雜志和網頁等多樣化的掃描文檔。為了生成標注數據，其中專業模型處理不同的結構元素，如布局塊、文本、公式和表格。

布局分析：使用視覺布局模型分析整體布局。
公式識別：使用專門的公式識別模型處理公式區域。
表格解析：使用基于Transformer的表格提取器解析表格。

然后通過交叉驗證機制，比較專家模型和VLM的輸出，過濾掉不一致的結果，只保留跨模型預測一致的區域的注釋作為高置信度的偽GT。

1.2、合成數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

合成數據構建管道通過將采樣內容注入預定義的單列、雙列或三列HTML布局中，使用Jinja模板從維基百科、網絡爬蟲和在線語料庫中收集文本和圖像。這些頁面使用瀏覽器引擎渲染成掃描文檔，隨后自動過濾掉低質量或重疊的圖像。通過解析原始HTML生成對齊的Markdown表示作為真實注釋。

2、采用布局感知的強化學習

布局感知的強化學習框架（layoutRL），通過優化多方面的獎勵函數來訓練模型，使其能夠更好地理解和解析文檔的布局結構。使用GRPO方法，通過從基于規則的獎勵信號中學習訓練架構如下：

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

layoutRL訓練架構

那么這一部分的核心就是獎勵函數的設計了。主要分三部分：

2.1、編輯距離獎勵

編輯距離獎勵基于預測輸出與參考輸出之間的歸一化Levenshtein距離。該獎勵通過計算將預測輸出轉換為參考輸出所需的最小插入、刪除或替換操作的數量來衡量預測的準確性。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.2、段落計數獎勵

目的是鼓勵模型準確地分割段落。該獎勵通過比較預測段落數量與參考段落數量的差異來計算：

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.3、順序獎勵

通過計算預測段落與參考段落之間的順序反轉次數來衡量閱讀順序的保真度。公式如下：

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

最終獎勵計算

最終的獎勵是上述三個部分的加權和，通過匈牙利算法確定預測與參考段落之間的最佳匹配，然后計算每個匹配對的編輯相似性、段落數量和順序保真度。公式如下：

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

該設計平衡了內容保真度與結構正確性和順序保真度，為端到端的文檔解析提供監督。

實驗評估

OmniDocBench評估：在OmniDocBench基準上，Infinity-Parser-7B在所有子任務中表現均衡

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

表格識別評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

文檔級OCR評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

示例

參考文獻：Infinity-Parser: Layout-Aware Reinforcement Learning for Scanned Document Parsing，https://arxiv.org/pdf/2506.03197repo:https://github.com/infly-ai/INF-MLLM/tree/main/Infinity-Parser

本文轉載自??大模型自然語言處理?? 作者：余俊暉

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-6-16 09:35:16修改

贊

收藏

回復

舉報

回復

相關推薦

Nature：最大擴散強化學習

ceesoft ? 4070瀏覽 ? 0回復
多模態模型學會打撲克：表現超越GPT-4v，全新強化學習框架是關鍵

Crystalcxt ? 3062瀏覽 ? 0回復
訓練模擬人形機器人的五種強化學習技術大PK

51CTO內容精選 ? 3907瀏覽 ? 0回復
從具身智能再談強化學習，為什么需要強化學習，以及強化學習的應用場景

AI探索時代 ? 3273瀏覽 ? 0回復
入口控制：多智能體強化學習在自動駕駛中的應用研究

xuxiangda ? 3815瀏覽 ? 0回復
基于多模態深度強化學習的投資組合優化

靈度智能 ? 3243瀏覽 ? 0回復
基于深度強化學習的投資組合配置動態優化

靈度智能 ? 3880瀏覽 ? 0回復
用強化學習重塑多模態AI：解讀Kimi k1.5的突破與創新

Halo咯咯 ? 2818瀏覽 ? 0回復
強化學習與大模型后訓練：DeepSeek R1 如何獲得推理能力？

lintoms ? 4828瀏覽 ? 0回復
斯坦福大學團隊使用多智能體強化學習訓練社交推理語言模型

xuxiangda ? 2486瀏覽 ? 0回復
強化學習與軟件工程：開源軟件獎勵演化的強化學習

AI研究前瞻 ? 2117瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 3824瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3774瀏覽 ? 0回復
MM-Eureka：大規模強化學習觸發多模態模型能力涌現

angel ? 1829瀏覽 ? 0回復
Logic-RL：基于規則強化學習的推理釋放

頓數AI ? 2240瀏覽 ? 0回復
強化學習強在哪里？基礎探索

柏企閱文 ? 1562瀏覽 ? 0回復
ReSearch: 突破性強化學習框架實現大模型推理搜索能力無縫整合

頓數AI ? 5403瀏覽 ? 0回復
Qwen3 低成本手撕Search-R1的強化學習訓練框架

CourseAI ? 735瀏覽 ? 0回復
「DeepSeek 技術解析」：LLM 訓練中的強化學習算法

Baihai_IDP ? 1077瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：使用RAG的思想進行PPT生成的框架思路-SlideCoder

下一篇：增加定位能力提升圖表問答性能，新的圖表理解框架-RefChartQA

社區精華內容

目錄

主站蜘蛛池模板： 91成人在线| www.日韩免费| 欧美影院久久 | 伊人狼人影院 | 手机看片1| 国内精品成人 | 亚洲午夜电影 | 成人午夜免费在线视频 | 欧美a在线 | 亚洲欧美中文日韩在线v日本 | 日本黄色的视频 | 国产精品片 | 中文字幕在线精品 | 成人国产精品久久 | 99九色| 日韩精品a在线观看图片 | 精品一区二区三区四区 | 亚洲综合视频 | 1000部精品久久久久久久久 | 国产成人99久久亚洲综合精品 | 日韩成人免费视频 | 黄色国产视频 | 日美女逼逼 | 日本黄色大片免费 | 欧美国产视频 | 日本视频免费 | 成人国产在线观看 | 欧美久久久网站 | 亚洲精品日韩一区二区电影 | 亚洲成av人影片在线观看 | 中文字幕av中文字幕 | 日韩精品免费 | 91麻豆精品国产91久久久久久 | 一级黄色生活视频 | 国产精品精品视频一区二区三区 | 中文一区二区 | 日日操夜夜操视频 | av在线免费观看不卡 | 天堂中文在线播放 | 欧美激情久久久 | h片在线观看免费 |