成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<dl id="gsyos"></dl>

<center id="gsyos"><acronym id="gsyos"></acronym></center>

<nav id="gsyos"><dl id="gsyos"></dl></nav>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述

發布于 2025-3-4 09:50

瀏覽

0收藏

文本豐富的圖像（如文檔、圖表、場景圖等）在現實場景中扮演著重要角色，準確理解這些圖像對于自動化信息提取和優化用戶交互至關重要。文本豐富圖像理解（Text-rich Image Understanding, TIU）領域涉及兩個核心能力：

感知（如文本檢測、識別）
理解（如信息抽取、視覺問答）

多模態大語言模型（MLLMs）的出現為文本豐富的圖像理解（TIU）領域帶來了新的維度，系統地分析了該領域 MLLMs的時間線、架構、訓練流程、數據集與基準測試。

TIU MLLMs時間線

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述-AI.x社區

1、模型架構

TIU MLLMs的框架通常包括三個核心組件：視覺編碼器、模態連接器和LLM解碼器。

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述-AI.x社區

視覺編碼器：負責將輸入圖像轉換為特征表示，分為OCR-free（如CLIP、ConvNeXt）和OCR-based（如LayoutLMv3）兩種方式。混合編碼器結合了兩者的優點。

現代LLMs的進化樹追溯了近年來語言模型的發展，并突出了其中一些最知名的模型。根據編碼器的分類，藍色分支代表OCR-free（無OCR），粉色分支代表OCR-based（基于OCR），綠色分支代表混合編碼器。

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述-AI.x社區

模態連接器：用于將視覺特征與語言特征對齊，常見的方法包括線性投影、多層感知機（MLP）、交叉注意力等。
LLM解碼器：將對齊后的特征輸入LLM進行推理，生成最終答案。常用的LLM包括LLaMA系列、Qwen系列、Vicuna系列和InternLM系列。

2、訓練流程

MLLM的訓練分為三個階段：模態對齊、指令對齊和偏好對齊。

代表性主流多模態大語言模型（MLLMs）的總結，包括模型架構、訓練流程以及在TIU領域四個最受歡迎基準測試中的得分?！癙rivate”表示該MLLM使用了專有的大型模型。“?”表示結果是通過下載官方開源模型并在本地測試獲得的。

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述-AI.x社區

模態對齊：通過OCR數據預訓練模型，彌合視覺和語言模態之間的差距。任務包括文本識別、文本定位、圖表解析等。
指令對齊：通過指令微調（SFT）提升模型的多模態感知、跨模態推理能力和零樣本泛化能力。分為視覺-語義錨定、提示多樣化增強和零樣本泛化三個層次。
偏好對齊：優化模型輸出以符合人類價值觀和期望，如通過混合偏好優化（MPO）提升模型性能。

3、數據集與基準測試

TIU任務的發展依賴于大量專門的數據集和標準化基準測試。這些數據集分為領域特定（如文檔、圖表、場景、表格、GUI）和綜合場景兩大類。

文本豐富圖像理解領域的代表性數據集和基準測試。每個數據集通常根據其內容、功能和用戶需求標記為訓練或測試用途。

2025首篇關于多模態大模型在富文本圖像理解上的全面研究綜述-AI.x社區

例如：

文檔：DocVQA、InfoVQA、DocGenome等。
圖表：ChartQA、PlotQA、ChartBench等。
場景：TextCaps、TextVQA、ICDAR系列等。
表格：TableQA、WikiTableQuestions、TableVQA-Bench等。
綜合：OCRbench、Seed-bench-2-plus、MMDocBench等。

https://arxiv.org/pdf/2502.16586 
Multimodal Large Language Models for Text-rich Image Understanding: AComprehensive Review

本文轉載自??PaperAgent??

標簽

贊

收藏

回復

舉報

回復

相關推薦

Agent四大范式 | 綜述：全面理解Agent工作原理

大語言模型論文跟蹤 ? 7729瀏覽 ? 0回復
綜述：大語言模型在信息抽取上的應用

xuxiangda ? 5410瀏覽 ? 0回復
TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3515瀏覽 ? 0回復
?TextCoT：放大增強型多模態富文本圖像理解

AIRoobt ? 3294瀏覽 ? 0回復
MUMU：用文本、圖像引導，多模態圖像生成模型

Aceryt ? 2778瀏覽 ? 0回復
多模態大語言模型的演變全回顧！（視覺定位、圖像生成、編輯、理解）

angel ? 4133瀏覽 ? 0回復
一篇大模型Agent最新綜述

探索AGI ? 3313瀏覽 ? 0回復
從秒級到小時級：TikTok等發布首篇面向長視頻理解的多模態大語言模型全面綜述

angel ? 6369瀏覽 ? 0回復
多模態大模型最全綜述導讀

shizhi02 ? 3090瀏覽 ? 0回復
首篇！全面解讀高效Segment Anything模型變體：各種圖像分割加速策略和核心技術展示

angel ? 7678瀏覽 ? 0回復
一篇大模型RAG最新綜述

NLP前沿1 ? 3162瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3003瀏覽 ? 0回復
多模態大模型能力評測基準全面綜述：理解、推理、生成、應用、趨勢

十一月雨_55 ? 9717瀏覽 ? 0回復
一篇大模型GraphRAG最新綜述

探索AGI ? 2972瀏覽 ? 0回復
多模態大模型在表格解析任務上效果如何？親身經歷全是淚！

NLP工作站 ? 1988瀏覽 ? 0回復
Tiktok多模態大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2665瀏覽 ? 0回復
時序+圖像+文本，多模態增強的時序預測模型

海因斯DK ? 5871瀏覽 ? 0回復
融合語言模型的多模態大模型研究

zhcs333 ? 2119瀏覽 ? 0回復
一篇多模態大模型推理技術最新綜述

PaperAgent ? 1981瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Doc2X：為知識庫RAG接上高精度文檔解析的“智能引擎” 2天前發布
RAG-Anything：全面的一體化多模態文檔處理 RAG 系統 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： DeepSeek全新注意力機制NSA發布，超快速長文訓練與推理

下一篇：沖，DeepSeek-R1/V3推理系統架構設計被開源了！

社區精華內容

目錄

主站蜘蛛池模板：毛片区 | 欧美激情亚洲 | 在线国产小视频 | 看羞羞视频免费 | 九色.com| www视频在线观看 | 国产一区视频在线 | 欧美激情综合 | 日韩亚洲一区二区 | 99re视频在线免费观看 | 亚洲精品9999| 国产高清视频 | 91精品久久久久久久久99蜜臂 | 国产黄色av电影 | 欧美黄片免费观看 | 最新日韩av | 久久在线视频 | 国产精品一卡二卡三卡 | 风间由美一区二区三区在线观看 | 久久激情视频 | 激情在线视频网站 | 亚洲视频在线观看 | 亚洲精品丝袜日韩 | cao在线 | 亚洲欧美日韩在线一区二区 | 日韩免费视频一区二区 | 高清视频一区二区三区 | www.玖玖玖| 国产精品毛片 | 精品欧美一区二区三区久久久 | 国产高清在线精品 | 在线免费观看黄色 | 久久精品欧美一区二区三区麻豆 | 免费在线国产视频 | 99精品视频免费观看 | 在线成人www免费观看视频 | 亚洲国产高清在线 | 久久久影院 | 国产精品久久久久久久久久久久冷 | 免费观看成人av | 国产精品一区二区三区四区 |

<button id="4mq2m"></button>

<nav id="4mq2m"><dl id="4mq2m"></dl></nav>

<cite id="4mq2m"></cite>

<rt id="4mq2m"></rt>

<samp id="4mq2m"></samp>