多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路原創(chuàng)

發(fā)布于 2025-5-12 08:57

瀏覽

0收藏

前期也提到，在實際場景中，用戶通常需要檢索多模態(tài)文檔，包括文本、圖像、表格和圖表。這需要一個更復(fù)雜的檢索系統(tǒng)，能夠處理多模態(tài)信息，并根據(jù)用戶查詢提供相關(guān)文檔或段落。檢索多模態(tài)文檔將有助于 AI 聊天機(jī)器人、搜索引擎和其他應(yīng)用程序向用戶提供更準(zhǔn)確、更相關(guān)的信息。因此衍生了一系列的多模態(tài)RAG方案，如：??開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強(qiáng)生成方案-VDocRAG???提到的諸多方案。

下面來看看www會議開設(shè)的多模態(tài)文檔檢索挑戰(zhàn)賽的三個獲獎方案。

概述：多模態(tài)文檔檢索任務(wù)專注于對多模態(tài)文檔或網(wǎng)頁中的段落進(jìn)行建模，利用文本和多模態(tài)信息進(jìn)行嵌入建模。最終目標(biāo)是根據(jù)用戶的文本或多模態(tài)查詢檢索相關(guān)的多模態(tài)文檔或段落。

任務(wù)一：MMDocIR – 長文檔的多模態(tài)檢索

此任務(wù)旨在評估檢索系統(tǒng)識別文檔中視覺豐富的信息的能力。MMDocIR 評估集包含 313 篇長文檔，平均篇幅 65.1 頁，涵蓋多個領(lǐng)域：研究報告、行政管理、行業(yè)、教程、研討會、學(xué)術(shù)論文、宣傳冊、財務(wù)報告、指南、政府文件、法律和新聞文章。不同領(lǐng)域的多模態(tài)信息分布各異。

每個領(lǐng)域都呈現(xiàn)出獨特的多模態(tài)信息分布，帶來了不同的檢索挑戰(zhàn)。

目標(biāo)：對于給定的文本查詢 → 檢索相關(guān)文檔頁面：識別文檔中與用戶查詢最相關(guān)的頁面。每個查詢的檢索范圍僅限于給定文檔中的所有頁面。

數(shù)據(jù)集：MMDocIR

任務(wù) 2：M2KR – 開放域視覺檢索基準(zhǔn)

此任務(wù)評估檢索系統(tǒng)在開放域場景（包括維基百科網(wǎng)頁）中檢索視覺豐富的信息的能力。它涉及多種主題、形式（圖形、表格、文本）和語言。原始 M2KR 數(shù)據(jù)集僅包含從維基百科頁面中提取的文本。我們擴(kuò)展了數(shù)據(jù)集，以包含維基百科頁面的屏幕截圖。

子任務(wù)：

圖片→Wiki文檔檢索：數(shù)據(jù)集： WIT、KVQA。圖片+文字→Wiki文檔檢索：數(shù)據(jù)集： OVEN、OKVQA、Infoseek、E-VQA。

Rank1

code：https://github.com/hbhalpha/MDR

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程圖

首先使用cv_tools/DINO識別視覺關(guān)鍵點

通過視覺模型（如DINO）提取輸入數(shù)據(jù)的視覺關(guān)鍵點特征，得到視覺關(guān)鍵點結(jié)果。

訓(xùn)練五個不同參數(shù)的專家模型進(jìn)行雙任務(wù)投票

構(gòu)建五個參數(shù)配置不同的專家模型（如不同超參數(shù)或初始化），每個專家模型同時參與兩個任務(wù)的決策投票。
所有專家模型的集成（整體）視為一個統(tǒng)一模型。

融合專家投票結(jié)果與視覺關(guān)鍵點結(jié)果

將視覺關(guān)鍵點特征與專家模型的投票結(jié)果進(jìn)行融合，最終形成統(tǒng)一模型輸出。
核心特性：五個專家模型與DINO共同構(gòu)成一個統(tǒng)一模型，天然支持兩個任務(wù)，且無需針對特定任務(wù)單獨訓(xùn)練。

Rank2：視覺豐富的多粒度檢索框架

code：https://github.com/i2vec/MMDocRetrievalChallenge 框架分為兩個主要組成部分：

M2KR，通過整合的視覺和文本關(guān)注細(xì)粒度區(qū)域級別的檢索
MMDocIR，將全頁檢索與詳細(xì)的區(qū)域和基于OCR的檢索階段結(jié)合起來

M2KR: Multimodal Region Retrieval with Fusion

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程圖詳細(xì)思路如下：

輸入：

候選頁面被分割成多個區(qū)域，以獲得區(qū)域級表示。
使用Qwen2.5-VL模型生成候選頁面的文本描述，提供互補(bǔ)的語義信息。
用戶查詢（可以是文本、圖像或多模態(tài)格式）也被處理成統(tǒng)一的嵌入空間。

過程：

應(yīng)用三種匹配策略：

基于區(qū)域嵌入的純圖像檢索。
結(jié)合查詢和區(qū)域特征的多模態(tài)檢索。
查詢和候選文本描述之間的純文本檢索。

計算每種模態(tài)的余弦相似度（CosSim）。
將三種匹配策略的相關(guān)性得分融合，綜合考慮視覺、多模態(tài)和文本信號。

輸出：經(jīng)過分值融合后，使用基于VLM的驗證模塊評估查詢與候選結(jié)果的語義對齊。過濾模塊促進(jìn)高置信度的匹配，丟棄誤報，確保最終結(jié)果既精確又與查詢語義一致。

MMDocIR: Full-Page Retrieval with Multistage Validation

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

輸入：

文本形式的用戶查詢
候選文檔頁面的全頁圖像、分割區(qū)域圖像和OCR識別的文本多種粒度，以實現(xiàn)多粒度檢索。

過程：

使用ColQwen2-7B對用戶查詢和全頁圖像候選進(jìn)行編碼，進(jìn)行初始全頁檢索。
使用GME-7B進(jìn)行兩個額外的檢索路徑：
GME框架，https://arxiv.org/pdf/2412.16855

文本到OCR文本檢索，將查詢與頁面提取的OCR文本匹配。
文本到區(qū)域圖像檢索，將查詢與分割的區(qū)域圖像匹配。

計算每種檢索路徑的余弦相似度（CosSim）。
將全頁檢索、OCR文本檢索和區(qū)域圖像檢索的相關(guān)性得分融合，結(jié)合全局、文本和區(qū)域信息。

輸出：經(jīng)過分值融合后，使用基于VLM的驗證模塊（由Qwen2.5-VL模型驅(qū)動）對排名靠前的候選結(jié)果進(jìn)行語義驗證。驗證模塊進(jìn)行細(xì)粒度的跨模態(tài)驗證，確認(rèn)查詢意圖與候選內(nèi)容的一致性，確保最終結(jié)果具有高精度和可靠性。

融合和驗證機(jī)制

1、多源分?jǐn)?shù)融合

實施兩層分值融合過程：

模態(tài)分值整合階段：GME模型為每個候選生成三種相關(guān)性得分：文本到OCR文本相似度、文本到區(qū)域圖像相似度和查詢與區(qū)域特征之間的多模態(tài)相似度。這些得分捕捉文檔相關(guān)性的不同方面，并用于初始排名，提供豐富的多粒度匹配信號。
融合GME和ColQwen檢索路徑的輸出：應(yīng)用RRF，通過為每個檢索路徑的頂部排名結(jié)果分配更高權(quán)重，有效平衡全局和細(xì)粒度檢索信號。融合后的排名確保不同模型的強(qiáng)候選結(jié)果被共同考慮，增強(qiáng)檢索的魯棒性。

2、VLM驗證機(jī)制

在融合步驟之后，應(yīng)用基于VLM的驗證過程，使用Qwen2.5-VL模型進(jìn)行語義驗證。該模塊通過預(yù)測每個候選是否為真實匹配（Yes）或不匹配（No）來執(zhí)行語義驗證。驗證通過的候選結(jié)果在最終輸出中被優(yōu)先考慮，確保只有具有強(qiáng)語義對齊的結(jié)果被保留。這一驗證步驟增加了跨模態(tài)理解的關(guān)鍵層，超越了傳統(tǒng)的基于相似度的方法，進(jìn)一步優(yōu)化了檢索結(jié)果。

Rank3

方案分兩步：MMDocIR和M2KR

MMDocIR

code：https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task1_MMDocIR

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程

使用基于 ColQwen 的模型，根據(jù)圖像和 VLM 文本生成每個頁面的圖像和文本嵌入。然后融合這些嵌入。
根據(jù)文本查詢（即問題）查找查詢嵌入
使用后期交互機(jī)制查找頁面嵌入和查詢嵌入之間的相似度分?jǐn)?shù)。
檢索前 5 個頁面

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

M2KR：使用 Wikipedia + FAISS 進(jìn)行多模態(tài)檢索

code：https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task2_M2KR

該項目實現(xiàn)了一個端到端的視覺檢索流程，該流程接收查詢圖像，并通過將其與從維基百科頁面抓取或提取的圖像進(jìn)行匹配，檢索出最相關(guān)的維基百科文章。它使用來自 ColQwen2 和 FAISS 的嵌入進(jìn)行高效的相似性搜索，并支持從實時維基百科頁面抓取圖像以及從屏幕截圖中提取圖像。

功能如下：

根據(jù)查詢文件名從維基百科文章中抓取圖像（或者，您可以選擇使用傳統(tǒng)的 OpenCV 技術(shù)從維基百科截圖中提取圖像：檢查extract_images.py）
??? 使用基于 Transformer 的視覺模型生成密集嵌入（ColQwen2）
? 使用 FAISS 索引段落圖像（IndexFlatL2）
?? 根據(jù)查詢檢索前 k 個最相關(guān)的圖像
?? 模塊化代碼：可輕松擴(kuò)展到其他數(shù)據(jù)集或模型

參考文獻(xiàn)：

A Multi-Granularity Retrieval Framework for Visually-Rich Documents，https://arxiv.org/pdf/2505.01457v2

??https://erel-mir.github.io/challenge/overview/??

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/1u17IU7XMRNZhq2VFLSBdg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)文檔檢索

開源

已于2025-5-12 10:49:00修改

贊

回復(fù)