成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路 原創(chuàng)

發(fā)布于 2025-5-12 08:57
瀏覽
0收藏

前期也提到,在實際場景中,用戶通常需要檢索多模態(tài)文檔,包括文本、圖像、表格和圖表。這需要一個更復(fù)雜的檢索系統(tǒng),能夠處理多模態(tài)信息,并根據(jù)用戶查詢提供相關(guān)文檔或段落。檢索多模態(tài)文檔將有助于 AI 聊天機(jī)器人、搜索引擎和其他應(yīng)用程序向用戶提供更準(zhǔn)確、更相關(guān)的信息。因此衍生了一系列的多模態(tài)RAG方案,如:??開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強(qiáng)生成方案-VDocRAG???提到的諸多方案。

下面來看看www會議開設(shè)的多模態(tài)文檔檢索挑戰(zhàn)賽的三個獲獎方案。

概述:多模態(tài)文檔檢索任務(wù)專注于對多模態(tài)文檔或網(wǎng)頁中的段落進(jìn)行建模,利用文本和多模態(tài)信息進(jìn)行嵌入建模。最終目標(biāo)是根據(jù)用戶的文本或多模態(tài)查詢檢索相關(guān)的多模態(tài)文檔或段落。

任務(wù)一:MMDocIR – 長文檔的多模態(tài)檢索

此任務(wù)旨在評估檢索系統(tǒng)識別文檔中視覺豐富的信息的能力。MMDocIR 評估集包含 313 篇長文檔,平均篇幅 65.1 頁,涵蓋多個領(lǐng)域:研究報告、行政管理、行業(yè)、教程、研討會、學(xué)術(shù)論文、宣傳冊、財務(wù)報告、指南、政府文件、法律和新聞文章。不同領(lǐng)域的多模態(tài)信息分布各異。

每個領(lǐng)域都呈現(xiàn)出獨特的多模態(tài)信息分布,帶來了不同的檢索挑戰(zhàn)。

目標(biāo):對于給定的文本查詢 → 檢索相關(guān)文檔頁面: 識別文檔中與用戶查詢最相關(guān)的頁面。每個查詢的檢索范圍僅限于給定文檔中的所有頁面。

數(shù)據(jù)集:MMDocIR

任務(wù) 2:M2KR – 開放域視覺檢索基準(zhǔn)

此任務(wù)評估檢索系統(tǒng)在開放域場景(包括維基百科網(wǎng)頁)中檢索視覺豐富的信息的能力。它涉及多種主題、形式(圖形、表格、文本)和語言。原始 M2KR 數(shù)據(jù)集僅包含從維基百科頁面中提取的文本。我們擴(kuò)展了數(shù)據(jù)集,以包含維基百科頁面的屏幕截圖。

子任務(wù):

圖片→Wiki文檔檢索: 數(shù)據(jù)集: WIT、KVQA。 圖片+文字→Wiki文檔檢索: 數(shù)據(jù)集: OVEN、OKVQA、Infoseek、E-VQA。

Rank1

code:https://github.com/hbhalpha/MDR

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程圖

  1. 首先使用cv_tools/DINO識別視覺關(guān)鍵點
  • 通過視覺模型(如DINO)提取輸入數(shù)據(jù)的視覺關(guān)鍵點特征,得到視覺關(guān)鍵點結(jié)果
  1. 訓(xùn)練五個不同參數(shù)的專家模型進(jìn)行雙任務(wù)投票
  • 構(gòu)建五個參數(shù)配置不同的專家模型(如不同超參數(shù)或初始化),每個專家模型同時參與兩個任務(wù)的決策投票
  • 所有專家模型的集成(整體)視為一個統(tǒng)一模型
  1. 融合專家投票結(jié)果與視覺關(guān)鍵點結(jié)果
  • 將視覺關(guān)鍵點特征與專家模型的投票結(jié)果進(jìn)行融合,最終形成統(tǒng)一模型輸出
  • 核心特性:五個專家模型與DINO共同構(gòu)成一個統(tǒng)一模型,天然支持兩個任務(wù),且無需針對特定任務(wù)單獨訓(xùn)練

Rank2:視覺豐富的多粒度檢索框架

code:https://github.com/i2vec/MMDocRetrievalChallenge 框架分為兩個主要組成部分:

  1. M2KR,通過整合的視覺和文本關(guān)注細(xì)粒度區(qū)域級別的檢索
  2. MMDocIR,將全頁檢索與詳細(xì)的區(qū)域和基于OCR的檢索階段結(jié)合起來

M2KR: Multimodal Region Retrieval with Fusion

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程圖詳細(xì)思路如下:

輸入

  • 候選頁面被分割成多個區(qū)域,以獲得區(qū)域級表示。
  • 使用Qwen2.5-VL模型生成候選頁面的文本描述,提供互補(bǔ)的語義信息。
  • 用戶查詢(可以是文本、圖像或多模態(tài)格式)也被處理成統(tǒng)一的嵌入空間。

過程

  • 應(yīng)用三種匹配策略:
  1. 基于區(qū)域嵌入的純圖像檢索。
  2. 結(jié)合查詢和區(qū)域特征的多模態(tài)檢索。
  3. 查詢和候選文本描述之間的純文本檢索。
  • 計算每種模態(tài)的余弦相似度(CosSim)。
  • 將三種匹配策略的相關(guān)性得分融合,綜合考慮視覺、多模態(tài)和文本信號。

輸出: 經(jīng)過分值融合后,使用基于VLM的驗證模塊評估查詢與候選結(jié)果的語義對齊。過濾模塊促進(jìn)高置信度的匹配,丟棄誤報,確保最終結(jié)果既精確又與查詢語義一致。

MMDocIR: Full-Page Retrieval with Multistage Validation

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

輸入

  • 文本形式的用戶查詢
  • 候選文檔頁面的全頁圖像分割區(qū)域圖像OCR識別的文本多種粒度,以實現(xiàn)多粒度檢索。

過程

  • 使用ColQwen2-7B對用戶查詢和全頁圖像候選進(jìn)行編碼,進(jìn)行初始全頁檢索。
  • 使用GME-7B進(jìn)行兩個額外的檢索路徑:多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)
  • GME框架,https://arxiv.org/pdf/2412.16855
  1. 文本到OCR文本檢索,將查詢與頁面提取的OCR文本匹配。
  2. 文本到區(qū)域圖像檢索,將查詢與分割的區(qū)域圖像匹配。
  • 計算每種檢索路徑的余弦相似度(CosSim)。
  • 將全頁檢索、OCR文本檢索和區(qū)域圖像檢索的相關(guān)性得分融合,結(jié)合全局、文本和區(qū)域信息。

輸出:經(jīng)過分值融合后,使用基于VLM的驗證模塊(由Qwen2.5-VL模型驅(qū)動)對排名靠前的候選結(jié)果進(jìn)行語義驗證。驗證模塊進(jìn)行細(xì)粒度的跨模態(tài)驗證,確認(rèn)查詢意圖與候選內(nèi)容的一致性,確保最終結(jié)果具有高精度和可靠性。

融合和驗證機(jī)制

1、多源分?jǐn)?shù)融合

實施兩層分值融合過程:

  • 模態(tài)分值整合階段:GME模型為每個候選生成三種相關(guān)性得分:文本到OCR文本相似度、文本到區(qū)域圖像相似度和查詢與區(qū)域特征之間的多模態(tài)相似度。這些得分捕捉文檔相關(guān)性的不同方面,并用于初始排名,提供豐富的多粒度匹配信號。
  • 融合GME和ColQwen檢索路徑的輸出:應(yīng)用RRF,通過為每個檢索路徑的頂部排名結(jié)果分配更高權(quán)重,有效平衡全局和細(xì)粒度檢索信號。融合后的排名確保不同模型的強(qiáng)候選結(jié)果被共同考慮,增強(qiáng)檢索的魯棒性。

2、VLM驗證機(jī)制

在融合步驟之后,應(yīng)用基于VLM的驗證過程,使用Qwen2.5-VL模型進(jìn)行語義驗證。該模塊通過預(yù)測每個候選是否為真實匹配(Yes)或不匹配(No)來執(zhí)行語義驗證。驗證通過的候選結(jié)果在最終輸出中被優(yōu)先考慮,確保只有具有強(qiáng)語義對齊的結(jié)果被保留。這一驗證步驟增加了跨模態(tài)理解的關(guān)鍵層,超越了傳統(tǒng)的基于相似度的方法,進(jìn)一步優(yōu)化了檢索結(jié)果。

Rank3

方案分兩步:MMDocIR和M2KR

MMDocIR

code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task1_MMDocIR

多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)

流程

  1. 使用基于 ColQwen 的模型,根據(jù)圖像和 VLM 文本生成每個頁面的圖像和文本嵌入。然后融合這些嵌入。
  2. 根據(jù)文本查詢(即問題)查找查詢嵌入
  3. 使用后期交互機(jī)制查找頁面嵌入和查詢嵌入之間的相似度分?jǐn)?shù)。
  4. 檢索前 5 個頁面


多模態(tài)文檔檢索開源方案-三大競賽獲獎方案技術(shù)鏈路-AI.x社區(qū)


M2KR:使用 Wikipedia + FAISS 進(jìn)行多模態(tài)檢索

code:https://github.com/bargav25/MultiModal_InformationRetrieval/tree/main/Task2_M2KR

該項目實現(xiàn)了一個端到端的視覺檢索流程,該流程接收查詢圖像,并通過將其與從維基百科頁面抓取或提取的圖像進(jìn)行匹配,檢索出最相關(guān)的維基百科文章。它使用來自 ColQwen2 和 FAISS 的嵌入進(jìn)行高效的相似性搜索,并支持從實時維基百科頁面抓取圖像以及從屏幕截圖中提取圖像。

功能如下:

  1. 根據(jù)查詢文件名從維基百科文章中抓取圖像(或者,您可以選擇使用傳統(tǒng)的 OpenCV 技術(shù)從維基百科截圖中提取圖像:檢查extract_images.py)
  2. ??? 使用基于 Transformer 的視覺模型生成密集嵌入(ColQwen2)
  3. ? 使用 FAISS 索引段落圖像(IndexFlatL2)
  4. ?? 根據(jù)查詢檢索前 k 個最相關(guān)的圖像
  5. ?? 模塊化代碼:可輕松擴(kuò)展到其他數(shù)據(jù)集或模型

參考文獻(xiàn):

A Multi-Granularity Retrieval Framework for Visually-Rich Documents,https://arxiv.org/pdf/2505.01457v2

??https://erel-mir.github.io/challenge/overview/??


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/1u17IU7XMRNZhq2VFLSBdg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-12 10:49:00修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 99热热热| 日韩中文字幕一区 | 亚洲aⅴ | 中文字幕在线一区二区三区 | 日本超碰 | 亚洲精品视频在线播放 | 国产大片黄色 | 午夜欧美a级理论片915影院 | 天天干天天色 | 99欧美精品| 91在线精品视频 | 亚洲精品乱码久久久久v最新版 | 色网站在线免费观看 | 黄色精品 | 日韩不卡一区二区 | 国产精品毛片无码 | 嫩呦国产一区二区三区av | 在线观看中文字幕视频 | 亚洲日韩中文字幕一区 | 日韩av在线不卡 | 亚洲精品久久久久中文字幕欢迎你 | 国产精品不卡一区 | 欧美日韩专区 | 日韩成人一区 | 久久国产一区 | 大陆一级毛片免费视频观看 | 免费一区在线观看 | 国产情侣在线看 | 国产高清在线精品 | 99国产精品99久久久久久粉嫩 | 国产伦精品一区二区三区精品视频 | 一级做a毛片 | 免费激情 | 综合另类| 91中文字幕在线观看 | 国内精品久久久久久久影视简单 | 国产欧美精品一区二区三区 | 日本黄色大片免费 | 精品国产乱码久久久久久1区2区 | 亚洲综合激情 | 日日精品|