成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG 原創(chuàng)

發(fā)布于 2025-5-9 06:36
瀏覽
0收藏

下面來看一個新的RAG框架VDocRAG,用于解決視覺文檔問答問題。

視覺文檔問答概述

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

OpenDocVQA任務(wù)的目標(biāo)是給定一個文檔圖像集合和一個問題,通過找到相關(guān)的文檔圖像來輸出答案。任務(wù)分為兩個階段:

  1. 視覺文檔檢索(Visual Document Retrieval)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

  1. 文檔視覺問答(DocumentVQA)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

方法架構(gòu)

VDocRAG由兩個主要組件組成:VDocRetriever和VDocGenerator,下面來看看這兩個組件。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

VDocRetriever(檢索器)

VDocRetriever基于LVLM的雙編碼器架構(gòu),用于檢索與查詢問題相關(guān)的文檔圖像。

  1. 動態(tài)高分辨率圖像編碼:使用動態(tài)裁剪將高分辨率圖像分割成較小的patch,每個patch大小為 336X336 像素。將這些patch作為單獨的輸入傳遞給圖像編碼器,并將其轉(zhuǎn)換為視覺文檔特征 Zd。
  2. 編碼過程:在VDocRetriever中,問題和視覺文檔特征被獨立編碼。在問題的末尾添加一個 <EOS>(End of Sequence)標(biāo)記,并將其與視覺文檔特征一起輸入到LVLM中。通過取最后一個 <EOS> 向量來獲得問題和視覺文檔的嵌入 Hq和 Hd。
  3. 相似度計算:使用最大內(nèi)積搜索計算問題和視覺文檔嵌入之間的相似度分數(shù):

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

  1. 檢索過程:根據(jù)相似度分數(shù)檢索與問題最相關(guān)的 k 個文檔。

VDocGenerator(生成器)

VDocGenerator使用VDocRetriever檢索到的文檔圖像來生成答案。

  1. 編碼過程:編碼檢索結(jié)果后,將問題和編碼后的結(jié)果連接起來,并將其輸入到LVLM中。
  2. 生成過程:LVLM根據(jù)輸入生成答案。

自監(jiān)督預(yù)訓(xùn)練

預(yù)訓(xùn)練的目標(biāo)是遷移 LVLM 強大的理解和生成能力,以促進其在視覺文檔檢索中的應(yīng)用。為此,提出了兩個新的自監(jiān)督預(yù)訓(xùn)練任務(wù),將整個圖像表示壓縮為輸入圖像末尾的 EOS 令牌。我們的預(yù)訓(xùn)練過程傳遞文檔圖像,并將其提取的 OCR 文本用作偽目標(biāo)。完整的預(yù)訓(xùn)練目標(biāo)定義為損失之和,如下所示。

通過檢索進行表示壓縮 (RCR)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

使用對比學(xué)習(xí)任務(wù)通過檢索與OCR文本相關(guān)的圖像來壓縮圖像表示。構(gòu)建正樣本OCR文本-圖像對,并使用InfoNCE損失函數(shù)計算對比損失:

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

通過生成進行表示壓縮 (RCG)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

使用自定義的注意力掩碼矩陣來利用LVLM的生成能力。對圖像標(biāo)記的表示進行掩碼,僅允許 <EOS> 標(biāo)記和前面的OCR標(biāo)記的注意力。通過標(biāo)準自回歸過程獲取圖像標(biāo)記的表示,并將它們壓縮到 <EOS> 標(biāo)記中。定義損失函數(shù):

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

其中 yi 表示OCR的第 i 個標(biāo)記。

實驗表現(xiàn)

檢索結(jié)果

VDocRetriever 在未見數(shù)據(jù)集 ChartQA 和 SlideVQA 上表現(xiàn)出卓越的零樣本泛化能力,優(yōu)于現(xiàn)成的文本檢索器和最先進的視覺文檔檢索模型。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

RAG 結(jié)果

即使所有模型都采用相同的初始化,VDocRAG 在 DocumentVQA 任務(wù)上的表現(xiàn)也明顯優(yōu)于閉卷 LLM 和基于文本的 RAG。

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

開源多模態(tài)RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG-AI.x社區(qū)

VDocRAG 在理解布局和可視化內(nèi)容(例如表格、圖表、圖形和示意圖)方面展現(xiàn)出顯著的性能優(yōu)勢。這些發(fā)現(xiàn)凸顯了將文檔表示為圖像對于提升 RAG 框架性能的關(guān)鍵作用。

參考文獻:https://arxiv.org/abs/2504.09795,VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents

code:https://github.com/nttmdlab-nlp/VDocRAG


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/E4R4qDcWkwXrdao3x4v4YA???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-5-9 06:36:52修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲精品欧美 | 国产精品18久久久 | 国产在线中文字幕 | 亚洲另类视频 | 色婷婷久久久亚洲一区二区三区 | 欧美激情综合色综合啪啪五月 | 亚洲一区二区三区视频免费观看 | 久久精品国产一区二区三区不卡 | 午夜av电影| 懂色中文一区二区在线播放 | 精品粉嫩aⅴ一区二区三区四区 | 精品国产乱码久久久久久图片 | 国产精品久久久久久久久免费相片 | 国产极品粉嫩美女呻吟在线看人 | 国产女人精品视频 | 老司机狠狠爱 | 国产一区二区日韩 | 欧美一级在线免费观看 | 国产免费一区 | www.亚洲| 一区二区三区四区免费观看 | 欧美日韩在线一区二区 | 久久婷婷香蕉热狠狠综合 | 福利一区视频 | 国产精品久久在线观看 | 成人国产精品免费观看 | 精品国产乱码久久久久久1区2区 | 国产激情偷乱视频一区二区三区 | 国产精品一区二区三区免费观看 | 国产精品爱久久久久久久 | 久草成人 | 在线免费观看毛片 | 中文字幕精品视频在线观看 | 国产一区在线免费观看 | 欧美激情国产精品 | 综合网视频 | 在线免费观看视频你懂的 | 久久91精品久久久久久9鸭 | 免费看a | 久久精品a级毛片 | 一二三四av |