成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

再看多模態RAG進行文檔問答的方案

大模型自然語言處理

發布于 2024-11-20 15:20

瀏覽

0收藏

先說結論：這篇文章的方法和前面介紹的兩個多模態RAG的工作非常相似，可以看看往期介紹：

M3DOCRAG同樣也指出，現有的方法要么專注于單頁文檔的多模態語言模型，要么依賴于基于文本的RAG方法，這些方法使用OCR等文本提取工具。然而，這些方法在實際應用中存在困難，例如問題通常需要跨不同頁面或文檔的信息，而MLMs無法處理長文檔；并且，文檔中重要的視覺元素（如圖、表等）往往被文本提取工具忽略。

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DoCRAG和以往方法對比

注：文章代碼和數據集暫未開源，但都是使用ColPali和qwen2-vl實現，筆者在前面文檔也恰好實踐了一個簡單的RAG-ColPali，供參考：

??【多模態&RAG】多模態RAG ColPali實踐??

方法

文檔嵌入：和RAG-ColPali很相似，文檔嵌入使用ColPali將所有文檔頁面轉換為RGB圖像，并從頁面圖像中提取視覺嵌入。（ColPali是一種基于后期交互機制的多模態檢索模型，它將文本和圖像輸入編碼為統一的向量表示，并檢索最相關的圖像。其原理可以看看往期對ColPali的介紹《??ColPali??》）

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DOCRAG流程

頁面檢索：也和RAG-ColPali使用的方法相似，也是使用MaxSim分數計算查詢與頁面之間的相關性，并檢索與文本查詢top-K個頁面。
答案生成：使用多模態語言模型（MLM）對檢索到的頁面圖像進行視覺問答，以獲得最終答案。該方法使用的是qwen2-vl-7b

數據集

M3DocVQA包含3,368個PDF文檔，總計41,005頁，涵蓋開放域和封閉域的DocVQA任務。

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DocVQA與現有DocVQA數據集對比

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DocVQA中PDF集合的示意圖

實驗結果

再看多模態RAG進行文檔問答的方案-AI.x社區

再看多模態RAG進行文檔問答的方案-AI.x社區

參考文獻

??https://arxiv.org/pdf/2411.04952v1??

本文轉載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/Fpbw_IuuTlW6g0HyAgdJJw??

標簽

已于2024-11-28 18:52:01修改

贊

收藏

回復

舉報

回復

相關推薦

Advanced RAG 07：在 RAG 系統中進行表格數據處理的新思路

Baihai_IDP ? 5669瀏覽 ? 0回復
RAG技術性能提升之文檔分塊策略方案

AIGC觀察者 ? 5373瀏覽 ? 0回復
QOQA：利用TopK文檔進行查詢改寫，平均提升RAG 1.6% 準確率

大語言模型論文跟蹤 ? 3198瀏覽 ? 0回復
RAG 的未來 - 自動文檔檢索

探索AGI ? 2468瀏覽 ? 0回復
多模態RAG-ColPali：使用視覺語言模型實現高效的文檔檢索

大模型自然語言處理 ? 3016瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3014瀏覽 ? 0回復
先進的多文檔問答（MDQA）框架HiQA：大幅降低區分度低的復雜多文檔RAG的幻覺問題

AI博物院 ? 2715瀏覽 ? 0回復
【多模態&RAG】多模態RAG ColPali實踐

大模型自然語言處理 ? 2381瀏覽 ? 0回復
HiQA：一種用于多文檔問答的層次化上下文增強RAG

大模型自然語言處理 ? 2391瀏覽 ? 0回復
M3DocRAG：文檔問答用哪個多模態大模型效果最好？

大語言模型論文跟蹤 ? 3094瀏覽 ? 0回復
文檔截圖嵌入統一多模態檢索方法原理

大模型自然語言處理 ? 2324瀏覽 ? 0回復
基于谷歌Gemini多模態模型實現PDF文檔自動化處理

51CTO內容精選 ? 2934瀏覽 ? 0回復
RAG在智能問答系統中的應用

數字化助推器 ? 2744瀏覽 ? 0回復
簡單有效的企業多模態RAG問答框架-MuRAR

大模型自然語言處理 ? 2182瀏覽 ? 0回復
allenai開源多模態的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3768瀏覽 ? 0回復
萬字解析非結構化文檔中的隱藏價值：多模態檢索增強生成（RAG）的前景

柏企閱文 ? 1555瀏覽 ? 0回復
開源多模態RAG的視覺文檔(OCR-Free)檢索增強生成方案-VDocRAG

大模型自然語言處理 ? 1039瀏覽 ? 0回復
MDQA 知識圖譜提示用于多文檔問答

AI悠閑區 ? 663瀏覽 ? 0回復
多模態文檔檢索開源方案-三大競賽獲獎方案技術鏈路

大模型自然語言處理 ? 994瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 3天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 4天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：【多模態&RAG】多模態RAG ColPali實踐

下一篇：輕量級級表格識別算法模型-SLANet

社區精華內容

目錄

主站蜘蛛池模板：色频 | 久久精品a | 草在线 | 国产精品久久久久久亚洲调教 | 国产999精品久久久精品三级在线观看 | 波多野结衣一区二区 | 国产精产国品一二三产区视频 | 91久久精品一区二区二区 | av永久免费 | 欧美精品一区二区三区在线播放 | av黄色在线 | 亚洲一区国产 | 欧美在线观看一区 | 国产一区在线免费 | 一区二区三区免费观看 | 久久综合久 | 中文字幕在线视频一区二区三区 | 天天射影院 | 精品一区二区三区在线观看国产 | 国产高清无av久久 | 涩涩鲁亚洲精品一区二区 | 日韩免费毛片 | 免费在线观看91 | 亚洲精品久久久久久国产精华液 | 在线视频成人 | www午夜视频| 亚洲精品久久久一区二区三区 | 亚洲电影第三页 | 久久久五月天 | 在线中文字幕日韩 | 欧美91| 精品久久久久香蕉网 | 成人小视频在线观看 | 久久国产三级 | 久久精品欧美电影 | 蜜桃免费av | 久久精品欧美一区二区三区麻豆 | 久久出精品 | 国产精品18久久久 | 两性午夜视频 | 丁香综合|