成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

再看多模態RAG進行文檔問答的方案

發布于 2024-11-20 15:20
瀏覽
0收藏

先說結論:這篇文章的方法和前面介紹的兩個多模態RAG的工作非常相似,可以看看往期介紹:

M3DOCRAG同樣也指出,現有的方法要么專注于單頁文檔的多模態語言模型,要么依賴于基于文本的RAG方法,這些方法使用OCR等文本提取工具。然而,這些方法在實際應用中存在困難,例如問題通常需要跨不同頁面或文檔的信息,而MLMs無法處理長文檔;并且,文檔中重要的視覺元素(如圖、表等)往往被文本提取工具忽略。

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DoCRAG和以往方法對比

:文章代碼和數據集暫未開源,但都是使用ColPali和qwen2-vl實現,筆者在前面文檔也恰好實踐了一個簡單的RAG-ColPali,供參考:

??【多模態&RAG】多模態RAG ColPali實踐??

方法

  • 文檔嵌入:和RAG-ColPali很相似,文檔嵌入使用ColPali將所有文檔頁面轉換為RGB圖像,并從頁面圖像中提取視覺嵌入。(ColPali是一種基于后期交互機制的多模態檢索模型,它將文本和圖像輸入編碼為統一的向量表示,并檢索最相關的圖像。其原理可以看看往期對ColPali的介紹《??ColPali??》)


再看多模態RAG進行文檔問答的方案-AI.x社區


M3DOCRAG流程

  • 頁面檢索:也和RAG-ColPali使用的方法相似,也是使用MaxSim分數計算查詢與頁面之間的相關性,并檢索與文本查詢top-K個頁面。
  • 答案生成:使用多模態語言模型(MLM)對檢索到的頁面圖像進行視覺問答,以獲得最終答案。該方法使用的是qwen2-vl-7b

數據集

M3DocVQA包含3,368個PDF文檔,總計41,005頁,涵蓋開放域和封閉域的DocVQA任務。

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DocVQA與現有DocVQA數據集對比

再看多模態RAG進行文檔問答的方案-AI.x社區

M3DocVQA中PDF集合的示意圖

實驗結果

再看多模態RAG進行文檔問答的方案-AI.x社區

再看多模態RAG進行文檔問答的方案-AI.x社區

參考文獻

??https://arxiv.org/pdf/2411.04952v1??


本文轉載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/Fpbw_IuuTlW6g0HyAgdJJw??

已于2024-11-28 18:52:01修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色频 | 久久精品a | 草在线 | 国产精品久久久久久亚洲调教 | 国产999精品久久久 精品三级在线观看 | 波多野结衣一区二区 | 国产精产国品一二三产区视频 | 91久久精品一区二区二区 | av永久免费 | 欧美精品一区二区三区在线播放 | av黄色在线 | 亚洲一区国产 | 欧美在线观看一区 | 国产一区在线免费 | 一区二区三区免费观看 | 久久综合久 | 中文字幕在线视频一区二区三区 | 天天射影院 | 精品一区二区三区在线观看国产 | 国产高清无av久久 | 涩涩鲁亚洲精品一区二区 | 日韩免费毛片 | 免费在线观看91 | 亚洲精品久久久久久国产精华液 | 在线视频成人 | www午夜视频| 亚洲精品久久久一区二区三区 | 亚洲电影第三页 | 久久久五月天 | 在线中文字幕日韩 | 欧美91| 精品久久久久香蕉网 | 成人小视频在线观看 | 久久国产三级 | 久久精品欧美电影 | 蜜桃免费av | 久久精品欧美一区二区三区麻豆 | 久久出精品 | 国产精品18久久久 | 两性午夜视频 | 丁香综合|