成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sub id="cztsu"><tr id="cztsu"></tr></sub>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0 原創

大模型自然語言處理

發布于 2025-5-8 06:42

瀏覽

0收藏

MRAG1.0

MRAG1.0是MRAG框架的初始階段，通常被稱為“偽MRAG”。它是對RAG范式的簡單擴展，支持多模態數據。MRAG1.0通過利用現有的基于文本的檢索和生成機制，實現了從RAG到MRAG的平穩過渡。

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區

MRAG1.0的架構

MRAG1.0的架構包括三個關鍵組件：

文檔解析和索引：

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區

源：多模GraphRAG初探：文檔智能+知識圖譜+大模型結合范式，https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA

a.使用《??文檔智能解析技術??》處理多模態文檔（如Word、Excel、PDF、HTML），使用OCR或特定格式的解析技術提取文本內容。

b.使用文檔布局檢測模型將文檔分割成結構化元素（如標題、段落、圖像、視頻、表格、頁腳）。

c.對于多模態數據，使用專門的模型生成描述圖像、視頻和其他非文本元素的標題。

d.索引階段：將這些塊和標題編碼成向量表示，并存儲在向量數據庫中。

檢索：
使用與索引相同的嵌入模型將用戶查詢編碼成向量表示。如：余弦相似度、BGE等進行相似度計算從向量數據庫中檢索最相關的塊和標題。合并重復或重疊的信息，形成外部知識的綜合集合，并將其集成到生成階段的提示中。
生成：
將用戶查詢和檢索到的文檔合成為一個連貫的提示。結合其參數化知識和檢索到的外部信息，使用LLM生成答案。在多輪對話中，系統將對話歷史記錄集成到提示中，實現上下文感知和無縫交互。

局限性

文檔解析繁瑣：將多模態數據轉換為文本描述增加了系統的復雜性，并導致模態特定信息的丟失。
檢索瓶頸：文本向量檢索技術雖然成熟，但在處理多模態數據時存在挑戰，導致檢索精度不高。
生成挑戰：處理多模態數據和圖像標題等需要有效組織這些元素，同時最小化冗余并保留相關信息。

MRAG2.0

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區

MRAG2.0的架構

與MRAG1.0不同，MRAG2.0不僅支持多模態輸入的查詢，還在知識庫中保留了原始的多模態數據。

MRAG2.0的架構包括幾個關鍵的優化：

MLLMs Captions：利用MLLMs的表示能力，特別是Captions任務的能力，使用單個或多個MLLM從多模態文檔中提取Captions。這種方法簡化了文檔解析模塊，減少了其復雜性。
多模態檢索：增強檢索模塊以支持多模態用戶輸入，保留原始多模態數據并實現跨模態檢索。允許基于文本的查詢直接檢索相關的多模態數據，結合基于字幕的召回和跨模態搜索能力。
多模態生成：增強生成模塊以處理多模態數據，通過集成MLLMs實現用戶查詢和檢索結果的合成。當檢索結果準確且輸入包含原始多模態數據時，生成模塊減少了模態轉換中的信息損失。

局限性

多模態數據輸入的準確性：整合多模態數據輸入可能會降低傳統文本查詢描述的準確性。
數據格式的多樣性：生成模塊需要高效地組織這些多樣化的數據形式，并清晰地定義生成輸入。

MRAG3.0

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區

MRAG3.0架構圖

MRAG3.0是MRAG的重大演變，引入了結構和功能上的創新，增強了其在多個維度上的能力。

MRAG3.0的創新主要體現在三個方面：

增強的文檔解析：在解析過程中保留文檔頁面截圖，最小化數據庫存儲中的信息損失。使用MLLMs對文檔截圖進行向量化并索引，實現基于用戶查詢的相關文檔截圖的高效檢索。
真正的端到端多模態：在知識庫構建和系統輸入中強調多模態能力的同時，MRAG3.0引入了多模態輸出能力，完成了端到端的多模態框架。
場景擴展：超越傳統的理解能力，MRAG3.0通過模塊調整和添加，將理解和生成能力結合起來。這種統一顯著拓寬了系統的適用性，涵蓋了視覺問答（VQA）、多模態生成和融合多模態輸出等場景。

MRAG3.0支持多種場景：

檢索增強場景：通過從外部知識庫中檢索相關內容來提供準確的答案。
VQA場景：通過動態路由和檢索來最小化不必要的搜索和不相關信息。
多模態生成場景：擴展生成任務的能力，通過檢索增強（RA）顯著提高生成任務的性能。
融合多模態輸出場景：生成包含多種模態的輸出，如文本、圖像或視頻。

修改模塊

文檔解析和索引模塊：使用MLLMs對文檔截圖進行向量化并索引，確保高效檢索相關文檔截圖。通過保留文檔截圖，解決了信息損失問題，并提高了知識庫的可靠性。
生成：集成理解和生成能力，通過多模態輸出增強子模塊實現從文本到多模態輸出的轉變。包括原生MLLM-based輸出和增強多模態輸出兩種方法。

新模塊

多模態搜索規劃：解決MRAG系統中的關鍵決策挑戰，包括檢索分類和查詢重構。檢索分類確定最優的檢索策略，查詢重構通過整合視覺信息和歷史檢索結果來優化查詢。

前面兩個階段的流程前期內容都有相關介紹，下面來詳細看下MRAG3.0的整體過程，也就是這張架構圖。

多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區

MRAG3.0架構圖

1. 文檔解析（Documents Parsing）

輸入：系統接受多種類型的文檔（如PDF、HTML等）。
處理：

a.**Extractive-Based Module (Same with MRA2.0)**：使用提取模塊（可能是基于MRA2.0的模型）將文檔解析為純文本數據（Plain Text Data）和多模態數據（Multimodal Data）。

b.純文本數據：包括文本塊（Text Chunks）。

c.多模態數據：包括圖像（Image）、表格（Table）、屏幕截圖（Screenshots）等。

d.圖像處理：圖像會生成對應的描述（Image Captions）。

輸出：解析后的數據分為純文本和多模態數據，準備進入索引階段。

2. 索引（Indexing）

目的：將解析后的數據存儲到數據庫中，以便后續檢索。
處理：

a.文本嵌入（Text Embedding Model）：將純文本數據嵌入為向量，存儲到文本向量數據庫（Text Vector DB）。

b.多模態嵌入（Multimodal Embedding Model）：將多模態數據（包括圖像、表格等）嵌入為向量，存儲到多模態向量數據庫（Multimodal Vector DB）。

c.屏幕截圖嵌入（Documents/Screenshots Embedding Model）：單獨處理文檔和屏幕截圖，嵌入后存儲到屏幕截圖向量數據庫（Documents/Screenshots Vector DB）。

輸出：三個向量數據庫（Text Vector DB、Multimodal Vector DB、Documents/Screenshots Vector DB）存儲了嵌入后的數據。

3. 多模態檢索規劃（Multimodal Search Planning）

輸入：用戶查詢（Query）及其歷史數據（History）。
處理：

a.如果不需要（No），直接生成多模態提示（Multimodal Prompt，No search）。

b.如果需要（Yes），進一步判斷是否為純文本查詢（Text Only?）。

c.如果需要檢索（With search），生成帶檢索的純文本提示（Text Only Prompt, With search）。

d.如果不需要檢索（No search），生成不帶檢索的純文本提示（Text Only Prompt, No search）。

e.純文本查詢（Yes）：生成純文本提示（Text Only Prompt）。

f.非純文本查詢（No）：生成多模態提示（Multimodal Prompt, With search）。

g.檢索分類（Retrieval Classification）：判斷查詢是否需要檢索外部數據。

h.查詢重構（Query Reformation）：根據需要重構查詢，生成新的查詢（New Query）。

輸出：生成適合檢索的提示（Prompt）或重構后的新查詢。

4. 檢索（Retrieval）

輸入：多模態提示（Multimodal Prompt）或純文本提示（Text Only Prompt）。
處理：

a.Position Identification：確定相關數據的位置。

b.Candidate Set Retrieval：獲取候選數據集合。

c.Matching and Insertion：將檢索到的數據與查詢匹配并插入。

d.純文本提示：從Text Vector DB中檢索。

e.多模態提示：從Multimodal Vector DB和Documents/Screenshots Vector DB中檢索。

f.根據提示類型，從對應的向量數據庫中檢索相關數據：

g.檢索結果包括：

輸出：增強的多模態輸出（Augmented Multimodal Output），包含檢索到的相關數據。

5. 生成（Generation）

輸入：增強的多模態輸出。
處理：

a.如果是（Yes），直接交給大語言模型（LLMs）生成純文本回答。

b.如果不是（No），交給多模態大語言模型（MLLMs）生成多模態回答。

c.判斷是否為純文本查詢（Text Only?）：

輸出：最終的多模態回答（Multimodal Answer），可能包含文本、圖像、表格等。

6. 輸出（Multimodal Answer）

形式：生成的回答可能是純文本，也可能是多模態內容（例如文本+圖像+表格）。
示例：圖中展示了一個包含文本、圖像和圖表的回答。

僅供參考。

參考文獻：A Survey on Multimodal Retrieval-Augmented Generation，https://arxiv.org/pdf/2504.08748

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

已于2025-5-8 06:42:46修改

贊

收藏

回復

舉報

回復

相關推薦

多模態視覺-語言大模型的架構演進

angel ? 5089瀏覽 ? 0回復
MRAG：一種多頭RAG，提升具有顯著不同內容的多個文檔復雜查詢的檢索準確性

PaperAgent ? 4258瀏覽 ? 0回復
2024年以來，學術和產業界的那些SOTA多模態大模型的架構演進之路

angel ? 4023瀏覽 ? 0回復
IBM重磅發布Granite 3.0秒殺同級別大模型|全球首個39語言多模態大模型開源，告別"英語霸權"

sbf_2000 ? 2546瀏覽 ? 0回復
多模態RAG應用開發實戰演練

51CTO內容精選 ? 2375瀏覽 ? 0回復
傳統RAG涼涼？多模態RAG帶來工業級革命

NLP前沿1 ? 2579瀏覽 ? 0回復
一文讀懂：從RAG到多模態RAG

kede96 ? 4271瀏覽 ? 0回復
多模態RAG-VisRAG：基于視覺的檢索增強生成在多模態文檔上的應用

大模型自然語言處理 ? 3030瀏覽 ? 0回復
【多模態&RAG】多模態RAG ColPali實踐

大模型自然語言處理 ? 2385瀏覽 ? 0回復
再看多模態RAG進行文檔問答的方案

大模型自然語言處理 ? 2617瀏覽 ? 0回復
Jina CLIP v2：為多模態RAG設計的向量模型

kede96 ? 3776瀏覽 ? 0回復
多模態RAG構建指南：為AI系統提供更多可能性

51CTO內容精選 ? 2504瀏覽 ? 0回復
LLaVA系列算法架構演進：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

大模型自然語言處理 ? 4528瀏覽 ? 0回復
基于Gemini 2.0和LangGraph實現自主多工具AI代理

51CTO內容精選 ? 2734瀏覽 ? 0回復
?對標DeepSeek，Gemini 2.0輕量模型開卷“極致性價比”！谷歌守住多模態陣地應用們都要開始做推理了！

51CTO技術棧 ? 1820瀏覽 ? 0回復
RAG范式演進及Agentic-RAG總結綜述

大模型自然語言處理 ? 3569瀏覽 ? 0回復
簡單有效的企業多模態RAG問答框架-MuRAR

大模型自然語言處理 ? 2182瀏覽 ? 0回復
Qwen-VL系列多模態大模型技術演進-模型架構、訓練方法、數據細節

大模型自然語言處理 ? 5157瀏覽 ? 0回復
可靈2.0多模態編輯震撼全場！開辟視頻模型的“新語言”，Prompt的門檻被砍沒了！

51CTO技術棧 ? 1901瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

GraphRAG變種：HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 4天前發布
Qwen3 Embedding模型架構、訓練方法、數據策略 5天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： Kimi-VL開源多模態大模型結構、訓練方法、訓練數據淺析

下一篇：多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器

社區精華內容

目錄

主站蜘蛛池模板：黑人巨大精品欧美一区二区免费 | 亚洲性免费 | 成人一区二区在线 | 成人av一区 | 国产伦精品一区二区三区四区视频 | 精品视频在线观看 | 福利一区二区 | 美女网站视频免费黄 | 欧美日韩一区在线 | 久久最新| 中文字幕免费 | 五十女人一级毛片 | 日韩av在线中文字幕 | 日本黄色大片免费看 | 四虎影视免费观看 | 国内精品视频在线观看 | 成人自拍av | 欧美另类视频在线 | 在线国产一区二区 | h片在线观看网站 | 久久人体| 国产精品久久久久久久久久久免费看 | 精品视频一区二区三区在线观看 | 天天看片天天干 | 欧美激情一区二区 | 国产中文字幕网 | 欧美精品一区二区蜜桃 | 国产精品久久久久久久免费大片 | 亚洲视频在线观看 | 日韩欧美在线一区 | 日韩在线三级 | 狠狠操你 | 欧美激情久久久久久 | 亚洲精品3| 亚洲精品久久久久久久久久久 | 在线一区| 免费一级片 | 免费成人国产 | 天天干视频网 | 91国在线视频 | 国产精品久久久久久中文字 |

<fieldset id="hihgi"><acronym id="hihgi"></acronym></fieldset>

<strike id="hihgi"><s id="hihgi"><code id="hihgi"></code></s></strike>