多模態RAG演進-MRAG1.0->MRAG2.0->MRAG3.0 原創
MRAG1.0
MRAG1.0是MRAG框架的初始階段,通常被稱為“偽MRAG”。它是對RAG范式的簡單擴展,支持多模態數據。MRAG1.0通過利用現有的基于文本的檢索和生成機制,實現了從RAG到MRAG的平穩過渡。
MRAG1.0的架構
MRAG1.0的架構包括三個關鍵組件:
- 文檔解析和索引:
源:多模GraphRAG初探:文檔智能+知識圖譜+大模型結合范式,https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA
a.使用《??文檔智能解析技術??》處理多模態文檔(如Word、Excel、PDF、HTML),使用OCR或特定格式的解析技術提取文本內容。
b.使用文檔布局檢測模型將文檔分割成結構化元素(如標題、段落、圖像、視頻、表格、頁腳)。
c.對于多模態數據,使用專門的模型生成描述圖像、視頻和其他非文本元素的標題。
d.索引階段:將這些塊和標題編碼成向量表示,并存儲在向量數據庫中。
- 檢索:
使用與索引相同的嵌入模型將用戶查詢編碼成向量表示。如:余弦相似度、BGE等進行相似度計算從向量數據庫中檢索最相關的塊和標題。合并重復或重疊的信息,形成外部知識的綜合集合,并將其集成到生成階段的提示中。 - 生成:
將用戶查詢和檢索到的文檔合成為一個連貫的提示。結合其參數化知識和檢索到的外部信息,使用LLM生成答案。在多輪對話中,系統將對話歷史記錄集成到提示中,實現上下文感知和無縫交互。
局限性
- 文檔解析繁瑣:將多模態數據轉換為文本描述增加了系統的復雜性,并導致模態特定信息的丟失。
- 檢索瓶頸:文本向量檢索技術雖然成熟,但在處理多模態數據時存在挑戰,導致檢索精度不高。
- 生成挑戰:處理多模態數據和圖像標題等需要有效組織這些元素,同時最小化冗余并保留相關信息。
MRAG2.0
MRAG2.0的架構
與MRAG1.0不同,MRAG2.0不僅支持多模態輸入的查詢,還在知識庫中保留了原始的多模態數據。
MRAG2.0的架構包括幾個關鍵的優化:
- MLLMs Captions: 利用MLLMs的表示能力,特別是Captions任務的能力,使用單個或多個MLLM從多模態文檔中提取Captions。這種方法簡化了文檔解析模塊,減少了其復雜性。
- 多模態檢索:增強檢索模塊以支持多模態用戶輸入,保留原始多模態數據并實現跨模態檢索。允許基于文本的查詢直接檢索相關的多模態數據,結合基于字幕的召回和跨模態搜索能力。
- 多模態生成:增強生成模塊以處理多模態數據,通過集成MLLMs實現用戶查詢和檢索結果的合成。當檢索結果準確且輸入包含原始多模態數據時,生成模塊減少了模態轉換中的信息損失。
局限性
- 多模態數據輸入的準確性:整合多模態數據輸入可能會降低傳統文本查詢描述的準確性。
- 數據格式的多樣性:生成模塊需要高效地組織這些多樣化的數據形式,并清晰地定義生成輸入。
MRAG3.0
MRAG3.0架構圖
MRAG3.0是MRAG的重大演變,引入了結構和功能上的創新,增強了其在多個維度上的能力。
MRAG3.0的創新主要體現在三個方面:
- 增強的文檔解析:在解析過程中保留文檔頁面截圖,最小化數據庫存儲中的信息損失。使用MLLMs對文檔截圖進行向量化并索引,實現基于用戶查詢的相關文檔截圖的高效檢索。
- 真正的端到端多模態:在知識庫構建和系統輸入中強調多模態能力的同時,MRAG3.0引入了多模態輸出能力,完成了端到端的多模態框架。
- 場景擴展:超越傳統的理解能力,MRAG3.0通過模塊調整和添加,將理解和生成能力結合起來。這種統一顯著拓寬了系統的適用性,涵蓋了視覺問答(VQA)、多模態生成和融合多模態輸出等場景。
MRAG3.0支持多種場景:
- 檢索增強場景:通過從外部知識庫中檢索相關內容來提供準確的答案。
- VQA場景:通過動態路由和檢索來最小化不必要的搜索和不相關信息。
- 多模態生成場景:擴展生成任務的能力,通過檢索增強(RA)顯著提高生成任務的性能。
- 融合多模態輸出場景:生成包含多種模態的輸出,如文本、圖像或視頻。
修改模塊
- 文檔解析和索引模塊:使用MLLMs對文檔截圖進行向量化并索引,確保高效檢索相關文檔截圖。通過保留文檔截圖,解決了信息損失問題,并提高了知識庫的可靠性。
- 生成:集成理解和生成能力,通過多模態輸出增強子模塊實現從文本到多模態輸出的轉變。包括原生MLLM-based輸出和增強多模態輸出兩種方法。
新模塊
多模態搜索規劃:解決MRAG系統中的關鍵決策挑戰,包括檢索分類和查詢重構。檢索分類確定最優的檢索策略,查詢重構通過整合視覺信息和歷史檢索結果來優化查詢。
前面兩個階段的流程前期內容都有相關介紹,下面來詳細看下MRAG3.0的整體過程,也就是這張架構圖。
MRAG3.0架構圖
1. 文檔解析(Documents Parsing)
- 輸入:系統接受多種類型的文檔(如PDF、HTML等)。
- 處理:
a.**Extractive-Based Module (Same with MRA2.0)**:使用提取模塊(可能是基于MRA2.0的模型)將文檔解析為純文本數據(Plain Text Data)和多模態數據(Multimodal Data)。
b.純文本數據:包括文本塊(Text Chunks)。
c.多模態數據:包括圖像(Image)、表格(Table)、屏幕截圖(Screenshots)等。
d.圖像處理:圖像會生成對應的描述(Image Captions)。
- 輸出:解析后的數據分為純文本和多模態數據,準備進入索引階段。
2. 索引(Indexing)
- 目的:將解析后的數據存儲到數據庫中,以便后續檢索。
- 處理:
a.文本嵌入(Text Embedding Model):將純文本數據嵌入為向量,存儲到文本向量數據庫(Text Vector DB)。
b.多模態嵌入(Multimodal Embedding Model):將多模態數據(包括圖像、表格等)嵌入為向量,存儲到多模態向量數據庫(Multimodal Vector DB)。
c.屏幕截圖嵌入(Documents/Screenshots Embedding Model):單獨處理文檔和屏幕截圖,嵌入后存儲到屏幕截圖向量數據庫(Documents/Screenshots Vector DB)。
- 輸出:三個向量數據庫(Text Vector DB、Multimodal Vector DB、Documents/Screenshots Vector DB)存儲了嵌入后的數據。
3. 多模態檢索規劃(Multimodal Search Planning)
- 輸入:用戶查詢(Query)及其歷史數據(History)。
- 處理:
a.如果不需要(No),直接生成多模態提示(Multimodal Prompt,No search)。
b.如果需要(Yes),進一步判斷是否為純文本查詢(Text Only?)。
c.如果需要檢索(With search),生成帶檢索的純文本提示(Text Only Prompt, With search)。
d.如果不需要檢索(No search),生成不帶檢索的純文本提示(Text Only Prompt, No search)。
e.純文本查詢(Yes):生成純文本提示(Text Only Prompt)。
f.非純文本查詢(No):生成多模態提示(Multimodal Prompt, With search)。
g.檢索分類(Retrieval Classification):判斷查詢是否需要檢索外部數據。
h.查詢重構(Query Reformation):根據需要重構查詢,生成新的查詢(New Query)。
- 輸出:生成適合檢索的提示(Prompt)或重構后的新查詢。
4. 檢索(Retrieval)
- 輸入:多模態提示(Multimodal Prompt)或純文本提示(Text Only Prompt)。
- 處理:
a.Position Identification:確定相關數據的位置。
b.Candidate Set Retrieval:獲取候選數據集合。
c.Matching and Insertion:將檢索到的數據與查詢匹配并插入。
d.純文本提示:從Text Vector DB中檢索。
e.多模態提示:從Multimodal Vector DB和Documents/Screenshots Vector DB中檢索。
f.根據提示類型,從對應的向量數據庫中檢索相關數據:
g.檢索結果包括:
- 輸出:增強的多模態輸出(Augmented Multimodal Output),包含檢索到的相關數據。
5. 生成(Generation)
- 輸入:增強的多模態輸出。
- 處理:
a.如果是(Yes),直接交給大語言模型(LLMs)生成純文本回答。
b.如果不是(No),交給多模態大語言模型(MLLMs)生成多模態回答。
c.判斷是否為純文本查詢(Text Only?):
- 輸出:最終的多模態回答(Multimodal Answer),可能包含文本、圖像、表格等。
6. 輸出(Multimodal Answer)
- 形式:生成的回答可能是純文本,也可能是多模態內容(例如文本+圖像+表格)。
- 示例:圖中展示了一個包含文本、圖像和圖表的回答。
僅供參考。
參考文獻:A Survey on Multimodal Retrieval-Augmented Generation,https://arxiv.org/pdf/2504.08748
公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g??
