ViDoRAG:提升視覺RAG性能10% 精華
ViDoRAG——一個專為視覺文檔復雜推理設計的多智能體 RAG 框架。ViDoRAG 采用基于高斯混合模型(GMM)的混合策略,實現高效多模態檢索。為進一步挖掘模型推理潛力,我們設計了一個包含探索、總結與反思的迭代智能體工作流,為研究 RAG 領域的測試時擴展提供了全新框架,超越現有方法 10%以上。
https://arxiv.org/abs/2502.18017
一、為什么需要 ViDoRAG 技術?
圖片
1.1 視覺文檔的復雜性
在信息爆炸的時代,視覺文檔(如包含圖表、表格、圖像的文件)在教育、金融、法律等多個領域廣泛應用。這些文檔不僅包含文本信息,還通過視覺元素傳遞關鍵信息。然而,傳統的檢索增強生成(Retrieval-Augmented Generation, RAG)方法在處理這些視覺文檔時面臨巨大挑戰,因為它們難以有效整合文本和視覺特征。例如,一份金融報告可能包含復雜的圖表和表格,傳統的 RAG 系統只能提取文本信息,而忽略了圖表中的關鍵數據,導致信息不完整。
1.2 現有方法的局限性
現有的視覺問答(Visual Question Answering, VQA)基準主要針對單一圖像或文檔,無法應對大規模文檔集合中的復雜推理任務。例如,傳統的 VQA 數據集通常要求每個問題與特定的圖像或文檔配對,但在實際應用中,用戶可能需要從數百個文檔中檢索信息。此外,傳統的 OCR(光學字符識別)檢索方法在處理視覺信息時表現不佳,導致檢索結果不準確。例如,OCR 可能無法正確識別圖表中的數字或符號,從而影響后續的推理和生成。
1.3 ViDoRAG 的誕生
為了填補這一空白,ViDoRAG 應運而生。它通過多模態檢索和迭代推理代理,顯著提升了視覺文檔的檢索和生成能力,為復雜推理任務提供了全新的解決方案。例如,ViDoRAG 在處理一份包含多個圖表的學術論文時,能夠同時提取文本和圖表中的信息,并通過迭代推理生成準確的答案。這種創新方法不僅提高了信息檢索的準確性,還增強了生成模型在處理復雜視覺文檔時的推理能力。
二、ViDoRAG 技術架構
圖片
2.1 多模態混合檢索
ViDoRAG 的核心創新之一是多模態混合檢索策略。它結合了文本和視覺兩種檢索管道,通過高斯混合模型(Gaussian Mixture Model, GMM)動態調整檢索結果分布。這種方法能夠為每個查詢找到最優的檢索分布,從而減少不必要的計算,提升生成效率。
在傳統的檢索方法中,通常會使用一個固定的參數 K 來檢索最相關的 K 個圖像或文本片段。然而,這種方法存在兩個問題:
? 一是 K 值過小可能導致檢索到的信息不足,無法準確回答問題;
? 二是 K 值過大會引入噪聲,增加計算開銷。
ViDoRAG 通過 GMM 模型動態調整 K 值,根據查詢與文檔集合的相似度分布,自動確定最佳的 K 值。
GMM 模型將相似度分布分為兩個高斯分布,分別代表高相似度和低相似度的文檔。通過期望最大化(Expectation-Maximization, EM)算法,GMM 模型能夠估計每個模態的先驗概率,從而動態調整 K 值。
這種動態調整策略不僅提高了檢索的準確性,還顯著減少了計算開銷。實驗表明,ViDoRAG 在檢索任務中的表現優于傳統的固定 K 值方法,尤其是在處理大規模文檔集合時,能夠更高效地找到相關信息。
2.2 迭代推理代理
ViDoRAG 引入了三種智能體:搜索智能體(Seeker Agent)、審查智能體(Inspector Agent)和回答智能體(Answer Agent)。這種多智能體框架通過迭代推理的方式,逐步優化答案的生成過程,減少了無關信息的干擾,提升了推理的魯棒性。
?搜索智能體(Seeker Agent):負責快速掃描文檔并選擇相關圖像。它根據查詢和審查代理的反饋,逐步縮小檢索范圍,確保每次迭代都能找到更相關的信息。
?審查智能體(Inspector Agent):則對搜索代理選擇的圖像進行詳細審查,并提供初步答案或反饋。如果當前信息不足以回答問題,審查代理會指導搜索代理進一步檢索相關圖像。
?回答智能體(Answer Agent):負責整合審查代理的初步答案,并生成最終的答案。
這種迭代推理的框架不僅提高了答案的準確性,還增強了模型在處理復雜查詢時的魯棒性。實驗表明,ViDoRAG 在復雜推理任務中的表現顯著優于傳統的單步推理方法。
2.3 開源資源
ViDoRAG 的代碼和數據集已在 GitHub 上開源,地址為:https://github.com/Alibaba-NLP/ViDoRAG。
圖片
下圖為數據集構建流程:
圖片
三、ViDoRAG 的應用與效果評估
3.1 性能提升
圖片
在閉源和開源模型上進行了對比,包括 GPT-4o、Qwen2.5-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Llama3.2-Vision-90B-Instruct。
? 閉源模型表現優于開源模型。
? Qwen2.5-VL-7B 在 ViDoRAG 中展示了出色的指令跟隨和推理能力。
? Llama3.2-VL 需要 90B 參數才能完成相同的指令,可能與模型的預訓練領域有關。
3.2 檢索效率
圖片
注:
Recall@K 表示在前 K 個檢索結果中,系統成功檢索到正確答案的比例。
MRR@K 是衡量系統檢索到正確答案的平均排名的倒數。
上圖各種檢索器的詳細性能,包括基于 OCR 和基于視覺的檢索器。由于動態檢索在查詢之間存在不確定性,使用結果的平均長度進行分析。
動態檢索可以在較短的上下文長度下實現更好的召回性能,而混合檢索結合了兩個管道的結果,達到了最先進的性能。
3.3 消融實驗
圖片
上表展示了不同檢索器和生成方法對性能的影響。將動態檢索分解為兩個部分:動態和混合。Naive 方法指直接輸入,作為基線使用。
? 動態方法指僅基于視覺管道使用 GMM 擬合最佳召回分布。
? 混合方法指直接合并視覺和文本檢索結果,由于上下文較長,導致次優結果。
上述結果表明:ViDoRAG在檢索和生成模塊上的改進及其組合能夠從多個角度全面提升端到端性能。
3.4 時間效率
3.4.1 動態檢索如何平衡延遲與準確性?
在傳統的 RAG 系統中,使用較小的 top-K 值可能導致遺漏關鍵信息,而使用較大的值則會引入噪聲并增加計算開銷。
ViDoRAG 根據查詢與語料庫之間的相似度分布動態確定要檢索的文檔數量,確保僅檢索最相關的文檔,從而減少不必要的計算并加速生成過程。
圖片
如上表,比較了使用和不使用 GMM 的檢索方法。實驗表明,GMM 可能會由于分布偏差而降低召回率,但由于顯著縮短了生成上下文,因此在端到端評估中有效提升了性能。
3.4.2 多代理生成的延遲分析
圖片
由于多智能體系統的迭代性質,延遲有所增加,如上圖所示。每個智能體按順序執行特定任務,與傳統直接 RAG 相比增加了少量開銷。然而,盡管延遲增加,生成答案的質量提高使得在復雜 RAG 任務中這種權衡非常有益
3.5 生成的多模態與策略
圖片
如上圖所示,基于視覺的Pipeline 在所有類型的查詢中均優于基于文本的 Pipeline。
由于模型的固有特性,LLM 的推理能力比 VLM 更強。然而,缺乏視覺信息使得模型難以識別信息之間的內在聯系。這也對基于視覺豐富文檔的生成提出了挑戰。在獲取視覺信息的同時,ViDoRAG 進一步增強了 VLM 的推理能力,在準確性和計算負載之間取得了平衡。
3.6 測試時擴展的性能
圖片
上圖展示了 ViDoRAG 中 Seeker 和 Inspector 之間的交互輪次。
性能較強的模型需要較少的推理迭代,而較弱的模型通常需要更多時間來處理并得出結論。
本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI
