圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！

NLP前沿1

發(fā)布于 2025-3-18 07:49

瀏覽

0收藏

基于圖的 RAG 統(tǒng)一框架 in-depth 分析

作者：港中深與華為的研究人員

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

核心速覽

研究背景

研究問題：這篇文章要解決的問題是如何在統(tǒng)一框架下對(duì)基于圖的檢索增強(qiáng)生成 (RAG) 方法進(jìn)行系統(tǒng)的比較和分析。現(xiàn)有的基于圖的 RAG 方法沒有在同一實(shí)驗(yàn)設(shè)置下進(jìn)行系統(tǒng)的比較。

研究難點(diǎn)：包括缺乏統(tǒng)一的框架來抽象和比較各種基于圖的 RAG 方法；現(xiàn)有工作主要關(guān)注整體性能評(píng)估而非單個(gè)組件的性能；以及缺乏對(duì)各種方法在準(zhǔn)確性和效率方面的全面比較。

相關(guān)工作：涉及 RAG 技術(shù)在醫(yī)療、金融、教育等領(lǐng)域的廣泛應(yīng)用，以及已有的基于圖的 RAG 方法（如 RAPTOR、KGP、HippoRAG 等），但這些方法缺乏系統(tǒng)比較和分析。

研究方法

圖構(gòu)建：將大規(guī)模語料庫分割成多個(gè)塊，并使用 LLM 或其他工具從中提取節(jié)點(diǎn)和邊構(gòu)建圖（如 passage graph、tree、knowledge graph、textual knowledge graph 和 rich knowledge graph）。
索引構(gòu)建：為高效在線查詢，構(gòu)建存儲(chǔ)圖中實(shí)體或關(guān)系的索引，并計(jì)算社區(qū)報(bào)告實(shí)現(xiàn)高效檢索。索引類型包括節(jié)點(diǎn)索引、關(guān)系索引和社區(qū)索引。
操作符配置：在統(tǒng)一框架下，任何現(xiàn)有的基于圖的 RAG 方法均可通過選擇特定操作符（節(jié)點(diǎn)、關(guān)系、塊、子圖、社區(qū)）并組合實(shí)現(xiàn)。
檢索與生成：將用戶輸入的問題轉(zhuǎn)換為檢索原語，利用選定操作符檢索信息，再與問題一起輸入 LLM 生成答案。答案生成包括直接生成和 Map-Reduce 兩種范式。

實(shí)驗(yàn)設(shè)計(jì)

數(shù)據(jù)集：使用了 11 個(gè)真實(shí)世界數(shù)據(jù)集，如 MultihopQA、Quality、PopQA、MusiqueQA、HotpotQA、ALCE、Mix、MultihopSum、Agriculture、CS 和 Legal。
評(píng)估指標(biāo)：對(duì)特定問題任務(wù)采用準(zhǔn)確率和召回率；對(duì)抽象問題任務(wù)采用全面性、多樣性、賦能和總體質(zhì)量等指標(biāo)。
實(shí)現(xiàn)：所有算法均在 Python 中實(shí)現(xiàn)，并使用提出的統(tǒng)一框架，實(shí)驗(yàn)覆蓋 350 集數(shù)據(jù)集。
超參數(shù)設(shè)置：對(duì)于需要 top-k 選擇的方法（如塊或?qū)嶓w），設(shè)置 ( k=4 ) 以適應(yīng)令牌長度限制，并采用 BGE-M3 模型生成節(jié)點(diǎn)和關(guān)系的嵌入向量。

結(jié)果與分析

特定問題任務(wù)的性能：RAG 技術(shù)顯著提高了 LLM 的性能。比如，在 Quality 數(shù)據(jù)集上，RAPTOR 相較于 ZeroShot 提高了 53.80% 的準(zhǔn)確性，但若檢索到的元素不相關(guān)則可能降低性能。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

圖構(gòu)建和索引構(gòu)建的成本：構(gòu)建樹的令牌成本最低，而 TKG 和 RKG 的成本最高。對(duì)于大型數(shù)據(jù)集，GraphRAG 的離線階段成本較高。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

生成成本：ZeroShot 和 Vanilla RAG 在時(shí)間和令牌消耗方面較為經(jīng)濟(jì)，而 KGP 和 ToG 由于依賴 LLM 檢索信息成本較高。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

復(fù)雜問題任務(wù)的新 SOTA 算法：提出了 VGraphRAG，通過結(jié)合實(shí)體、關(guān)系、社區(qū)和塊四種元素有效指導(dǎo) LLM 生成準(zhǔn)確答案，在 ALCE 數(shù)據(jù)集上分別在 STRREC、STREM 和 STRHIT 上提高了 8.47%、13.18% 和 4.93%。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

抽象問題任務(wù)的性能：基于圖的 RAG 方法通常優(yōu)于 Vanilla RAG，GGraphRAG 和 RAPTOR 因在提示中加入高層次總結(jié)文本表現(xiàn)更佳。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

新 SOTA 算法的成本效益：設(shè)計(jì)了成本效益更高的 CheapRAG，通過選擇最有用的社區(qū)和塊顯著減少令牌成本，在 MultihopSum 數(shù)據(jù)集上相比 GGraphRAG 降低了 100 倍令牌成本，同時(shí)提升了答案質(zhì)量。

圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！-AI.x社區(qū)

總體結(jié)論

本文對(duì)現(xiàn)有基于圖的 RAG 方法進(jìn)行了深入實(shí)驗(yàn)評(píng)估和比較，提出了一個(gè)新的統(tǒng)一框架覆蓋所有現(xiàn)有方法，并識(shí)別出關(guān)鍵性能影響因素和未來研究機(jī)會(huì)。

論文評(píng)價(jià)

優(yōu)點(diǎn)與創(chuàng)新

統(tǒng)一框架：提出了一個(gè)新穎的統(tǒng)一框架，涵蓋所有現(xiàn)有基于圖的檢索增強(qiáng)生成 (RAG) 方法，并抽象出關(guān)鍵操作。
全面比較：在統(tǒng)一框架下系統(tǒng)比較了 12 種代表性方法，提供了深入分析。
新變體識(shí)別：結(jié)合現(xiàn)有技術(shù)識(shí)別出新的 RAG 方法變體，在部分任務(wù)上優(yōu)于最先進(jìn)方法。
實(shí)驗(yàn)設(shè)計(jì)：在多個(gè)常用 QA 數(shù)據(jù)集上進(jìn)行了全面實(shí)驗(yàn)，評(píng)估不同查詢類型下的方法性能。
模塊化設(shè)計(jì)：模塊化設(shè)計(jì)允許各階段（圖構(gòu)建、檢索、生成）獨(dú)立優(yōu)化和組合，提升靈活性。
操作符設(shè)計(jì)：通過調(diào)整檢索階段或交換組件，便于快速測(cè)試和實(shí)施新策略，加速模型開發(fā)。
標(biāo)準(zhǔn)化評(píng)估：提供了標(biāo)準(zhǔn)化評(píng)估方法，確保結(jié)果可重復(fù)，促進(jìn)公平基準(zhǔn)測(cè)試，為未來創(chuàng)新提供支持。