PathRAG:通過圖剪枝的方法優化Graph-based RAG的性能方法淺析 原創
PathRAG 也是一種新型 Graph-based RAG 方法,通過檢索索引圖中的關鍵關系路徑,減少噪聲并優化 LLM 提示。其核心創新在于基于流的剪枝算法和路徑為基礎的提示策略,特別適用于捕捉復雜數據集中的關系。(其實可以看做相比GraphRAG假如剪枝算法和路徑提示策略,減少噪聲并提升性能)
三種Graph-based RAG對比總結(PathRAG、GraphRAG、LightRAG):
? PathRAG:通過從索引圖中檢索關鍵的關系路徑來減少冗余信息。PathRAG使用基于流的剪枝算法來識別和提取最相關的路徑,從而減少噪聲并提高生成答案的質量。(專注于關系路徑的檢索,通過流式剪枝算法識別最可靠的關系路徑,并將這些路徑轉換為文本形式用于提示生成模型。這種方法能夠更好地捕捉節點之間的關系。)
? GraphRAG:通常通過社區檢測算法對圖進行分割,并從子社區中逐步聚合信息。這種方法可能會包含大量冗余信息,因為其使用了所有相關社區的信息。(主要依賴于社區檢測和信息聚合,可能無法有效利用復雜的關系路徑。)
? LightRAG:采用雙階段檢索框架,從局部和全局級別檢索相關信息。雖然這種方法提高了檢索效率,但仍然可能包含不必要的信息。(雖然也使用圖結構,但其檢索過程更側重于快速檢索,可能沒有深入探索關系路徑的潛力。)
下面再來看看PathRAG的方法,供參考。
PathRAG方法
包含三個主要階段。1)節點檢索階段:根據查詢中的關鍵詞,從索引圖中檢索相關節點;2)路徑檢索階段:我們設計了一種基于流程的剪枝算法,提取每對檢索節點之間的關鍵關系路徑,然后檢索可靠性得分最高的路徑;3)答案生成階段:檢索到的路徑按照可靠性得分升序排列放入提示中,最后輸入到大型語言模型中進行答案生成。
PathRAG 的方法論分為三個階段,具體如下:
- 節點檢索
- 路徑檢索
- 答案生成
這種排序策略解決了“中間丟失”問題,確保 LLM 關注最相關信息(LLM使用 “GPT-4o-mini” 作為所有 LLM 組件,索引圖與 GraphRAG相同。)。
實驗結果
參考文獻:PathRAG: Pruning Graph-based Retrieval Augmented Generation with Relational Paths,https://arXiv.org/abs/2502.14902)
code:https://github.com/BUPT-GAMMA/PathRAG
公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/AuYQB-gofBpN7D_jS32efQ??
