GraphRAG變種:HippoRAG進化到HippoRAG2.0,提升多跳復雜推理性能 原創
前面文章??什么時候用GraphRAG?RAG VS GraphRAG綜合分析???如下表經過評測提到:HippoRAG2生成的圖更為密集,提高了信息連接性和覆蓋范圍。并且這種變種的GraphRAG在需要多跳推理和上下文綜合的任務中表現優異。
下面我們來看一看HippoRAG2如何通過增加知識圖譜等結構來增強向量嵌入,以解決一些差距,即理解和關聯性。供參考。
方法
HippoRAG 模擬了大腦皮層和海馬體在人類記憶中的不同作用。使用 LLM 將語料庫轉換為知識圖譜 (KG)作為人工海馬索引。給定一個新的查詢,HippoRAG 提取關鍵概念,并在 KG 上運行個性化 PageRank (PPR) 算法,以查詢概念為種子,整合不同段落的信息進行檢索。
PageRank 使 HippoRAG 能夠探索知識圖譜路徑并識別相關子圖,本質上是在單個檢索步驟中執行多跳推理。這種高效的圖搜索模擬了海馬體從部分線索中提取相關信號的過程。PPR 中的節點概率會在索引段落上進行聚合,從而對其進行排序以供檢索。
HippoRAG 2
HippoRAG 2 在HippoRAG的基礎上進行了幾項關鍵改進,如下:
1、密集-稀疏整合:HippoRAG知識圖譜中的節點主要由描述概念的短語組成,我們在本文中將這些節點稱為短語節點。這種圖結構引入了與概念-上下文權衡相關的限制。概念簡潔且易于泛化,但通常會丟失信息。HippoRAG 2改進: 在知識圖譜(KG)中同時整合了概念(短語節點)和上下文(段落節點),以更好地模擬人類記憶中的概念與上下文的交互。這種整合使得 KG 不僅包含概念信息,還包含豐富的上下文信息,從而增強了檢索的全面性和準確性。
2、更深層次的上下文化:觀察到HippoRAG中的查詢解析主要圍繞概念展開,這經常忽視了知識圖譜(KG)內的上下文對齊。這種以實體為中心的提取和索引方法對概念有強烈的偏好,導致許多上下文信號被利用不足。HippoRAG 2改進: 引入了更深層次的上下文鏈接方法,允許查詢直接與 KG 中的三元組進行匹配,而不僅僅是實體或節點。這種方法提高了查詢與知識圖譜之間的語義匹配度,使得檢索結果更加相關和準確。
3、識別記憶:引入了識別記憶機制,作為查詢到三元組檢索過程的一個過濾步驟。通過使用 LLM 過濾檢索到的三元組,HippoRAG 2 能夠更有效地選擇相關的種子節點,從而提高檢索的精度和效率。
4、在線檢索的改進:在在線檢索過程中,HippoRAG 2 不僅考慮了短語節點的排名分數,還將段落節點的嵌入相似性納入重置概率的計算中。這種方法平衡了概念節點和上下文節點的影響,使得檢索結果更加全面和準確。
實驗
數據集設計:選擇了多個數據集來評估RAG系統在保留事實記憶、增強關聯性和理解能力方面的表現。數據集包括自然問題(NQ)、PopQA、MuSiQue、2Wiki、HotpotQA、LV-Eval和NarrativeQA。
基線方法:選擇了三種簡單的基線方法(BM25、Contriever、GTR)和幾種大型嵌入模型(GTE-Qwen2-7B-Instruct、GritLM-7B、NV-Embed-v2),以及四種結構增強的RAG方法(RAPTOR、GraphRAG、LightRAG、HippoRAG)。
QA性能
檢索性能
消融實驗:查詢到三元組的方法顯著提高了HippoRAG 2的性能
參考文獻:
- HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models,https://arxiv.org/pdf/2405.14831
- From RAG to Memory: Non-Parametric Continual Learning for Large Language Models,https://arxiv.org/pdf/2502.14802v2
- code:https://github.com/OSU-NLP-Group/HippoRAG
本文轉載自???大模型自然語言處理??? 作者:余俊暉
