什么時候用GraphRAG?RAG VS GraphRAG綜合分析 原創(chuàng)
RAG VS GraphRAG
最近的研究報告稱,在許多實際任務(wù)中,GraphRAG的表現(xiàn)往往不如普通的RAG。因此產(chǎn)生一個問題:GraphRAG真的有效嗎?在哪些場景下,GraphRAG有收益?為了解決這個問題,提出GraphRAG-Bench,這是一個評測GraphRAG的基準,目的是評估GraphRAG模型在層次知識檢索和深度上下文推理方面的性能。文章指出的評測方式及評測結(jié)論可以參考。
GraphRAG-Bench具有一個全面的數(shù)據(jù)集,任務(wù)難度逐漸增加,涵蓋事實檢索、復雜推理、上下文總結(jié)和創(chuàng)造性生成,并對整個流程進行系統(tǒng)評估,從圖構(gòu)建和知識檢索到最終生成。
RAG VS GraphRAG
下面這張圖可能更清晰的看出RAG和GraphRAG的區(qū)別。
RAG VS GraphRAG
特性 | RAG | GraphRAG |
知識表示 | 使用文本塊(chunks),通過向量嵌入進行索引。 | 使用圖結(jié)構(gòu),節(jié)點代表實體、事件或主題,邊定義邏輯、因果或關(guān)聯(lián)關(guān)系。 |
檢索機制 | 關(guān)鍵詞匹配或向量相似度檢索。 | 圖遍歷,檢索直接相關(guān)節(jié)點及相互連接的子圖。 |
復雜查詢處理 | 適用于需要快速訪問離散信息的任務(wù),但不擅長復雜邏輯推理。 | 適用于需要深度上下文分析和復雜推理的任務(wù),能夠合成來自分散數(shù)據(jù)點的見解。 |
適用場景 | 簡單問答系統(tǒng),需要快速響應(yīng)的任務(wù)。 | 醫(yī)學診斷、法律分析、科學推理等需要深度理解和復雜推理的任務(wù)。 |
復雜性 | 實現(xiàn)相對簡單,依賴現(xiàn)有文本檢索技術(shù)。 | 實現(xiàn)較為復雜,需要構(gòu)建和維護圖結(jié)構(gòu),以及高效的圖遍歷算法。 |
性能 | 在不需要復雜推理的任務(wù)上表現(xiàn)良好。 | 在需要復雜推理和上下文理解的任務(wù)上表現(xiàn)出色,但可能增加檢索速度和資源消耗。 |
評測
現(xiàn)有評測都比較簡單,因此提出一個比較全面的評測基準-GraphRAG-Bench,包括難度逐漸增加的任務(wù),涵蓋事實檢索、多跳推理、上下文總結(jié)和創(chuàng)造性生成等。
按復雜性分類的任務(wù),從事實檢索到創(chuàng)造性生成。
類別 | 任務(wù)名稱 | 簡要描述 | 示例 |
第1級 | 事實檢索 | 需要檢索孤立的知識點,最小化推理;主要測試精確的關(guān)鍵詞匹配。 | 蒙特圣米歇爾位于法國的哪個地區(qū)? |
第2級 | 復雜推理 | 需要通過文檔中的邏輯連接鏈接多個知識點。 | Hinze與Felicia的協(xié)議如何影響對英格蘭統(tǒng)治者的看法? |
第3級 | 上下文摘要 | 涉及將碎片化信息綜合成一個連貫、有結(jié)構(gòu)的答案;強調(diào)邏輯連貫性和上下文。 | John Curgenven作為康沃爾船夫在探索該地區(qū)的游客中扮演什么角色? |
第4級 | 創(chuàng)造性生成 | 需要超越檢索內(nèi)容的推理,通常涉及假設(shè)或新穎的場景。 | 將亞瑟王與John Curgenven的比較以及康沃爾海岸線的探索重述為新聞文章。 |
評估指標
在評估GraphRAG系統(tǒng)時,引入了多種指標來全面評估系統(tǒng)在知識圖譜構(gòu)建、檢索和生成過程中的表現(xiàn):
1. Graph Quality (圖質(zhì)量)
2. Retrieval Performance (檢索性能)
- Context Relevance(上下文相關(guān)性):衡量檢索內(nèi)容與問題意圖的對齊程度。通過計算問題和檢索證據(jù)之間的語義相似性來量化,較高的值表示更集中和相關(guān)的信息。
- Evidence Recall(證據(jù)召回率):通過評估是否捕獲了正確回答問題所需的所有關(guān)鍵組件來衡量檢索的完整性。較高的值表示更全面的證據(jù)收集。
3. Generation Accuracy (生成準確性)
- Lexical Overlap(詞匯重疊):使用最長公共子序列匹配來衡量生成答案與參考答案之間的詞級相似性。
- Answer Accuracy(答案準確性):評估生成答案與參考答案的語義相似性和事實一致性。
- Faithfulness(忠實度):評估長篇答案中的相關(guān)知識點是否忠實于給定的上下文。
- Evidence Coverage(證據(jù)覆蓋率):衡量答案是否充分涵蓋了與問題相關(guān)的所有知識。
實驗性能
GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異,但在簡單事實檢索任務(wù)中不如傳統(tǒng)RAG。
- 生成準確性: 基本RAG在簡單事實檢索任務(wù)中表現(xiàn)優(yōu)于GraphRAG,但在復雜推理、上下文摘要和創(chuàng)造性生成任務(wù)中,GraphRAG表現(xiàn)出明顯優(yōu)勢。
- 檢索性能: GraphRAG在復雜任務(wù)中表現(xiàn)出色,特別是在需要多跳推理和上下文綜合的任務(wù)中,能夠連接遠距離文本片段,提供更全面的信息。
- 圖復雜性: 不同GraphRAG實現(xiàn)生成的索引圖顯示出顯著的結(jié)構(gòu)差異,HippoRAG2生成的圖更為密集,提高了信息連接性和覆蓋范圍。
- 效率: GraphRAG由于額外的知識檢索和圖聚合步驟,增加了提示長度,導致效率降低,尤其是在復雜任務(wù)中。
參考文獻:When to use Graphs in RAG: A Comprehensive Analysis for Graph Retrieval-Augmented Generation,https://arxiv.org/pdf/2506.05690v1
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:余俊暉
