北郵港大聯(lián)手！LightRAG：圖結(jié)構(gòu)賦能的高效檢索增強(qiáng)生成新范式

作者：Goldma 2025-05-19 18:03:15

現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時(shí)力不從心。來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG，通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式，顯著提升 RAG 系統(tǒng)的性能。

現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時(shí)力不從心。一方面，它們依賴扁平的數(shù)據(jù)表示，無法有效捕捉實(shí)體間的復(fù)雜關(guān)系；另一方面，缺乏上下文感知能力，導(dǎo)致生成的回答碎片化，難以形成連貫的邏輯。例如，當(dāng)用戶詢問 “電動(dòng)汽車的興起如何影響城市空氣質(zhì)量和公共交通基礎(chǔ)設(shè)施？”，傳統(tǒng) RAG 可能只是分別檢索相關(guān)信息，卻無法將這些內(nèi)容有機(jī)整合，給出全面且有邏輯的答案。

來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG，通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式，顯著提升 RAG 系統(tǒng)的性能。

項(xiàng)目地址：https://github.com/HKUDS/LightRAG

1、LightRAG

為了確保RAG系統(tǒng)的效率和效果，LightRAG主要關(guān)注以下三個(gè)方面：

全面的信息檢索：索引函數(shù)必須擅長提取全局信息，這對(duì)于提高模型回答查詢的能力至關(guān)重要。
高效低成本的檢索：索引的數(shù)據(jù)結(jié)構(gòu)必須支持快速且成本效益高的檢索操作，以便能夠有效地處理大量查詢。
快速適應(yīng)數(shù)據(jù)變化：系統(tǒng)應(yīng)該有能力迅速調(diào)整其內(nèi)部結(jié)構(gòu)以包含新的信息，這保證了系統(tǒng)能夠在不斷變化的信息環(huán)境中保持最新和相關(guān)性。

基于上述目標(biāo)，LightRAG通過引入圖結(jié)構(gòu)和雙層檢索范式來增強(qiáng)檢索增強(qiáng)生成，框架圖如下所示：

下面來看看LightRAG的核心模塊：

基于圖的文本索引

LightRAG 的第一個(gè)關(guān)鍵創(chuàng)新是基于圖的文本索引機(jī)制，主要包括圖增強(qiáng)實(shí)體與關(guān)系抽取和快速適應(yīng)增量知識(shí)庫：

1. 圖增強(qiáng)實(shí)體與關(guān)系抽取

LightRAG通過將文檔分割成更小、更易管理的部分來提升檢索系統(tǒng)的效率。這種方法允許快速定位和訪問相關(guān)信息而無需分析整個(gè)文檔。然后利用大語言模型（LLMs）識(shí)別并提取各種實(shí)體（如名稱、日期、地點(diǎn)和事件）及其之間的關(guān)系。這些信息用于創(chuàng)建一個(gè)全面的知識(shí)圖譜，它強(qiáng)調(diào)了跨所有文檔集合的連接和洞察。

具體實(shí)現(xiàn)：

實(shí)體和關(guān)系抽取：利用一個(gè)提示驅(qū)動(dòng)的LLM從文本數(shù)據(jù)中識(shí)別出節(jié)點(diǎn)（實(shí)體）和邊（關(guān)系）。例如，給定句子 "心臟病學(xué)家評(píng)估癥狀以識(shí)別潛在的心臟問題"，它可以提取“心臟病學(xué)家”和“心臟病”作為實(shí)體，以及兩者間的關(guān)系 "診斷"。
LLM配置文件生成：利用LLM為每個(gè)實(shí)體節(jié)點(diǎn)和關(guān)系邊生成鍵值對(duì)，其中鍵是便于檢索的單詞或短語，值是總結(jié)相關(guān)片段的文本段落，有助于后續(xù)文本生成。
去重優(yōu)化圖操作：最后一步是對(duì)來自不同文本片段的相同實(shí)體和關(guān)系進(jìn)行合并，以減少圖操作的開銷，從而提高數(shù)據(jù)處理效率。

2. 快速適應(yīng)增量知識(shí)庫

當(dāng)有新的文檔加入時(shí)，LightRAG能夠通過增量更新算法高效地將其整合進(jìn)現(xiàn)有的知識(shí)圖譜中，而無需重新處理整個(gè)數(shù)據(jù)庫。新文檔經(jīng)過相同的圖基索引步驟后產(chǎn)生新的圖數(shù)據(jù)，然后將其與原圖數(shù)據(jù)結(jié)合，即取節(jié)點(diǎn)集以及邊集的并集。這種方法保證了新舊信息的一致性，并減少了計(jì)算資源的消耗。

基于圖的文本索引，LightRAG獲得了兩個(gè)主要的優(yōu)勢(shì)：

全面的信息理解：構(gòu)建的圖結(jié)構(gòu)允許從多跳子圖中提取全局信息，增強(qiáng)了LightRAG處理涉及多個(gè)文檔片段的復(fù)雜查詢的能力。
增強(qiáng)的檢索性能：由圖衍生的關(guān)鍵字?jǐn)?shù)據(jù)結(jié)構(gòu)被優(yōu)化用于快速且精確的檢索，提供了一個(gè)比現(xiàn)有方法（如嵌入匹配或塊遍歷技術(shù)）更為優(yōu)越的選擇。

雙層檢索范式

傳統(tǒng)的檢索增強(qiáng)型生成（RAG）系統(tǒng)通常依賴于將文檔分割成小塊（chunks），并通過向量嵌入的方式檢索與用戶查詢最相似的文本塊。然而，這種方法存在局限性：

缺乏語義關(guān)聯(lián)性：無法有效捕捉實(shí)體之間的復(fù)雜關(guān)系。
難以處理復(fù)雜查詢：對(duì)于涉及多個(gè)實(shí)體和關(guān)系的查詢，難以提供連貫的答案。

為了解決這些問題，LightRAG提出了雙層檢索范式，通過結(jié)合低層次和高層次的檢索策略，同時(shí)滿足對(duì)具體信息和抽象概念的需求。

低層次檢索（Low-Level Retrieval）
低層次檢索專注于檢索與用戶查詢相關(guān)的具體實(shí)體及其屬性或關(guān)系。其目標(biāo)是提供精確的信息，適用于以下類型的查詢：
低層次檢索的優(yōu)勢(shì)在于能夠深入探索特定實(shí)體的細(xì)節(jié)，但可能缺乏對(duì)全局信息的把握，因此需要與高層次檢索相結(jié)合。

具體查詢：例如，“誰寫了《傲慢與偏見》？”這類查詢需要檢索特定的實(shí)體（如作者）及其相關(guān)屬性。

檢索方式：通過知識(shí)圖譜中的節(jié)點(diǎn)（實(shí)體）和邊（關(guān)系）進(jìn)行精確匹配，提取與查詢直接相關(guān)的詳細(xì)信息。

高層次檢索（High-Level Retrieval）
高層次檢索則關(guān)注更廣泛的主題和概念，而不是具體的實(shí)體。它通過聚合多個(gè)相關(guān)實(shí)體和關(guān)系的信息，提供對(duì)更高層次概念和總結(jié)的理解。其目標(biāo)是：
高層次檢索的優(yōu)勢(shì)在于能夠提供更廣泛的視角，但可能缺乏對(duì)具體細(xì)節(jié)的深入分析，因此需要與低層次檢索互補(bǔ)。

處理抽象查詢：例如，“人工智能如何影響現(xiàn)代教育？”這類查詢需要從多個(gè)相關(guān)實(shí)體和關(guān)系中提取信息，以提供對(duì)主題的全面理解。

檢索方式：通過知識(shí)圖譜中的全局關(guān)鍵詞和主題進(jìn)行檢索，提取與查詢相關(guān)的多個(gè)實(shí)體和關(guān)系的總結(jié)信息，而不是具體的細(xì)節(jié)。

雙層檢索的實(shí)現(xiàn)機(jī)制

為了實(shí)現(xiàn)雙層檢索，LightRAG采用了以下技術(shù)策略：

查詢關(guān)鍵詞提取：對(duì)于給定的查詢q，算法首先會(huì)從中抽取本地查詢關(guān)鍵詞和全局查詢關(guān)鍵詞。本地關(guān)鍵詞通常是描述具體實(shí)體的術(shù)語，而全局關(guān)鍵詞則涵蓋了更廣泛的上下文。
關(guān)鍵詞匹配：使用高效的向量數(shù)據(jù)庫來匹配本地查詢關(guān)鍵詞與候選實(shí)體，以及全局查詢關(guān)鍵詞與由全局關(guān)鍵詞鏈接的關(guān)系。這一步驟利用了預(yù)先構(gòu)建的知識(shí)圖譜中的結(jié)構(gòu)化信息，使得匹配過程更為準(zhǔn)確。
融入高階相關(guān)性：為了增強(qiáng)查詢的高階相關(guān)性，LightRAG還會(huì)收集已檢索圖元素局部子圖內(nèi)的鄰近節(jié)點(diǎn)。這意味著不僅考慮直接匹配的結(jié)果，還包括與之緊密相連的一級(jí)鄰居節(jié)點(diǎn)和邊，從而擴(kuò)大了檢索范圍并增強(qiáng)了答案的深度和廣度。

通過上述機(jī)制，雙層檢索范式不僅實(shí)現(xiàn)了相關(guān)實(shí)體和關(guān)系的高效檢索，而且通過集成來自構(gòu)建的知識(shí)圖譜的相關(guān)結(jié)構(gòu)信息，大大提升了檢索結(jié)果的全面性和準(zhǔn)確性。這種方法確保了無論面對(duì)具體還是抽象的查詢，LightRAG都能有效地為用戶提供所需的信息。

檢索增強(qiáng)答案生成

在檢索到相關(guān)信息后，LightRAG 利用通用的 LLM 生成答案。它將檢索到的實(shí)體和關(guān)系的拼接值作為輸入，生成與用戶查詢一致的答案。這種方法不僅簡化了回答生成的過程，還保持了上下文和查詢的一致性。

2、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集

基于 UltraDomain 基準(zhǔn)測(cè)試集中的四個(gè)數(shù)據(jù)集，這些數(shù)據(jù)集來源于428本大學(xué)教科書，涵蓋了18個(gè)不同的領(lǐng)域，包括農(nóng)業(yè)、計(jì)算機(jī)科學(xué)（CS）、法律和混合內(nèi)容。每個(gè)數(shù)據(jù)集包含60萬到500萬個(gè)標(biāo)記。

評(píng)估

通過整合數(shù)據(jù)集文本、利用大語言模型生成問題：

將每個(gè)數(shù)據(jù)集所有文本整合為上下文，借助大語言模型生成 5 個(gè)虛擬用戶，每個(gè)用戶對(duì)應(yīng) 5 個(gè)任務(wù)。針對(duì)每個(gè)用戶任務(wù)組合，由大語言模型生成 5 個(gè)需理解整個(gè)語料庫的問題，每個(gè)數(shù)據(jù)集最終產(chǎn)生 125 個(gè)問題。

評(píng)估分為四個(gè)維度：

完整性（Comprehensiveness）：回答是否全面地解決了問題的所有方面和細(xì)節(jié)。
多樣性（Diversity）：回答是否提供了不同視角和見解，豐富多樣。
賦能性（Empowerment）：回答是否有效地幫助讀者理解話題并作出明智判斷。
總體表現(xiàn)（Overall）：綜合前三個(gè)維度的表現(xiàn)，確定最佳的整體回答。

LightRAG與其他RAG方法的比較

圖增強(qiáng)RAG系統(tǒng)的優(yōu)越性：在處理大規(guī)模數(shù)據(jù)集和復(fù)雜查詢時(shí)，基于圖的RAG系統(tǒng)（如LightRAG和GraphRAG）顯著優(yōu)于基于文本塊的檢索方法（如Naive RAG、HyDE和RQ-RAG）。
LightRAG在多樣性上的優(yōu)勢(shì)：LightRAG在“多樣性”指標(biāo)上表現(xiàn)出色，尤其是在法律數(shù)據(jù)集上。這歸功于其雙層檢索范式，能夠從低層次和高層次同時(shí)檢索信息，從而提供更豐富的回答。
LightRAG優(yōu)于GraphRAG：在農(nóng)業(yè)、計(jì)算機(jī)科學(xué)和法律數(shù)據(jù)集上，LightRAG顯著優(yōu)于GraphRAG。LightRAG在處理復(fù)雜語言環(huán)境時(shí)表現(xiàn)出更強(qiáng)的全面信息理解能力。

雙層檢索和圖基索引的效果

低層次檢索的影響：僅使用低層次檢索（去除高層次檢索）會(huì)導(dǎo)致性能顯著下降，尤其是在需要全面理解的復(fù)雜查詢上。低層次檢索更適合提供具體信息，但對(duì)于需要綜合多個(gè)實(shí)體和關(guān)系的查詢效果不佳。
高層次檢索的影響：僅使用高層次檢索（去除低層次檢索）能夠提供更廣泛的信息，但在細(xì)節(jié)上不夠深入。高層次檢索更適合處理抽象查詢，但在具體信息的深度上有所欠缺。
雙層檢索的綜合優(yōu)勢(shì)：結(jié)合低層次和高層次檢索的完整LightRAG模型在所有維度上表現(xiàn)最佳。
基于圖的索引的有效性：即使不使用原始文本，僅依賴圖結(jié)構(gòu)進(jìn)行檢索，LightRAG的性能也沒有顯著下降。表明基于圖的索引能夠有效提取關(guān)鍵信息，減少噪聲。

案例分析

通過對(duì)不同場(chǎng)景的具體案例進(jìn)行分析，可以發(fā)現(xiàn)LightRAG在處理復(fù)雜查詢時(shí)具有明顯的優(yōu)勢(shì)。例如，在回答涉及多個(gè)領(lǐng)域交叉的問題時(shí)，LightRAG能夠更好地整合相關(guān)信息，給出更為全面的答案。

成本與適應(yīng)性

檢索階段：GraphRAG需要處理約610,000個(gè)token，并且需要多次API調(diào)用。LightRAG僅需使用少于100個(gè)token進(jìn)行檢索，且僅需一次API調(diào)用。LightRAG在檢索效率上顯著優(yōu)于GraphRAG。
增量更新階段：GraphRAG需要重新構(gòu)建整個(gè)社區(qū)結(jié)構(gòu)，導(dǎo)致更新開銷約為1,399 × 2 × 5,000個(gè)token。LightRAG通過增量更新機(jī)制，僅需處理新數(shù)據(jù)，顯著減少了更新開銷。LightRAG在處理動(dòng)態(tài)數(shù)據(jù)更新時(shí)表現(xiàn)出更高的效率和成本效益。

3、總結(jié)

LightRAG 通過引入基于圖的文本索引和雙層檢索范式，在處理復(fù)雜查詢和生成高質(zhì)量答案方面展現(xiàn)了顯著優(yōu)勢(shì)，尤其在捕捉文本塊間聯(lián)系和綜合信息生成連貫回答方面表現(xiàn)出色。然而，實(shí)際應(yīng)用中暴露出運(yùn)行速度慢、回答精度不穩(wěn)定以及實(shí)驗(yàn)評(píng)估方式局限等問題。未來可從優(yōu)化運(yùn)行效率、改進(jìn)關(guān)鍵詞提取算法、引入語義匹配技術(shù)以及完善量化評(píng)估指標(biāo)等方面入手，進(jìn)一步提升 LightRAG 的性能和實(shí)用性，使其在自然語言處理領(lǐng)域發(fā)揮更大價(jià)值。

責(zé)任編輯：龐桂玉來源：小白學(xué)AI算法