成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比GraphRAG還好的LightRAG到底是何方神圣?

發布于 2024-10-30 14:02
瀏覽
0收藏

1. 為什么要提出 LightRAG?

檢索增強生成(Retrieval-Augmented Generation,RAG)通過整合外部知識源來增強大型語言模型,這種整合使 LLM 能夠生成更準確和與上下文相關的響應,顯著提高實際應用中的效用。

? 通過適應特定領域知識,RAG 系統確保所提供的信息不僅相關,而且符合用戶的需求。

? 提供獲取最新信息的途徑,這種途徑在一些快速發展的領域非常重要。

? 分塊在促進檢索增強生成過程中起著至關重要的作用。通過將大型外部文本語料庫分解為更小、更易于管理的段,提高了信息檢索的準確性。允許進行更有針對性的相似性搜索,確保檢索到的內容與用戶查詢直接相關。

然而,現有的 RAG 系統存在關鍵的局限性,阻礙了它們的性能:

? 首先,許多方法依賴于簡單的數據結構,限制了它們理解并檢索基于實體間復雜關系的信息的能力。

? 其次,這些系統往往缺乏必要的上下文意識,無法在不同實體及其相互關系之間保持連貫性,導致它們給出的回答可能無法全面回應用戶的查詢。

例如,當用戶問及“電動汽車的增長如何影響城市空氣質量和公共交通設施?
”時,現有的RAG方法可能會分別檢索到關于電動汽車、空氣污染和公共交通挑戰的文檔,但在將這些信息整合成一個連貫的回答上卻顯得力不從心。
它們可能無法解釋電動汽車的普及如何改善空氣質量,進而影響公共交通規劃。

為了解決這些局限性,作者準備將圖結構(知識圖譜)納入文本索引和相關信息檢索。圖特別有效地表示不同實體之間的相互依賴關系,這能夠更細致地理解關系?;趫D的知識結構的整合有助于將來自多個來源的信息綜合成連貫且上下文豐富的響應。

因此,作者提出了LightRAG:一個基于圖的文本索引范式與雙層檢索框架無縫集成的RAG系統。

2. LightRAG架構

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

上圖展示了LightRAG的架構,分為兩個主要部分:

? 第一部分:基于圖的索引階段。使用大型語言模型從每個文本塊中提取實體和關系。

? 第二部分:基于圖的檢索階段。首先利用大型語言模型(LLM)生成相關關鍵字。

與當前的檢索增強生成(RAG)系統類似,LightRAG的檢索機制依賴于基于向量的搜索。

與傳統的 RAG 中檢索塊不同,LightRAG專注于檢索實體和關系。

與 GraphRAG 中使用的基于社區的遍歷方法相比,LightRAG顯著降低了檢索開銷。

2.1 基于圖的文本索引

圖增強的實體和關系提取:LightRAG 通過將文檔分割成更小、更易于管理的部分來增強檢索系統。允許在不分析整個文檔的情況下快速識別和訪問相關信息。利用大型語言模型(LLM)來識別和提取各種實體(例如,名稱、日期、地點和事件)以及它們之間的關系,然后創建一個知識圖。

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

?提取實體和關系:利用 LLM 在文本數據中識別實體(節點)及其關系(邊)。例如,從文本“心臟病專家評估癥狀以識別潛在的心臟問題”中提取實體如“心臟病專家”和“心臟病”,以及關系如“心臟病專家診斷心臟病”。為了提高效率,原始文本被分割成多個塊后再進行實體和關系的提取。上圖展示了用于構建知識圖譜的提示詞。

?LLM生成鍵值對:采用 LLM 為每個實體節點和系邊生成文本鍵值對(K,V)。每個索引鍵是一個單詞或短語,能夠實現高效檢索,而相應的值是一個文本段落,總結來自外部數據的相關片段以輔助文本生成。實體使用其名稱作為唯一的索引鍵,而關系可能具有從 LLM 增強中派生的多個索引鍵,包括來自連接實體的全局主題。

?圖譜去重:從原始文本的不同段中識別并合并相同的實體和關系。此過程通過最小化圖的大小減少圖操作相關的開銷,從而導致更高效的數據處理。

這樣的設計有以下幾個優點:

? 首先,全局化理解信息。構建的圖結構能夠從多跳子圖中提取全局信息,增強了 LightRAG 處理跨越多個文檔塊的復雜查詢的能力。

? 其次,增強的檢索性能。從圖中派生的鍵值數據結構針對快速和精確檢索進行了優化。為現有方法中常用的不太準確的嵌入匹配方法和低效的塊遍歷技術提供了一種優越的替代方案。

增量更新知識庫*

對增量知識庫的快速更新方法有兩個關鍵目標:

? 新數據的無縫集成。通過對新信息應用一致的方法,增量更新模塊允許 LightRAG 集成新的外部數據庫,而不會破壞現有的圖結構。保持了已建立連接的完整性,確保歷史數據仍然可訪問,同時豐富了圖而沒有沖突或冗余。

? 減少計算開銷。通過消除重建整個索引圖的需要,這種方法減少了計算開銷,并促進了新數據的快速吸收。

2.2 雙層檢索范式

LightRAG 在微觀和宏觀兩個維度生成查詢鍵,從而實現在特定文檔塊和復雜的依賴關系里檢索相關信息。

?微觀查詢(Specific Queries):面向具體細節的,引用圖中的特定實體,需要精確檢索與特定節點或邊相關的信息。例如,一個特定的查詢可能是,“誰寫了《傲慢與偏見》?”

?抽象查詢(Abstract Queries):抽象查詢更具概念性,涵蓋更廣泛的主題、摘要或總體主題,不直接與特定實體相關。抽象查詢的一個示例是,“人工智能如何影響現代教育?”

為了適應不同的查詢類型,LightRAG 在雙層檢索范式中采用了兩種不同的檢索策略。確保了特定和抽象的查詢都得到有效處理,使系統能夠根據用戶需求提供相關響應。

?低級檢索:側重于檢索特定實體及其相關屬性或關系。此級別的查詢是面向細節的,提取關于圖中特定節點或邊的精確信息。

?高級檢索:處理更廣泛的主題和總體主題。聚合跨多個相關實體和關系的信息,提供對更高級概念和摘要的洞察,而不是特定細節。

圖與向量檢索相結合的檢索

通過將圖結構與向量表示相結合,使檢索算法能夠有效地利用本地和全局關鍵字,簡化搜索過程并提高結果的相關性。

1.查詢關鍵字提取。對于給定的查詢,LightRAG 首先提取本地查詢關鍵字和全局查詢關鍵字。

2.關鍵字匹配。使用向量數據庫將本地查詢關鍵字與候選實體進行匹配,并將全局查詢關鍵字與鏈接到全局鍵的關系進行匹配。

3.整合高階關聯性(Incorporating High-Order Relatedness)。為了提升查詢的高階關聯性,LightRAG不僅檢索圖元素,還擴展至這些元素所在局部子圖的鄰近節點。

這種雙層檢索范式不僅通過關鍵字匹配促進了相關實體和關系的高效檢索,而且通過整合來自構建的知識圖的相關結構信息增強了結果的全面性。

2.3 答案生成

檢索信息的利用:利用檢索到的信息通過LLM 根據收集的數據生成答案。收集到的數據包括由相關實體和關系,包括名稱、實體和關系的描述以及原始文本的摘錄。

上下文整合和答案生成:將查詢與這個多源文本統一,LLM 生成根據用戶需求定制的信息豐富的答案,確保與查詢的意圖一致。這種方法通過將上下文和查詢都整合到 LLM 模型中簡化了答案生成過程(下圖是提示詞)。

3. 效果評估

? RQ1:LightRAG在生成性能上與現有RAG基線方法相比有何優勢?

? RQ2:雙層檢索和基于圖的索引如何提升LightRAG的生成質量?

? RQ3:LightRAG在多種場景的案例中展現了哪些獨特優勢?

? RQ4:LightRAG的成本及其對數據變化的適應能力如何?

3.1 RQ1:LightRAG在生成性能上與現有RAG基線方法相比有何優勢?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

圖增強型RAG系統在處理大規模語料庫時的優勢:面對需要大量token和復雜查詢時,LightRAG和GraphRAG等基于圖的RAG系統,始終優于NaiveRAG、HyDE和RQRAG等純基于塊的檢索方法。隨著數據集規模的增長,這一性能差異尤為顯著。例如,在最大的法律數據集中,基線方法的勝率僅約20%,而LightRAG則明顯占優。這一趨勢凸顯了圖增強型RAG系統在捕捉大規模語料庫內復雜語義依賴方面的優勢,有助于更全面地理解知識,從而提升泛化性能。

LightRAG在提升響應多樣性上的優勢:與各基線方法相比,LightRAG在多樣性(回答問題的角度等是否具備多樣性)指標上尤為突出,特別是在大型法律數據集中。這一優勢源于LightRAG的雙層檢索模式,能夠從低級和高級兩個維度全面檢索信息。這種方法有效地利用基于圖的文本索引,始終把握查詢的完整上下文。

LightRAG超越GraphRAG:盡管LightRAG和GraphRAG都采用基于圖的檢索機制,但LightRAG尤其在處理大型數據集和復雜語言環境時,始終優于GraphRAG。在包含數百萬令牌的農業、計算機科學和法律數據集中,LightRAG展現出明顯優勢,大幅超越GraphRAG,凸顯了其在多樣化環境中全面理解信息的能力。

3.2 RQ2:雙層檢索和基于圖的索引如何提升LightRAG的生成質量?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

?僅低層次檢索:去掉了高級檢索,導致幾乎所有數據集和評價指標上的性能顯著下降。主要是因為它過分強調具體信息,集中于實體及其直接關聯。雖然這種方法能夠深入挖掘直接相關的實體,但在收集需要綜合洞察的復雜查詢信息時顯得力不從心。

?僅高層次檢索:只有低級檢索的LightRAG通過利用實體間關系而非專注于具體實體,優先獲取更廣泛的內容。這種方法在全面性上具有顯著優勢,能夠收集到更廣泛和多樣化的信息。然而,在深入挖掘特定實體時略顯不足,可能限制了其提供詳盡見解的能力。因此,這種僅高層次檢索的方法在需要精確、細致答案的任務中可能表現不佳。

?混合模式:在檢索更廣泛關系的同時,也對特定實體進行了深入挖掘。這種雙層次方法既保證了檢索的廣度,也確保了分析的深度,從而提供了數據的全面視角。因此,LightRAG在多個維度上實現了均衡的表現。

?語義圖在 RAG 中表現出色:在檢索過程中不再使用原始文本(-Origin)在所有四個數據集中都沒有表現出顯著的性能下降。在某些情況下,這個變體甚至有所改進(例如在農業和混合方面)。主要原因可能是基于圖的索引過程中對關鍵信息的有效提取,這為回答查詢提供了足夠的上下文。此外,原始文本通常包含不相關的信息,可能會在響應中引入噪聲。

3.3 RQ3:LightRAG在多種場景的案例中展現了哪些獨特優勢?

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

?全面性:在精確的實體和關系提取以及 LLM 分析方面表現出色。

?多樣性和賦能:LightRAG 不僅提供了更多樣化的信息,而且提供了更具賦能性的內容。主要是因為 LightRAG 的分層檢索范式,結合了通過低級檢索對相關實體的深入探索,通過高級檢索進行更廣泛的探索以增強賦能和提高答案的多樣性。

3.4 RQ4:LightRAG的成本及其對數據變化的適應能力如何?

從兩個關鍵角度將我們的 LightRAG 的成本與表現最佳的基線 GraphRAG 進行比較。

? 首先,檢查索引和檢索過程中的令牌數量和 API 調用次數。

? 其次,這些指標與動態環境中處理數據變化的關系。

比GraphRAG還好的LightRAG到底是何方神圣?-AI.x社區圖片

3.4.1 檢索階段

GraphRAG 生成了 1399 個communities,有 610 個二級communities被積極用于檢索。每個communities報告平均 1000 個tokens,導致總標記消耗為 610000 個tokens(610 個communities×每個communities 1000 個tokens)。

此外,GraphRAG 需要單獨遍歷每個communities,導致數百次 API 調用,顯著增加了檢索開銷。相比之下,LightRAG 通過使用少于 100 個tokens進行關鍵字生成和檢索,整個過程僅需要一次 API 調用。這種效率是通過LightRAG檢索機制實現的,該機制無縫集成了圖形結構和矢量化表示以進行信息檢索,從而消除了預先處理大量信息的需要。

3.4.2 增量數據更新階段

兩個方案在實體和關系提取方面表現出相似的開銷。

然而,GraphRAG 在管理新添加的數據方面顯示出顯著的低效率。當引入與法律數據集相同大小的新數據集時,GraphRAG 必須拆除其現有的社區結構以納入新的實體和關系,然后完全重新生成。

這個過程每個社區報告產生大約 5000 個token的大量標記成本。鑒于有 1399 個communities,GraphRAG 將需要大約 1399×2×5000 個標記來重建原始和新的社區報告——這是一個過高的費用,突顯了其低效率。

相比之下,LightRAG 將新提取的實體和關系無縫集成到現有圖形中,無需完全重建。這種方法在增量更新期間導致顯著較低的開銷,展示了其優越的效率和成本效益。

本文轉載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: www日韩高清 | 亚洲资源站 | 黄色一级大片在线免费看产 | 国产99视频精品免费播放照片 | www.蜜桃av | 久久久久久九九九九九九 | 色综久久 | 日韩精品一区二区三区在线观看 | 国产精品999 | 另类专区成人 | 日韩在线精品强乱中文字幕 | 91在线免费观看网站 | 欧洲尺码日本国产精品 | 国产精品毛片一区二区三区 | 日韩成人高清在线 | 欧美一级视频免费看 | 中文字幕日韩欧美一区二区三区 | 国产精品视频久久久久久 | 国产999精品久久久 日本视频一区二区三区 | 91精品国产91久久综合桃花 | 国产一区二区三区四区hd | 91黄色片免费看 | 欧美日韩一区二区三区视频 | 天天摸天天干 | 国产精品伦理一区二区三区 | 国产一区二 | 亚洲国产精品久久久久 | 亚洲精品v日韩精品 | 精品国产免费一区二区三区五区 | 岛国av免费在线观看 | ww亚洲ww亚在线观看 | 欧美一区二区激情三区 | 国产一区不卡 | 国产伊人精品 | 男女视频在线免费观看 | 在线欧美小视频 | 91在线观看 | 成人h动漫亚洲一区二区 | 日本一区二区三区免费观看 | 最近最新中文字幕 | 丁香五月网久久综合 |