成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北郵港大聯(lián)手!LightRAG:圖結(jié)構(gòu)賦能的高效檢索增強(qiáng)生成新范式

人工智能
現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時(shí)力不從心。來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG,通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式,顯著提升 RAG 系統(tǒng)的性能。

現(xiàn)有 RAG 系統(tǒng)在處理復(fù)雜查詢時(shí)力不從心。一方面,它們依賴扁平的數(shù)據(jù)表示,無法有效捕捉實(shí)體間的復(fù)雜關(guān)系;另一方面,缺乏上下文感知能力,導(dǎo)致生成的回答碎片化,難以形成連貫的邏輯。例如,當(dāng)用戶詢問 “電動(dòng)汽車的興起如何影響城市空氣質(zhì)量和公共交通基礎(chǔ)設(shè)施?”,傳統(tǒng) RAG 可能只是分別檢索相關(guān)信息,卻無法將這些內(nèi)容有機(jī)整合,給出全面且有邏輯的答案。

來自北京郵電大學(xué)和香港大學(xué)的團(tuán)隊(duì)提出 LightRAG,通過引入基于圖結(jié)構(gòu)的文本索引和雙層檢索范式,顯著提升 RAG 系統(tǒng)的性能。

項(xiàng)目地址:https://github.com/HKUDS/LightRAG

1、LightRAG

為了確保RAG系統(tǒng)的效率和效果,LightRAG主要關(guān)注以下三個(gè)方面:

  • 全面的信息檢索:索引函數(shù)圖片必須擅長提取全局信息,這對(duì)于提高模型回答查詢的能力至關(guān)重要。
  • 高效低成本的檢索:索引的數(shù)據(jù)結(jié)構(gòu)圖片必須支持快速且成本效益高的檢索操作,以便能夠有效地處理大量查詢。
  • 快速適應(yīng)數(shù)據(jù)變化:系統(tǒng)應(yīng)該有能力迅速調(diào)整其內(nèi)部結(jié)構(gòu)以包含新的信息,這保證了系統(tǒng)能夠在不斷變化的信息環(huán)境中保持最新和相關(guān)性。

基于上述目標(biāo),LightRAG通過引入圖結(jié)構(gòu)和雙層檢索范式來增強(qiáng)檢索增強(qiáng)生成,框架圖如下所示:

圖片

下面來看看LightRAG的核心模塊:

基于圖的文本索引

LightRAG 的第一個(gè)關(guān)鍵創(chuàng)新是基于圖的文本索引機(jī)制,主要包括圖增強(qiáng)實(shí)體與關(guān)系抽取和快速適應(yīng)增量知識(shí)庫:

1. 圖增強(qiáng)實(shí)體與關(guān)系抽取

LightRAG通過將文檔分割成更小、更易管理的部分來提升檢索系統(tǒng)的效率。這種方法允許快速定位和訪問相關(guān)信息而無需分析整個(gè)文檔。然后利用大語言模型(LLMs)識(shí)別并提取各種實(shí)體(如名稱、日期、地點(diǎn)和事件)及其之間的關(guān)系。這些信息用于創(chuàng)建一個(gè)全面的知識(shí)圖譜,它強(qiáng)調(diào)了跨所有文檔集合的連接和洞察。

具體實(shí)現(xiàn):

  • 實(shí)體和關(guān)系抽取:利用一個(gè)提示驅(qū)動(dòng)的LLM從文本數(shù)據(jù)中識(shí)別出節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)。例如,給定句子 "心臟病學(xué)家評(píng)估癥狀以識(shí)別潛在的心臟問題",它可以提取“心臟病學(xué)家”和“心臟病”作為實(shí)體,以及兩者間的關(guān)系 "診斷"。
  • LLM配置文件生成:利用LLM為每個(gè)實(shí)體節(jié)點(diǎn)和關(guān)系邊生成鍵值對(duì),其中鍵是便于檢索的單詞或短語,值是總結(jié)相關(guān)片段的文本段落,有助于后續(xù)文本生成。
  • 去重優(yōu)化圖操作:最后一步是對(duì)來自不同文本片段的相同實(shí)體和關(guān)系進(jìn)行合并,以減少圖操作的開銷,從而提高數(shù)據(jù)處理效率。

2. 快速適應(yīng)增量知識(shí)庫

當(dāng)有新的文檔加入時(shí),LightRAG能夠通過增量更新算法高效地將其整合進(jìn)現(xiàn)有的知識(shí)圖譜中,而無需重新處理整個(gè)數(shù)據(jù)庫。新文檔經(jīng)過相同的圖基索引步驟后產(chǎn)生新的圖數(shù)據(jù),然后將其與原圖數(shù)據(jù)結(jié)合,即取節(jié)點(diǎn)集以及邊集的并集。這種方法保證了新舊信息的一致性,并減少了計(jì)算資源的消耗。

基于圖的文本索引,LightRAG獲得了兩個(gè)主要的優(yōu)勢(shì):

  • 全面的信息理解:構(gòu)建的圖結(jié)構(gòu)允許從多跳子圖中提取全局信息,增強(qiáng)了LightRAG處理涉及多個(gè)文檔片段的復(fù)雜查詢的能力。
  • 增強(qiáng)的檢索性能:由圖衍生的關(guān)鍵字?jǐn)?shù)據(jù)結(jié)構(gòu)被優(yōu)化用于快速且精確的檢索,提供了一個(gè)比現(xiàn)有方法(如嵌入匹配或塊遍歷技術(shù))更為優(yōu)越的選擇。

雙層檢索范式

傳統(tǒng)的檢索增強(qiáng)型生成(RAG)系統(tǒng)通常依賴于將文檔分割成小塊(chunks),并通過向量嵌入的方式檢索與用戶查詢最相似的文本塊。然而,這種方法存在局限性:

  • 缺乏語義關(guān)聯(lián)性:無法有效捕捉實(shí)體之間的復(fù)雜關(guān)系。
  • 難以處理復(fù)雜查詢:對(duì)于涉及多個(gè)實(shí)體和關(guān)系的查詢,難以提供連貫的答案。

為了解決這些問題,LightRAG提出了雙層檢索范式,通過結(jié)合低層次和高層次的檢索策略,同時(shí)滿足對(duì)具體信息和抽象概念的需求。

  • 低層次檢索(Low-Level Retrieval)
    低層次檢索專注于檢索與用戶查詢相關(guān)的具體實(shí)體及其屬性或關(guān)系。其目標(biāo)是提供精確的信息,適用于以下類型的查詢:
    低層次檢索的優(yōu)勢(shì)在于能夠深入探索特定實(shí)體的細(xì)節(jié),但可能缺乏對(duì)全局信息的把握,因此需要與高層次檢索相結(jié)合。

     具體查詢:例如,“誰寫了《傲慢與偏見》?”這類查詢需要檢索特定的實(shí)體(如作者)及其相關(guān)屬性。

     檢索方式:通過知識(shí)圖譜中的節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)進(jìn)行精確匹配,提取與查詢直接相關(guān)的詳細(xì)信息。

  • 高層次檢索(High-Level Retrieval)
    高層次檢索則關(guān)注更廣泛的主題和概念,而不是具體的實(shí)體。它通過聚合多個(gè)相關(guān)實(shí)體和關(guān)系的信息,提供對(duì)更高層次概念和總結(jié)的理解。其目標(biāo)是:
    高層次檢索的優(yōu)勢(shì)在于能夠提供更廣泛的視角,但可能缺乏對(duì)具體細(xì)節(jié)的深入分析,因此需要與低層次檢索互補(bǔ)。

     處理抽象查詢:例如,“人工智能如何影響現(xiàn)代教育?”這類查詢需要從多個(gè)相關(guān)實(shí)體和關(guān)系中提取信息,以提供對(duì)主題的全面理解。

     檢索方式:通過知識(shí)圖譜中的全局關(guān)鍵詞和主題進(jìn)行檢索,提取與查詢相關(guān)的多個(gè)實(shí)體和關(guān)系的總結(jié)信息,而不是具體的細(xì)節(jié)。

雙層檢索的實(shí)現(xiàn)機(jī)制

為了實(shí)現(xiàn)雙層檢索,LightRAG采用了以下技術(shù)策略:

  • 查詢關(guān)鍵詞提取:對(duì)于給定的查詢q,算法首先會(huì)從中抽取本地查詢關(guān)鍵詞圖片和全局查詢關(guān)鍵詞圖片。本地關(guān)鍵詞通常是描述具體實(shí)體的術(shù)語,而全局關(guān)鍵詞則涵蓋了更廣泛的上下文。
  • 關(guān)鍵詞匹配:使用高效的向量數(shù)據(jù)庫來匹配本地查詢關(guān)鍵詞與候選實(shí)體,以及全局查詢關(guān)鍵詞與由全局關(guān)鍵詞鏈接的關(guān)系。這一步驟利用了預(yù)先構(gòu)建的知識(shí)圖譜中的結(jié)構(gòu)化信息,使得匹配過程更為準(zhǔn)確。
  • 融入高階相關(guān)性:為了增強(qiáng)查詢的高階相關(guān)性,LightRAG還會(huì)收集已檢索圖元素局部子圖內(nèi)的鄰近節(jié)點(diǎn)。這意味著不僅考慮直接匹配的結(jié)果,還包括與之緊密相連的一級(jí)鄰居節(jié)點(diǎn)和邊,從而擴(kuò)大了檢索范圍并增強(qiáng)了答案的深度和廣度。

通過上述機(jī)制,雙層檢索范式不僅實(shí)現(xiàn)了相關(guān)實(shí)體和關(guān)系的高效檢索,而且通過集成來自構(gòu)建的知識(shí)圖譜的相關(guān)結(jié)構(gòu)信息,大大提升了檢索結(jié)果的全面性和準(zhǔn)確性。這種方法確保了無論面對(duì)具體還是抽象的查詢,LightRAG都能有效地為用戶提供所需的信息。

檢索增強(qiáng)答案生成

在檢索到相關(guān)信息后,LightRAG 利用通用的 LLM 生成答案。它將檢索到的實(shí)體和關(guān)系的拼接值作為輸入,生成與用戶查詢一致的答案。這種方法不僅簡化了回答生成的過程,還保持了上下文和查詢的一致性。

2、實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集

基于 UltraDomain 基準(zhǔn)測(cè)試集中的四個(gè)數(shù)據(jù)集,這些數(shù)據(jù)集來源于428本大學(xué)教科書,涵蓋了18個(gè)不同的領(lǐng)域,包括農(nóng)業(yè)、計(jì)算機(jī)科學(xué)(CS)、法律和混合內(nèi)容。每個(gè)數(shù)據(jù)集包含60萬到500萬個(gè)標(biāo)記。

評(píng)估

通過整合數(shù)據(jù)集文本、利用大語言模型生成問題:

將每個(gè)數(shù)據(jù)集所有文本整合為上下文,借助大語言模型生成 5 個(gè)虛擬用戶,每個(gè)用戶對(duì)應(yīng) 5 個(gè)任務(wù)。針對(duì)每個(gè)用戶任務(wù)組合,由大語言模型生成 5 個(gè)需理解整個(gè)語料庫的問題,每個(gè)數(shù)據(jù)集最終產(chǎn)生 125 個(gè)問題。

評(píng)估分為四個(gè)維度:

  • 完整性(Comprehensiveness):回答是否全面地解決了問題的所有方面和細(xì)節(jié)。
  • 多樣性(Diversity):回答是否提供了不同視角和見解,豐富多樣。
  • 賦能性(Empowerment):回答是否有效地幫助讀者理解話題并作出明智判斷。
  • 總體表現(xiàn)(Overall):綜合前三個(gè)維度的表現(xiàn),確定最佳的整體回答。

LightRAG與其他RAG方法的比較

  1. 圖增強(qiáng)RAG系統(tǒng)的優(yōu)越性:在處理大規(guī)模數(shù)據(jù)集和復(fù)雜查詢時(shí),基于圖的RAG系統(tǒng)(如LightRAG和GraphRAG)顯著優(yōu)于基于文本塊的檢索方法(如Naive RAG、HyDE和RQ-RAG)。
  2. LightRAG在多樣性上的優(yōu)勢(shì):LightRAG在“多樣性”指標(biāo)上表現(xiàn)出色,尤其是在法律數(shù)據(jù)集上。這歸功于其雙層檢索范式,能夠從低層次和高層次同時(shí)檢索信息,從而提供更豐富的回答。
  3. LightRAG優(yōu)于GraphRAG:在農(nóng)業(yè)、計(jì)算機(jī)科學(xué)和法律數(shù)據(jù)集上,LightRAG顯著優(yōu)于GraphRAG。LightRAG在處理復(fù)雜語言環(huán)境時(shí)表現(xiàn)出更強(qiáng)的全面信息理解能力。

圖片

雙層檢索和圖基索引的效果

  • 低層次檢索的影響:僅使用低層次檢索(去除高層次檢索)會(huì)導(dǎo)致性能顯著下降,尤其是在需要全面理解的復(fù)雜查詢上。低層次檢索更適合提供具體信息,但對(duì)于需要綜合多個(gè)實(shí)體和關(guān)系的查詢效果不佳。
  • 高層次檢索的影響:僅使用高層次檢索(去除低層次檢索)能夠提供更廣泛的信息,但在細(xì)節(jié)上不夠深入。高層次檢索更適合處理抽象查詢,但在具體信息的深度上有所欠缺。
  • 雙層檢索的綜合優(yōu)勢(shì):結(jié)合低層次和高層次檢索的完整LightRAG模型在所有維度上表現(xiàn)最佳。
  • 基于圖的索引的有效性:即使不使用原始文本,僅依賴圖結(jié)構(gòu)進(jìn)行檢索,LightRAG的性能也沒有顯著下降。表明基于圖的索引能夠有效提取關(guān)鍵信息,減少噪聲。

圖片

案例分析

通過對(duì)不同場(chǎng)景的具體案例進(jìn)行分析,可以發(fā)現(xiàn)LightRAG在處理復(fù)雜查詢時(shí)具有明顯的優(yōu)勢(shì)。例如,在回答涉及多個(gè)領(lǐng)域交叉的問題時(shí),LightRAG能夠更好地整合相關(guān)信息,給出更為全面的答案。

圖片

成本與適應(yīng)性

  • 檢索階段:GraphRAG需要處理約610,000個(gè)token,并且需要多次API調(diào)用。LightRAG僅需使用少于100個(gè)token進(jìn)行檢索,且僅需一次API調(diào)用。LightRAG在檢索效率上顯著優(yōu)于GraphRAG。
  • 增量更新階段:GraphRAG需要重新構(gòu)建整個(gè)社區(qū)結(jié)構(gòu),導(dǎo)致更新開銷約為1,399 × 2 × 5,000個(gè)token。LightRAG通過增量更新機(jī)制,僅需處理新數(shù)據(jù),顯著減少了更新開銷。LightRAG在處理動(dòng)態(tài)數(shù)據(jù)更新時(shí)表現(xiàn)出更高的效率和成本效益。

圖片

3、總結(jié)

LightRAG 通過引入基于圖的文本索引和雙層檢索范式,在處理復(fù)雜查詢和生成高質(zhì)量答案方面展現(xiàn)了顯著優(yōu)勢(shì),尤其在捕捉文本塊間聯(lián)系和綜合信息生成連貫回答方面表現(xiàn)出色。然而,實(shí)際應(yīng)用中暴露出運(yùn)行速度慢、回答精度不穩(wěn)定以及實(shí)驗(yàn)評(píng)估方式局限等問題。未來可從優(yōu)化運(yùn)行效率、改進(jìn)關(guān)鍵詞提取算法、引入語義匹配技術(shù)以及完善量化評(píng)估指標(biāo)等方面入手,進(jìn)一步提升 LightRAG 的性能和實(shí)用性,使其在自然語言處理領(lǐng)域發(fā)揮更大價(jià)值。

責(zé)任編輯:龐桂玉 來源: 小白學(xué)AI算法
相關(guān)推薦

2025-02-11 08:00:00

大語言模型檢索增強(qiáng)生成CAG

2025-01-23 16:23:30

2023-10-14 17:46:17

RAG提示工程GPT-3

2024-05-20 08:31:33

檢索增強(qiáng)生成LLM大型語言模型

2024-04-19 09:00:01

映射算法大型語言模型LLM

2024-12-23 11:31:05

大模型檢索人工智能

2024-10-31 14:46:31

2025-05-28 01:25:00

RAG人工智能語言模型

2024-09-05 08:24:09

2025-04-29 08:20:51

2024-05-28 09:24:32

2024-02-18 09:00:00

RAG工具LlamaIndexChatGPT

2025-04-01 09:25:09

2023-09-11 09:00:00

檢索增強(qiáng)生成大數(shù)據(jù)模型自然語言處理

2025-04-09 09:00:00

2024-11-19 13:05:40

2024-06-18 15:36:50

2023-10-27 10:23:35

大語言模型人工智能

2024-10-16 13:27:27

2024-01-17 09:00:00

大型語言模型機(jī)器學(xué)習(xí)向量搜索引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品区二区三区日本 | 密乳av| 色成人免费网站 | 黄色一级大片视频 | 中文字幕高清 | 伊人激情综合网 | 狠狠狠| 成人网在线| 亚洲精品一级 | 成人水多啪啪片 | 国产精品成人一区二区三区夜夜夜 | 亚洲一区二区av在线 | av高清| www.亚洲成人网 | a爱视频 | 高清成人av | 久久首页 | 日韩电影中文字幕 | 日韩二区三区 | 天堂一区二区三区 | 91视频免费在观看 | 天堂一区二区三区四区 | 久久久国产一区二区三区 | 亚洲欧洲一区二区 | 欧美一区二区三区在线播放 | 欧美一区二区三区免费电影 | 亚洲成人福利 | 久久免费国产 | 国产精品视频免费看 | 日本不卡免费新一二三区 | 九九在线视频 | 台湾a级理论片在线观看 | 久久国产欧美日韩精品 | 亚洲国产精品久久久久 | 欧美精品一区在线发布 | 精品久久久久一区 | 亚洲精品久久久久久国产精华液 | 久久午夜精品 | 欧美精品一区二区在线观看 | 黄视频网址 | 九九热在线视频 |