成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一起聊聊圖檢索增強生成

發布于 2024-8-29 16:03
瀏覽
0收藏

一起聊聊圖檢索增強生成-AI.x社區圖片

一、結論寫在前面

論文來自北京大學、浙江大學、螞蟻集團、中國人民大學、美國羅格斯大學

論文標題:Graph Retrieval-Augmented Generation: A Survey

論文鏈接:??https://arxiv.org/pdf/2408.08921??

通過參考外部知識庫,RAG 優化了 LLM 輸出,有效緩解了“幻覺”、缺乏領域特定知識及信息過時等問題。然而,數據庫中不同實體間復雜的關系結構給 RAG 系統帶來了挑戰。為此,圖RAG(GraphRAG)利用實體間的結構信息,實現更精確全面的檢索,捕捉關系知識,促進更準確、上下文感知的響應。鑒于圖RAG的新穎性和潛力,對其當前技術進行系統性綜述勢在必行。    

論文首次全面概述了GraphRAG技術進行了全面的回顧,系統地分類和整理了其基本技術、訓練方法和應用場景。GraphRAG通過利用從圖數據集中提取的關鍵關系知識,顯著提高了信息檢索的相關性、準確性和全面性,從而解決了傳統增強生成(Retrieval-Augmented Generation)方法的關鍵局限性。

此外,論文考察了圖RAG的下游任務、應用領域、評估方法及工業應用案例。最后,論文探討了未來研究方向,以激發進一步探索并推動該領域的發展。

論文的貢獻可以概括如下:

?論文提供了一份全面且系統的現有最先進GraphRAG方法論綜述。論文給出了GraphRAG的正式定義,概述了其包括G-Indexing、G-Retrieval和G-Generation在內的通用工作流程。

?論文討論了現有GraphRAG系統的基礎核心技術,包括G-Indexing、G-Retrieval和G-Generation。對于每個組件,論文分析了當前正在探索的模型選擇、方法設計及增強策略的范圍。此外,論文還對比了這些模塊中采用的多樣化的訓練方法。

?論文界定了與GraphRAG相關的下游任務、基準測試、應用領域、評估指標、當前挑戰及未來研究方向,討論了該領域的進展與前景。此外,論文還編制了一份現有的工業GraphRAG系統清單,提供了學術研究向現實世界工業解決方案轉化的見解。               

二、論文的簡單介紹

2.1 論文的背景

一起聊聊圖檢索增強生成-AI.x社區圖片

圖 1 直接 LLM、RAG 和 GraphRAG 的比較。給定用戶查詢,直接由 LLMs 回答可能會遇到淺層響應或缺乏特異性。RAG 通過檢索相關文本信息來解決這一問題,一定程度上緩解了問題。然而,由于文本的長度和實體關系的靈活自然語言表達,RAG 難以強調“影響”關系,這是問題的核心。而 GraphRAG 方法利用圖數據中明確的實體和關系表示,通過檢索相關結構化信息實現精確回答。

盡管大型語言模型(LLMs)在語言理解和文本生成方面表現出色,但由于缺乏領域特定知識、實時更新信息和專有知識,這些知識超出了LLMs的預訓練語料庫范圍,可能導致模型產生所謂的“幻覺”[53],即生成不準確甚至捏造的信息。因此,迫切需要通過外部知識來補充LLMs以緩解這一問題。檢索增強生成(Retrieval-Augmented Generation, RAG)作為一種重要的進化,旨在通過在生成過程中集成檢索組件來提高生成內容的質量和相關性。

RAG的核心在于其能夠動態查詢大型文本語料庫,將相關事實知識融入底層語言模型生成的響應中。這種集成不僅豐富了響應的上下文深度,還確保了更高程度的事實準確性和具體性。RAG因其卓越的性能和廣泛的應用而備受關注,成為該領域的關鍵焦點。

盡管RAG在各個領域取得了顯著成果并得到了廣泛應用,但在實際場景中仍存在一些局限性:

(1)忽視關系:在實踐中,文本內容并非孤立存在,而是相互關聯的。傳統RAG未能捕捉到僅憑語義相似性無法表示的重要結構化關系知識。例如,在論文通過引用關系鏈接的引用網絡中,傳統RAG方法側重于根據查詢找到相關論文,卻忽略了論文之間重要的引用關系。    

(2)冗余信息:RAG在以文本片段形式拼接為提示時,往往重復敘述內容,使得上下文變得過長,導致“中間迷失”困境[94]。

(3)缺乏全局信息:RAG只能檢索到傳統檢索增強生成(RAG)方法通常局限于文檔子集,無法全面把握全局信息,因此在如查詢聚焦摘要(QFS)等任務中表現不佳。

圖檢索增強生成(GraphRAG)作為一種創新解決方案應運而生,以應對這些挑戰。與傳統RAG不同,GraphRAG從預構建的圖數據庫中檢索與給定查詢相關的包含關系知識的圖元素,如圖1所示。這些元素可能包括節點、三元組、路徑或子圖,用于生成響應。GraphRAG考慮文本之間的相互聯系,實現對關系信息更準確全面的檢索。此外,圖數據(如知識圖譜)提供了對文本數據的抽象和總結,從而顯著縮短輸入文本長度,減輕冗長問題。通過檢索子圖或圖社區,論文可以獲取全面信息,有效應對QFS挑戰,捕捉圖結構中的更廣泛上下文和相互聯系。

論文首次對GraphRAG進行了系統的綜述。具體而言,論文首先介紹了GraphRAG的工作流程及其支撐領域的基本背景知識。隨后,論文根據GraphRAG過程的主要階段,即基于圖的索引(G-Indexing)、圖引導的檢索(G-Retrieval)和圖增強的生成(G-Generation),分別進行了文獻分類,詳細闡述了各階段的核心技術和訓練方法。此外,論文還探討了GraphRAG的下游任務、應用領域、評估方法及工業應用案例,闡明了GraphRAG在實際環境中的應用情況,并反映了其在多個領域的多功能性和適應性。最后,鑒于GraphRAG研究仍處于初級階段,論文深入探討了可能的未來研究方向。這一預測性討論旨在為即將到來的研究鋪平道路,激發新的研究線索,并推動該領域的發展,最終將GraphRAG推向更加成熟和創新的高度。            

一起聊聊圖檢索增強生成-AI.x社區圖片

   

圖2. 問答任務中GraphRAC框架的概覽。在本調研中,論文將GraphRAG分為三個階段:G-索引(G-Indexing)、G-檢索(G-Retrieval)和G-生成(G-Generation)。論文將檢索源分為開源知識圖譜和自建圖數據??梢圆捎貌樵冊鰪姾椭R增強等多種增強技術來提升結果的相關性。與RAG不同,RAG直接使用檢索到的文本來進行生成,而GraphRAG需要將檢索到的圖信息轉換為生成器可接受的格式,以提升任務性能。


2.2 GraphRAG 概述

GraphRAG 是一個利用外部結構化知識圖譜來提升 LMs 上下文理解能力并生成更明智響應的框架,如圖 2 所示。GraphRAG 的目標是從數據庫中檢索最相關的知識,從而增強下游任務的答案。該過程可以定義為

一起聊聊圖檢索增強生成-AI.x社區

其中 a^* 是給定 TAG G的查詢 q 的最優答案,A 是可能響應的集合。之后,論文聯合建模目標分布 p (a|q, G) 與圖檢索器 p_phi ( G | q, G) 和答案生成器 p_phi (a|q, G ),其中 theta, phi 是可學習參數,并利用總概率公式分解 p (a|q, G),可以表述為

一起聊聊圖檢索增強生成-AI.x社區

其中 G^是最優子圖。由于候選子圖的數量可能隨圖的大小呈指數增長,因此需要有效的近似方法。因此,方程 4 的第一行通過第二行進行近似。具體而言,圖檢索器用于提取最優子圖 G^,之后生成器基于檢索到的子圖生成答案。

因此,在本調研中,論文將GraphRAG的整個過程分解為三個主要階段:基于圖的索引(Graph-Based Indexing)、圖引導的檢索(Graph-Guided Retrieval)和圖增強的生成(Graph-Enhanced Generation)。GraphRAG的總體工作流程如圖2所示,各階段的詳細介紹如下。

基于圖的索引(Graph-Based Indexing,G-Indexing)?;趫D的索引構成了GraphRAG的初始階段,旨在識別或構建一個與下游任務相符的圖數據庫G,并在其上建立索引。圖數據庫可以來源于公共知識圖譜、圖數據,或是基于專有數據源(如文本或其他形式的數據)構建。索引過程通常包括映射節點和邊屬性、建立節點間連接的指針以及組織數據以支持快速遍歷和檢索操作。索引決定了后續檢索階段的粒度,對于提高查詢效率起著至關重要的作用。

圖引導的檢索(Graph-Guided Retrieval,G-Retrieval)。在基于圖的索引之后,圖引導的檢索階段專注于根據用戶查詢或輸入從圖數據庫中提取相關信息。具體而言,給定一個以自然語言表達的用戶查詢q,檢索階段旨在提取最相關的元素(例如,實體、三元組、路徑、知識圖譜的子圖),可以形式化為:    

一起聊聊圖檢索增強生成-AI.x社區

其中G^*是最優檢索的圖元素,Sim(·, ·)是一個衡量用戶查詢與圖數據之間語義相似度的函數。R (·)表示一個函數,用于縮小子圖搜索范圍,考慮效率。

圖增強生成(G-Generation)。圖增強生成階段涉及基于檢索到的圖數據合成有意義的輸出或響應。這可能包括回答用戶查詢、生成報告等。在這一階段,生成器接收查詢、檢索到的圖元素和一個可選提示作為輸入,生成響應,可以表示為

一起聊聊圖檢索增強生成-AI.x社區

其中F (·, ·) 是一個將圖數據轉換為生成器可處理形式的函數。

2.3 基于圖的索引

圖數據庫的構建和索引構成了GraphRAG的基礎,圖數據庫的質量直接影響到GraphRAG的性能。論文將分類和總結圖數據的選擇或構建以及所采用的各種索引方法。

2.3.1 圖數據

GraphRAG中使用了各種類型的圖數據進行檢索和生成。在這里,論文根據其來源將這些數據分為兩類,包括開放知識圖譜和自建圖數據。

2.3.1.1開放知識圖譜

開放知識圖譜指的是從公開可用的資源庫或數據庫中獲取的圖數據。使用這些知識圖譜可以顯著減少開發和維護所需的時間和資源。在本調查中,論文根據其范圍進一步將它們分為兩類,即通用知識圖譜和領域知識圖譜。

(1) 通用知識圖譜。通用知識圖譜主要存儲通用、結構化的知識,并且通常依賴于全球社區的集體輸入和更新,確保了一個全面且持續更新的信息庫。

百科知識圖譜是一種典型的通用知識圖譜,包含了從人類專家和百科全書中收集的大規?,F實世界知識。例如,

?Wikidata [151] 是一個免費開放的知識庫,存儲了其姊妹項目如Wikipedia、Wikivoyage、Wiktionary等的結構化數據。    

?Freebase [7] 是一個廣泛、協作編輯的知識庫,從各種來源編譯數據,包括個人貢獻和來自Wikipedia等數據庫的結構化數據。

?DBpedia [2] 通過利用Wikipedia文章中的信息框和類別,表示了數百萬實體的信息,包括人物、地點和事物。

?YAGO4 [138] 從Wikipedia、WordNet和GeoNames收集知識。

常識知識圖譜是另一種類型的通用知識圖譜。它們包括抽象的常識知識,如概念之間的語義關聯和事件之間的因果關系。典型的常識知識圖譜包括:

?ConceptNet [91] 是一個語義網絡,由代表單詞或短語的節點組成,通過表示語義關系的邊連接。

?ATOMIC [56, 131] 建模了事件之間的因果關系。

(2) 領域知識圖譜。特定領域的知識圖譜對于增強LLM解決特定領域問題至關重要。這些KG在特定領域提供專業知識,幫助模型獲得更深入的洞察力和對復雜專業關系的更全面理解

?在生物醫學領域,CMeKG包含廣泛的數據,包括疾病、癥狀、治療、藥物以及醫學概念之間的關系。

?CPubMed-KG是一個中文醫學知識數據庫,建立在PubMed豐富的生物醫學文獻庫之上。在電影領域,

?Wiki-Movies [110] 從與電影相關的Wikipedia文章中提取結構化信息,將電影、演員、導演、類型和其他相關細節編譯成結構化格式。

?此外,Jin等人 [66] 構建了一個名為GR-Bench的數據集,包括跨越學術、電子商務、文學、醫療保健和法律領域的五個領域知識圖譜。

?此外,He等人 [47] 將ExplaGraphs和SceneGraphs的三元組格式和JSON文件轉換為標準圖格式,并從WebQSP中選擇需要2跳推理的問題,創建了用于評估GraphRAG系統的通用圖格式數據集GraphQA。

2.3.1.2 自構建圖數據

自構建圖數據有助于將專有或領域特定知識定制化和集成到檢索過程中。對于原本不涉及圖數據的下游任務,研究人員常提出從多個來源(如文檔、表格和其他數據庫)構建圖,并利用GraphRAG提升任務性能。一般而言,這些自構建圖緊密關聯于方法的特定設計,與前述的開放領域圖數據有所區別。

?為了模擬文檔間的結構關系,Munikoti等人[113]提出構建一個異構文檔圖,捕捉多種文檔級關系,包括共引、共主題、共會議等。

?Li等人[87]和王等人[160]根據共享關鍵詞建立段落間的關系。

?為捕捉文檔中實體間的關系,Delile等人[20]、Edge等人[25]、Gutierrez等人[43]和李等人[80]利用命名實體識別工具從文檔中提取實體,并使用語言模型進一步提取實體間的關系,提取的實體和關系隨后形成知識圖譜。    

?還有一些針對下游任務的映射方法需要根據任務本身的特性進行設計。例如,為了解決專利短語相似性推理任務,Peng和Yang[122]將專利數據庫轉換為專利-短語圖。若短語出現在專利中,則建立專利節點與短語節點間的連接,而專利節點間的連接則基于引用關系。

?針對客戶服務技術支持場景,Xu等人[169]提出將歷史問題建模為KG,將問題轉化為樹形表示以維護問題內部關系,并利用語義相似度和閾值保留問題間關系。

2.3.2 索引

基于圖的索引在提高圖數據庫查詢操作的效率和速度方面發揮著關鍵作用,直接影響后續檢索方法和粒度。常見的基于圖的索引方法包括圖索引、文本索引和向量索引。

2.3.2.1 圖索引

圖索引是最常用的方法,保留了圖的完整結構。該方法確保對于任何給定節點,其所有邊和相鄰節點都能輕松訪問。在后續檢索階段,可以使用諸如BFS和最短路徑算法等經典圖搜索算法來促進檢索任務。

2.3.2.2 文本索引

文本索引涉及將圖數據轉換為文本描述以優化檢索過程。這些描述存儲在文本語料庫中,可以應用各種基于文本的檢索技術,如稀疏檢索和密集檢索。一些方法使用預定義規則或模板將知識圖轉換為人類可讀的文本。例如,

?Li等人[81]、Huang等人[55]和Li等人[86]使用預定義模板將知識圖中的每個三元組轉換為自然語言,

?而Yu等人[179]將具有相同頭實體的三元組合并為段落。

?此外,一些方法將子圖級信息轉換為文本描述。例如,Edge 等人 [25] 在圖上執行社區檢測,并使用大型語言模型(LLMs)為每個社區生成摘要。

一起聊聊圖檢索增強生成-AI.x社區

圖 3. 基于圖的檢索的通用架構。    

2.3.2.3 向量索引

向量索引將圖數據轉換為向量表示,以提高檢索效率,便于快速檢索和有效查詢處理。例如:

?實體鏈接可以通過查詢嵌入無縫應用,并且可以利用局部敏感哈希(LSH)等高效向量搜索算法。

?G-Retriever [47] 使用語言模型對圖中的每個節點和邊的文本信息進行編碼,

?而 GRAG [50] 使用語言模型將 k 跳自我網絡轉換為圖嵌入,從而更好地保留結構信息。

備注。這三種索引方法各有不同的優勢:圖索引便于訪問結構信息,文本索引簡化了文本內容的檢索,向量索引實現了快速高效的搜索。因此,在實際應用中,通常傾向于采用結合這些索引方法的混合方法,而不是僅依賴一種。

2.4 圖引導檢索

在 GraphRAG 中,檢索過程對于確保生成輸出的質量和相關性至關重要,它通過從外部圖數據庫中提取相關且高質量的圖數據來實現。然而,檢索圖數據面臨兩大挑戰:

(1)候選子圖爆炸:隨著圖規模增大,候選子圖數量呈指數級增長,需要啟發式搜索算法來高效探索和檢索相關子圖。

(2)相似度測量不足:準確測量文本查詢與圖數據之間的相似度需要開發能夠理解文本和結構信息的算法。

論文專注于研究 GraphRAG 中檢索過程的各個方面,包括檢索器的選擇、檢索范式、檢索粒度以及有效的增強技術。圖引導檢索的通用架構如圖 3 所示。

2.4.1 檢索器

在GraphRAG中,各種檢索器針對檢索任務的不同方面具有獨特的優勢。論文根據其底層模型將檢索器分為三種類型:非參數檢索器、基于語言模型的檢索器和基于圖神經網絡的檢索器。需要注意的是,用于預處理步驟的模型,如查詢編碼和實體鏈接,在此不作考慮,因為這些模型在不同方法中有所不同,并非本文的主要關注點。

2.4.1.1 非參數檢索器

非參數檢索器基于啟發式規則或傳統的圖搜索算法,不依賴深度學習模型,從而實現高效的檢索。例如,

?Yasunaga等人[175]和Taunk等人[146]檢索包含每個問題-選項對主題實體的k跳路徑。

?G-Retriever[47]通過引入邊價格并優化相關子圖提取,改進了傳統的獎賞收集斯坦納樹(PCST)算法。    

?Delile等人[20]和Mavromatis與Karypis[108]首先提取查詢中提到的實體,然后檢索與這些實體相關的最短路徑。這些方法通常涉及一個實體鏈接預處理步驟,以在檢索前識別圖中的節點。

2.4.1.2 基于語言模型的檢索器(LM-based Retriever)

由于具備強大的自然語言理解能力,語言模型在GraphRAG中作為有效的檢索器。這些模型擅長處理和解釋多樣化的自然語言查詢,使其在基于圖框架的廣泛檢索任務中表現出色。論文主要將語言模型分為兩種類型:判別式和生成式語言模型。

?子圖檢索器[181]訓練RoBERTa[97]作為檢索器,該檢索器從主題實體擴展并按順序決策過程中檢索相關路徑。

?KG-GPT[71]采用大型語言模型(LLMs)生成特定實體的前K個相關關系集合。

?Wold等人[164]利用微調的GPT-2生成推理路徑。

?StructGPT[58]利用LLMs自動調用多個預定義函數,通過這些函數可以檢索并組合相關信息以輔助進一步推理。

2.4.1.3 基于圖神經網絡的檢索器(GNN-based Retriever)

圖神經網絡(GNNs)擅長理解和利用復雜的圖結構。基于GNN的檢索器通常先對圖數據進行編碼,然后根據與查詢的相似度對不同的檢索粒度進行評分。例如,

?GNN-RAG[108]首先對圖進行編碼,為每個實體分配一個分數,并根據閾值檢索與查詢相關的實體

?EtD[90]通過多次迭代來檢索相關路徑。在每次迭代中,它首先使用LLaMA2[148]選擇連接當前節點的邊,然后利用GNNs獲取新一層節點的嵌入,為下一輪的LLM選擇做準備。

備注。在檢索過程中,非參數檢索器表現出良好的檢索效率,但由于缺乏對下游任務的訓練,可能會遭受檢索不準確的困擾。同時,盡管基于語言模型的檢索器和基于圖神經網絡的檢索器提供了更高的檢索準確性,但它們需要大量的計算開銷??紤]到這種互補性,許多方法提出了混合檢索方法,以提高檢索效率和準確性。許多方法采用多階段檢索策略,在每個階段使用不同的模型。例如,RoG [102] 首先利用大型語言模型生成規劃路徑,然后從知識圖中提取滿足這些規劃路徑的路徑。GenTKGQA [36] 使用大型語言模型從查詢中推斷關鍵關系和約束,并根據這些約束提取三元組。

2.4.2 檢索范式

在GraphRAG中,不同的檢索范式,包括一次性檢索、迭代檢索和多階段檢索,對于提高檢索信息的相關性和深度起著至關重要的作用。一次性檢索旨在通過一次操作收集所有相關信息。迭代檢索基于先前檢索的信息進行進一步搜索,逐步縮小到最相關的結果。在這里,論文將迭代檢索進一步分為自適應檢索和非自適應檢索,唯一的區別在于檢索的停止是否由模型決定。另一種檢索范式是多階段檢索,其中檢索被分為多個階段。在每個階段可能使用不同類型的檢索器,以獲得更精確和多樣化的搜索結果。下面,論文將詳細介紹這些類型的檢索范式。    

2.4.2.1 一次檢索

一次檢索旨在通過單次查詢檢索所有相關信息。一類方法[43, 50, 81]利用嵌入相似性來檢索最相關的信息片段。另一類方法設計預定義規則或模式,直接從圖數據庫中提取特定的結構化信息,如三元組、路徑或子圖。例如,G-Retriever [47]利用擴展的PCST算法檢索最相關的子圖。KagNet [88]提取長度不超過k的所有主題實體對之間的路徑。Yasunaga等人[175]和Taunk等人[146]提取包含所有主題實體及其2跳鄰居的子圖。

此外,論文還包含了一些涉及解耦和獨立檢索的多重檢索方法,這些方法可以并行計算并僅執行一次。例如,Luo等人[102]和Cheng等人[16]首先指示LLMs生成多條推理路徑,然后使用BFS檢索器在知識圖中依次搜索與每條路徑匹配的子圖。KG-GPT [71]將原始查詢分解為多個子查詢,在一次檢索過程中為每個子查詢檢索相關信息。

2.4.2.2 迭代檢索

在迭代檢索中,采用多次檢索步驟,后續搜索依賴于先前檢索的結果。這些方法旨在通過連續迭代加深對檢索信息理解或完整性的提升。在本調查中,論文將迭代檢索進一步分類為兩類:(1)非自適應檢索和(2)自適應檢索。論文將在下面詳細總結這兩類方法。

(1) 非自適應檢索。非自適應方法通常遵循固定的檢索序列,檢索的終止由設置的最大時間或閾值決定。例如,PullNet [139] 通過 T 次迭代檢索問題相關子圖。在每次迭代中,論文設計了一種檢索規則來選擇檢索實體的子集,然后通過在知識圖中搜索相關邊來擴展這些實體。在每次迭代中,KGP [160] 首先根據上下文與圖中節點的相似性選擇種子節點。然后使用大型語言模型(LLMs)總結和更新種子節點的鄰近節點的上下文,這些上下文在后續迭代中被利用。

(2) 自適應檢索。自適應檢索的一個顯著特點是讓模型自主決定完成檢索活動的最佳時刻。例如,[42, 168] 利用語言模型(LM)進行跳數預測,作為結束檢索的指示器。還有一組研究人員使用模型生成的特殊標記或文本來作為檢索過程的終止信號。例如,ToG [142] 提示 LLM 代理探索多個可能的推理路徑,直到 LLM 根據當前推理路徑確定問題可以被回答。[181] 訓練了一個 RoBERTa 來從每個主題實體擴展路徑。在這個過程中,引入了一個名為 "[END]" 的虛擬關系來終止檢索過程。

另一種常見的方法是將大型模型視為代理,使其能夠直接生成問題的答案來信號結束迭代。例如,[58, 60, 66, 143, 158] 提出了基于 LLM 的代理在圖上進行推理。這些代理可以自主決定檢索的信息,調用預定義的檢索工具,并根據檢索到的信息終止檢索過程。    

2.4.2.3 多階段檢索

多階段檢索將檢索過程線性劃分為多個階段,在這些階段之間進行諸如檢索增強等額外步驟,甚至包括生成過程。在多階段檢索中,不同的階段可能采用不同類型的檢索器,這使得系統能夠結合針對查詢不同方面的各種檢索技術。例如,

?Wang et al. [159] 首先使用非參數檢索器提取查詢推理鏈中實體的 n 跳路徑,然后在修剪階段之后,進一步檢索修剪子圖中實體的一跳鄰居。

?OpenCSR [45] 將檢索過程分為兩個階段。在第一階段,它檢索主題實體的所有一跳鄰居。在第二階段,它比較這些鄰居節點與其他節點的相似性,選擇相似性最高的 top-k 節點進行檢索。

?GNN-RAG [108] 首先使用 GNNs 檢索最有可能成為答案的 top-k 節點。隨后,它檢索查詢實體與答案實體之間的所有最短路徑。

備注。在GraphRAG中,一旦檢索通常表現出較低的復雜度和較短的響應時間,這使其適合需要實時響應的場景。相比之下,迭代檢索往往涉及更高的時間復雜度,特別是在使用LLM作為檢索器時,可能會導致較長的處理時間。然而,這種方法通過迭代細化檢索到的信息并生成響應,可以產生更高的檢索準確性。因此,檢索范式的選擇應根據具體用例和需求平衡準確性和時間復雜度。

2.4.3 檢索粒度

根據不同的任務場景和索引類型,研究人員設計了不同的檢索粒度(即從圖數據中檢索相關知識的形式),可分為節點、三元組、路徑和子圖。每種檢索粒度都有其自身的優勢,適用于不同的實際場景。論文將在以下章節中介紹這些粒度的詳細信息。

2.4.3.1 節點

節點允許針對圖中的單個元素進行精確檢索,非常適合目標查詢和特定信息提取。通常,對于知識圖譜,節點指的是實體。對于其他類型的文本屬性圖,節點可能包括描述節點屬性的文本信息。通過檢索圖中的節點,GraphRAG系統可以提供關于其屬性、關系和上下文的詳細見解。例如,Munikoti等人[113]、Li等人[87]和王等人[160]構建文檔圖并檢索相關的段落節點。Liu等人[90]、Sun等人[139]和Gutierrez等人[43]從構建的知識圖譜中檢索實體。

2.4.3.2 三元組

通常,三元組由實體及其關系以主語-謂語-賓語元組的形式構成,提供了圖內關系數據的結構化表示。三元組的結構化格式使得數據檢索清晰有序,這在理解實體間關系和上下文相關性至關重要的場景中具有優勢。Yang等人[171]檢索包含主題實體的三元組作為相關信息。Huang等人[55]、Li等人[81]和Li等人[86]首先將圖數據的每個三元組使用預定義模板轉換為文本句子,隨后采用文本檢索器提取相關三元組。然而,直接從圖數據中檢索三元組可能仍缺乏上下文的廣度和深度,因此無法捕捉間接關系或推理鏈條。為解決這一挑戰,Wang等人[152]提出基于原始問題生成邏輯鏈條,并檢索每個邏輯鏈條的相關三元組。    

2.4.3.3 路徑

路徑粒度數據的檢索可以視為捕捉實體間關系的序列,增強上下文理解和推理能力。在GraphRAG中,檢索路徑因其能夠捕捉圖內復雜關系和上下文依賴性而具有明顯優勢。

然而,路徑檢索可能頗具挑戰性,因為隨著圖規模的增長,可能的路徑數量呈指數級增長,這加劇了計算復雜性。為解決這一問題,一些方法依據預定義規則檢索相關路徑。例如,

?Wang等人[159]與Lo和Lim[98]首先在查詢中選取實體對,然后遍歷以找出它們之間的所有n跳路徑。

?HyKGE[64]首先定義了三種路徑類型:路徑、共同祖先鏈和共現鏈,隨后利用相應規則檢索這三種路徑。此外,一些方法利用模型在圖上執行路徑搜索。

?ToG[142]提出引導LLM代理在KGs上執行波束搜索,并找出有助于回答問題的多條可能推理路徑。Luo等人[102]、

?Wu等人[168]以及Guo等人[42]首先利用模型生成可信的推理計劃,然后基于這些計劃檢索相關路徑。

?GNN-RAG[108]首先識別問題中的實體,隨后提取滿足特定長度關系的實體間所有路徑。

2.4.3.4 子圖檢索

子圖檢索因其能夠捕獲圖內全面的關系上下文而具有顯著優勢。這種粒度使得GraphRAG能夠提取并分析嵌入在更大結構中的復雜模式、序列和依賴關系,從而促進更深層次的洞察和對語義聯系的更細致理解。

為了確保信息完整性和檢索效率,一些方法提出了一種基于規則的初步方法來檢索候選子圖,這些子圖隨后會進行進一步的細化或處理。Peng和Yang [122] 從自建的專利短語圖中檢索專利短語的自我圖(ego graph)。

Yasunaga等人 [175]、Feng等人 [32] 和Taunk等人 [146] 首先選擇主題實體及其兩跳鄰居作為節點集,然后選擇頭尾實體均在節點集中的邊來形成子圖。此外,還有一些基于嵌入的子圖檢索方法。例如,Hu等人 [50] 首先對圖數據庫中的所有 k 跳自我網絡進行編碼,然后根據嵌入之間的相似性檢索與查詢相關的子圖。Wen等人 [163] 和Li等人 [80] 基于預定義規則提取兩種類型的圖,包括路徑證據子圖和鄰居證據子圖。OpenCSR [45] 從一個初始的種子節點開始,逐步擴展到新節點,最終形成一個子圖。

除了上述直接檢索子圖的方法外,一些工作提出了先檢索相關路徑,然后從這些路徑構建相關子圖的方法。例如,Zhang等人 [181] 訓練了一個RoBERTa模型,通過序列決策過程識別多條推理路徑,隨后將不同路徑中的相同實體合并,以誘導出一個最終的子圖。    

2.4.3.5混合粒度檢索

考慮到上述各種檢索粒度的優缺點,一些研究者提出使用混合粒度,即從圖數據中檢索多個粒度的相關信息。這種粒度增強了系統捕捉細節關系和廣泛上下文理解的能力,從而減少了噪聲并提高了檢索數據的相關性。先前的工作提出了利用大型語言模型(LLM)代理來檢索復雜的混合信息。Jin等人[66]、Jiang等人[58]、Jiang等人[60]、Wang等人[158]和Sun等人[143]提出采用基于LLM的代理,以自適應地選擇節點、三元組、路徑和子圖。

備注:(1)在實際應用中,這些檢索粒度之間沒有明確的界限,因為子圖可以由多個路徑組成,路徑可以由幾個三元組形成。(2)節點、三元組、路徑和子圖等各種粒度在GraphRAG過程中提供了不同的優勢。根據任務的具體上下文,在選擇粒度時平衡檢索內容和效率至關重要。對于簡單的查詢或當效率至關重要時,較細粒度如實體或三元組可能更受歡迎,以優化檢索速度和相關性。相反,復雜場景通常受益于結合多種粒度的混合方法。這種方法確保了對圖結構和關系的更全面理解,增強了生成響應的深度和準確性。因此,GraphRAG在粒度選擇上的靈活性使其能夠有效地適應不同領域的多樣化信息檢索需求。

2.4.4檢索增強

為了確保高質量的檢索,研究者提出了增強用戶查詢和檢索知識的技術。在本文中,論文將查詢增強分為查詢擴展和查詢分解,將知識增強分為合并和修剪。這些策略共同優化了檢索過程。盡管其他技術如查詢重寫在RAG中常用,但在GraphRAG中應用較少。論文不深入探討這些方法,盡管它們有可能適應GraphRAG。

2.4.4.1 查詢增強

應用于查詢的策略通常涉及預處理技術,以豐富信息以便更好地檢索。這可能包括查詢擴展和查詢分解。

(1) 查詢擴展。由于查詢通常長度較短且信息內容有限,查詢擴展旨在通過補充或細化原始查詢與額外的相關術語或概念來改進搜索結果。Luo等人[102]利用大型語言模型(LLMs)生成基于知識圖譜(KGs)的關系路徑來增強檢索查詢。Cheng等人[16]采用SPARQL從Wikidata獲取查詢實體的所有別名,以擴充捕捉同一實體詞匯變體的檢索查詢。Huang等人[55]提出了一種共識視圖知識檢索方法,以提高檢索準確性,該方法首先發現語義相關的查詢,然后重新加權原始查詢項以增強檢索性能。HyKGE[64]利用大型模型生成問題的假設輸出,將假設輸出與查詢串聯作為檢索器的輸入。

(2) 查詢分解。查詢分解技術將原始用戶查詢分解成更小、更具體的子查詢。每個子查詢通常關注原始查詢的特定方面或組件,成功緩解了語言查詢的復雜性和歧義性。例如,[18, 71]將主要問題分解成子句子,每個子句子代表一個不同的關系,并依次為每個子句子檢索相關三元組。    

2.4.4.2 知識增強

在檢索初始結果之后,采用知識增強策略來精煉和改進檢索器的結果。這一階段通常涉及知識合并和知識修剪過程,以突出顯示最相關的信息。這些技術旨在確保最終檢索結果集不僅全面,而且高度符合用戶的信息需求。

(1) 知識融合。知識融合檢索到的信息能夠實現信息的壓縮和聚合,有助于通過整合獲得更全面的視角,從多個來源獲取相關細節。這種方法不僅增強了信息的完整性和連貫性,還緩解了模型中輸入長度限制的問題。KnowledgeNavigator [42] 通過三元組聚合合并節點并壓縮檢索到的子圖,以提高推理效率。在子圖檢索 [181] 中,研究人員從每個主題實體檢索前k條路徑形成單個子圖后,提出合并不同子圖中相同的實體以形成最終子圖。Wen等人 [163] 和Li等人 [80] 基于關系合并檢索到的子圖,將滿足相同關系的首尾實體合并為兩個不同的實體集,最終形成關系路徑。

一起聊聊圖檢索增強生成-AI.x社區

圖4. 圖增強生成的概覽。

(2) 知識剪枝。知識剪枝涉及過濾掉較少相關或冗余的檢索信息以精煉結果。先前的剪枝方法主要包括兩類:基于(再)排序的方法和基于大型語言模型(LLM)的方法?;?再)排序的方法涉及使用定制的指標或標準對檢索信息進行重新排序或優先級排序。一種方法引入了更強的模型進行再排序。例如,

?Li等人 [81] 將每個檢索到的三元組與問題-選項對連接,并采用預訓練的交叉編碼器 [129] 對檢索到的三元組進行再排序。

?Jiang等人 [64] 使用FlagEmbedding對文本進行編碼,以重新排序由嵌入模型“bge reranker large”返回的前k個文檔。

另一類方法利用查詢與檢索信息之間的相似性進行排序。例如,

?Cheng等人[16]根據子圖與查詢之間在關系和細粒度概念上的相似性對候選子圖進行重新排序。

?Taunk等人[146]首先對2跳鄰居進行聚類,然后刪除與輸入查詢相似度最低的聚類。

?Yasunaga等人[175]根據預訓練語言模型計算的問題上下文與知識圖譜實體節點之間的相關性分數對檢索到的子圖進行修剪。

?Wang等人[159]、Jiang等人[61]、Gutierrez等人[43]和Luo等人[100]采用個性化PageRank算法對檢索到的候選信息進行排序,以便進一步過濾。    

?G-G-E[35]首先將檢索到的子圖劃分為若干較小的子圖,然后比較每個較小子圖與查詢的相似性。刪除相似度低的子圖,并將剩余的較小子圖合并成一個較大的子圖。

此外,第三類方法提出了新的度量標準用于重新排序。例如,Murnikoti等人[113]提出了一種度量標準,既能衡量檢索文本塊的影響力,又能衡量其時效性。KagNetr將檢索到的路徑分解為三元組,并根據知識圖譜嵌入(KGE)技術測量的置信度分數對路徑進行重新排序?;诖笮驼Z言模型(LLM)的方法擅長捕捉復雜的語言模式和語義細微差別,這增強了它們對搜索結果進行排序或生成響應的準確性。為了避免引入噪聲信息,Wang等人[159]和Kim等人[71]提出通過調用LLM來檢查并修剪無關的圖數據。

2.5圖增強生成

生成階段是GraphRAG中另一個關鍵步驟,旨在將檢索到的圖數據與查詢相結合,以提高響應質量。在這一階段,必須根據下游任務選擇合適的生成模型。然后將檢索到的圖數據轉換為與生成器兼容的格式。生成器將查詢和轉換后的圖數據作為輸入,產生最終響應。除了這些基本過程外,生成增強技術可以通過加強查詢與圖數據之間的交互并豐富內容生成本身,進一步提高輸出質量。本節內容的組織結構和圖增強生成的概覽如圖4所示。

2.5.1 生成器

生成器的選擇往往取決于當前面臨的下游任務類型。對于判別式任務(例如多選題問答)或可以表述為判別式任務的生成式任務(如知識庫問答KBQA),可以利用圖神經網絡(GNNs)或判別式語言模型來學習數據的表示。這些表示隨后可以映射到與不同答案選項相關聯的logits,以提供響應?;蛘?,生成式語言模型可以直接用于生成答案。然而,對于生成式任務,僅使用GNNs和判別式語言模型是不夠的。這類任務需要生成文本,這要求部署解碼器。

2.5.1.1 GNNs

由于GNNs在圖數據表示能力上的強大,它們特別適用于判別式任務。GNNs能夠直接編碼圖數據,捕捉圖結構中復雜的關聯和節點特征。這種編碼隨后通過多層感知器(MLP)處理以生成預測結果。這些方法主要采用經典的GNN模型(例如,GCN [ 7 4 ]、GAT [150]、GraphSAGE [ 4 4 ] 和 Graph Transformers [135]),無論是原始形式還是經過修改以更好地適配下游任務。例如,Sun等人 [140] 在消息傳遞過程中計算相鄰節點的PageRank分數,并按這些分數加權聚合它們,這種方法增強了中心節點從其最相關的相鄰節點吸收信息的能力。Mavromatis和Karypis [107] 將查詢解碼為多個向量(指令),并通過模擬廣度優先搜索(BFS)與GNNs來改進指令執行,以及使用自適應推理結合知識圖譜感知信息來更新指令,從而增強指令解碼和執行的有效性。

2.5.1.2 語言模型(LMs)

LMs在文本理解方面具有強大的能力,這也使它們能夠作為生成器發揮作用。在將LMs與圖數據結合的背景下,首先需要將檢索到的圖數據轉換為特定的圖格式。這一轉換過程確保了結構化信息能被LMs有效理解和利用。這些格式將在第7.2節中詳細闡述,對于保持圖數據的關聯性和層次結構至關重要,從而增強了模型解釋復雜數據類型的能力。一旦圖數據格式化,它就會與查詢結合并輸入到一個LM中。    

對于僅編碼器模型,如BERT [22] 和RoBERTa [97],它們主要用于判別任務。與GNNs類似,這些模型首先對輸入文本進行編碼,然后利用MLPs將其映射到答案空間[55, 61, 81]。另一方面,編碼器-解碼器和僅解碼器模型,如T5 [127]、GPT-4 [116] 和LLaMA [24],擅長于判別和生成任務。這些模型在文本理解、生成和推理方面表現出色,能夠直接處理文本輸入并生成文本響應。

2.5.1.3 混合模型

考慮到GNNs在表示圖數據結構方面的優勢,以及LMs在文本理解方面表現出的強大能力,許多研究正在探索這兩種技術的結合,以生成連貫的響應。本文將混合生成方法分為兩種不同類型:級聯范式和平行范式。

(1) 級聯范式。在級聯方法中,過程涉及順序交互,其中一個模型的輸出作為下一個模型的輸入。具體而言,GNN首先處理圖數據,將其結構和關系信息封裝成LM能夠理解的形式。隨后,這種轉換后的數據被輸入到LM中,進而生成最終的基于文本的響應。這些方法以分步方式利用每個模型的優勢,確保對結構和文本數據都進行細致的關注。

在這些方法中,提示調優[79, 82, 95, 96]是一種典型方法,其中GNN通常用于編碼檢索到的圖數據。這種編碼后的圖數據隨后作為前綴添加到LM的輸入文本嵌入中。然后通過下游任務優化GNN,以產生增強的圖數據編碼[36, 47, 50, 182]。

(2) 并行范式。另一方面,并行方法通過同時利用GNN和LLM的能力來操作。在這種設置下,兩個模型同時接收初始輸入,并協同處理相同數據的不同方面。然后通過另一個模型或一組規則合并輸出,以生成統一的響應,該響應整合了圖形結構和文本內容的見解。

在并行范式中,典型方法包括分別使用GNN和LM對輸入進行編碼,然后整合這兩種表示,或直接整合它們的輸出響應。例如,Jiang等人[59]通過加權求和聚合GNN和LM的預測以獲得最終答案。Lin等人[88]和Pahuja等人[118]利用注意力機制整合GNN導出的圖表示和LM生成的文本表示。Yasunaga等人[175]、Munikoti等人[113]和Taunk等人[146]直接將圖表示與文本表示連接起來。

另一種方法涉及設計專用模塊,將GNN與LM集成,使生成的表示能夠封裝結構和文本信息。例如,Zhang等人[184]引入了一個名為GreaseLM層的模塊,該模塊結合了GNN和LM層。在每一層,該模塊通過兩層MLP整合文本和圖表示,然后將它們傳遞到下一層。類似地,ENGINE[189]提出了G-Ladders,通過側結構結合LM和GNN,增強節點表示以用于下游任務。

備注。利用GNN對圖數據的表示能力和LM對文本數據的表示能力的混合模型具有廣闊的應用前景。然而,有效整合這兩種模態的信息仍然是一個重大挑戰。

2.5.2 圖格式

在使用GNN作為生成器時,可以直接編碼圖數據。然而,當使用LM作為生成器時,圖數據的非歐幾里得特性構成了挑戰,因為它不能直接與文本數據結合作為LM的輸入。為此,采用圖翻譯器將圖數據轉換為與LM兼容的格式。這種轉換增強了LM的生成能力,使其能夠有效處理和利用結構化圖信息。在本調查中,論文總結了兩種不同的圖格式:圖語言和圖嵌入。論文通過圖5中的示例說明這一過程,詳細介紹如下。    

一起聊聊圖檢索增強生成-AI.x社區

圖 5. 圖語言的圖示。給定左側部分的檢索子圖,論文展示了如何將其轉換為鄰接/邊表、自然語言、節點序列、類似代碼的形式和語法樹,以適應不同生成器的輸入形式要求。

2.5.2.1 圖語言

圖描述語言是一種專門設計的規范化符號系統,用于表征和表示圖數據。它規定了一個統一的語法和語義框架,描述了圖中的組件及其相互連接。通過這些語言,用戶可以以機器可理解的形式一致地生成、操作和解釋圖數據。它們支持圖架構的定義、節點和邊的屬性的指定以及對圖結構的操作和查詢的實現。接下來,論文將分別介紹五種類型的圖語言:鄰接/邊表、自然語言、代碼、語法樹和節點序列。

(1) 鄰接/邊表。鄰接表和邊表是廣泛用于描述圖結構的兩種方法[30, 41, 85, 153]。鄰接表列舉了每個頂點的直接鄰居,提供了一種緊湊的方式來表示稀疏圖中的連接。例如,KG-GPT[71]將檢索到的子圖中的三元組線性化,然后拼接并輸入到大型語言模型中。相反,邊表詳細列出了圖中的所有邊,提供了一種直接的表示方式,特別適用于以線性格式處理和分析圖。這兩種方法簡明、易于理解和直觀。

(2) 自然語言。鑒于用戶查詢通常以自然語言形式呈現,并考慮到大模型(LMs)在自然語言理解方面的卓越能力,使用自然語言描述檢索到的圖數據成為一種引人注目的方法。通過將圖數據轉換為描述性、易于理解的語言,LMs能夠彌合原始數據表示與用戶友好信息之間的差距,促進與數據驅動應用更有效的交互。例如,一些研究者[55, 81]提出為每種類型的邊預定義一個自然語言模板,然后根據邊的類型將每條邊的端點填入相應的模板中。Ye等人[176]采用自然語言描述中心節點的1跳和2跳鄰近節點的信息。Edge等人[25]利用大語言模型(LLMs)為每個檢測到的圖社區生成類似報告的總結。Wu等人[168]和Guo等人[42]采用LMs重寫檢索到的子圖的邊表,生成自然語言描述。Fatemi等人[30]探索了節點的不同表示形式(例如整數編碼、字母表字母、名稱等)和邊的不同表示形式(例如括號、箭頭、關聯等)。Jin等人[66],Jiang等人[58],Jiang等人[60],Wang等人[158]和Sun等人[143]通過自然語言對話的形式,將圖內不同粒度的信息整合到提示中。    

(3) 類代碼形式??紤]到自然語言描述和其他一維序列本質上不足以直接表示圖數據的二維結構,并且鑒于語言模型強大的代碼理解能力,許多研究人員[41]探索使用類代碼格式來表示圖結構。例如,Guo等人[41]研究了使用圖形建模語言(GML)[48]和圖形標記語言(GraphML)[130]來表示圖。這些標準化語言專門設計用于圖數據,提供了包括節點、邊及其相互關系在內的全面描述。

(4) 語法樹。與直接扁平化圖相比,一些研究[186]提出將圖轉換為類似語法樹的結構。語法樹具有層次結構,并且作為拓撲圖,也保持了拓撲順序。這種方法保留了更多的結構信息,增強了圖的內在屬性的理解和分析。這種轉換不僅保留了不同圖元素之間的關聯動態,而且促進了更復雜的圖分析和處理算法。GRAPHTEXT[186]提出將中心節點的自我網絡\mathrm{o f}轉換為圖-語法樹格式。這種格式不僅封裝了結構信息,還集成了節點的特征。通過遍歷這個語法樹,可以獲得一個既保持拓撲順序又保持層次結構的節點序列。

(5) 節點序列。一些研究[14, 108]提出通過節點序列來表示圖,這些序列通常使用預定義規則生成。與自然語言描述相比,這些節點序列更為簡潔,并融入了先驗知識,特別是規則所強調的結構信息。Luo et al. [102]和Sun et al. [142]將檢索到的路徑轉換為節點序列,并輸入到大型語言模型(LLM)中以提升任務性能。LLaGA[14]提出了兩種模板,可將圖轉換為節點序列。第一種模板稱為鄰域細節模板,提供對中心節點及其周邊的詳細考察。第二種稱為跳躍場概覽模板,提供節點鄰域的概括視角,可擴展至更廣泛的區域。GNN-RAG[108]以節點序列形式將檢索到的推理路徑輸入到語言模型(LM)中作為提示。

備注:優秀的圖語言應具備完整性、簡潔性和可理解性。完整性意味著捕捉圖結構中的所有關鍵信息,確保無重要細節遺漏。簡潔性指保持文本描述簡短,以避免“中間迷失”現象或超出語言模型的長度限制。過長的輸入會阻礙語言模型的處理能力,可能導致上下文丟失或數據解釋被截斷??衫斫庑源_保所用語言易于被大型語言模型(LLM)理解,便于準確表示圖的結構。由于不同圖語言的特性,它們的選擇會顯著影響下游任務的性能[30]。

2.5.2.2 圖嵌入

上述圖語言方法將圖數據轉換為文本序列,這可能導致上下文過長,產生高計算成本,并可能超出LLMs的處理極限。此外,即使使用圖語言,LLMs目前也難以完全理解圖結構[41]。因此,使用圖神經網絡(GNNs)將圖表示為嵌入向量提供了一種有前景的替代方案。核心挑戰在于將圖嵌入與文本表示整合到一個統一的語義空間中。當前研究主要集中在利用提示調優方法,如前所述。值得注意的是,將圖表示輸入到語言模型(LMs)中主要適用于開源LMs,而非像GPT-4[116]這樣的閉源模型。盡管圖嵌入方法避免了處理長文本輸入,但它們面臨其他挑戰,如難以保留特定實體名稱等精確信息和泛化能力差。    

2.5.3 生成增強

在生成階段,除了將檢索到的圖數據轉換為生成器可接受的格式,并與查詢一起輸入以生成最終響應外,許多研究人員探索了各種生成增強技術以提高輸出響應的質量。這些方法可以根據其應用階段分為三類:生成前增強、生成中增強和生成后增強。

2.5.3.1 生成前增強

生成前增強技術側重于在將數據或表示輸入生成器之前提高其質量。實際上,生成前增強與檢索之間沒有明確的界限。在本調查中,論文將檢索階段視為從原始圖中檢索知識,并進行知識合并和修剪的過程。后續操作被視為生成前增強。

常見的預生成增強方法主要涉及對檢索到的圖數據進行語義豐富,以實現圖數據與文本查詢之間更緊密的整合。

?Wu等人[168]利用大型語言模型(LLMs)重寫檢索到的圖數據,增強轉換后的自然語言輸出的自然度和語義豐富性。這種方法不僅確保圖數據被轉換為更流暢和自然的語言,還豐富了其語義內容。相反,DALK 80利用檢索到的圖數據重寫查詢。

?Cheng等人[16]首先利用LLMs生成推理計劃,并根據該計劃回答查詢。

?Taunk等人[146]和Yasunaga等人[175]旨在通過使GNNs能夠學習與查詢相關的圖表示來增強GNNs。他們通過從QA對(或QA對本身)中提取所有名詞,并將它們作為節點插入檢索到的子圖中來實現這一點。

?Mavromatis和Karypis[107]提出了一種方法,在生成之前,將查詢的表示分解為多個稱為“指令”的向量,每個向量代表查詢的不同特征。這些指令在應用GNNs從檢索到的子圖中學習時,作為消息傳遞的條件。

?此外,還有一些方法結合了圖數據之外的額外信息。例如,PullNet[139]結合了與實體相關的文檔,而MVP-Tuning[55]則檢索了其他相關問題。

2.5.3.2 生成過程中的增強技術

生成過程中的增強技術涉及在生成過程中應用的方法。這些方法通常根據中間結果或上下文線索調整生成策略。TIARA [136] 引入了受限解碼以控制輸出空間并減少生成錯誤。在生成邏輯形式時,如果受限解碼器檢測到當前正在生成模式項,它會將下一個生成的令牌限制為存在于包含KB類和關系的tries中的選項。與Beam Search相比,這種方法確保生成的模式項必定存在于知識圖中,從而減少生成錯誤。還有其他方法調整LLM的提示以實現多步驟推理。例如,MindMap [163] 不僅生成答案,還生成推理過程。

2.5.3.3生成后的增強技術

生成后的增強技術發生在初始響應生成之后。生成后的增強方法主要涉及整合多個生成的響應以獲得最終響應。一些方法側重于整合來自同一生成器在不同條件或輸入下的輸出。例如,    

?Edge et al. [25] 為每個圖社區生成摘要,然后基于摘要生成查詢的響應,并使用LLM對這些響應進行評分。最終,響應按分數降序排列,并依次納入提示中,直到達到令牌限制。隨后,LLM生成最終響應。

?Wang et al. [152] 和 Kim et al. [71] 首先將查詢分解為幾個子問題,然后為每個子問題生成答案,最后合并所有子問題的答案以獲得最終答案?;蛘?,其他方法結合或選擇不同模型生成的響應。

?Lin et al. [88] 和 Jiang et al. [59] 結合GNNs和LLMs生成的輸出以達到協同效應。UniOQA [86] 探索了兩種生成答案的方法:一種涉及生成Cypher查詢語言(CQL)的查詢以執行并獲取結果,

?另一種方法直接基于檢索到的三元組生成答案。最終答案通過動態選擇機制確定。在EmbedKGQA [133] 中,除了學習的評分函數外,研究人員還額外設計了一個基于圖結構的規則基礎評分。這兩個評分結合以找到答案實體。

?Li et al. [85] 結合基于檢索到的圖數據的答案與根據LLM自身知識生成的響應。

2.6訓練

論文總結了檢索器、生成器及其聯合訓練的個體訓練。論文根據是否需要明確的訓練,將先前的工作分為無訓練(Training-Free)和基于訓練(Training-Based)的方法。無訓練方法通常在使用如GPT-4 [116]等閉源大型語言模型(LLMs)作為檢索器或生成器時采用。這些方法主要依賴于精心設計的提示來控制LLMs的檢索和生成能力。盡管LLMs在文本理解和推理方面具有強大的能力,但無訓練方法的挑戰在于由于缺乏對下游任務的特定優化,可能導致結果的次優性。

相反,基于訓練的方法涉及使用監督信號對模型進行訓練或微調。這些方法通過使模型適應特定的任務目標來增強模型性能,從而可能提高檢索或生成內容的質量和相關性。檢索器和生成器的聯合訓練旨在增強它們的協同作用,從而提升下游任務的性能。這種協作方法利用了兩個組件的互補優勢,以在信息檢索和內容生成應用中實現更穩健和有效的結果。

2.6.1 檢索器的訓練策略

2.6.1.1 無訓練

目前使用的無訓練檢索器主要有兩種類型。

第一種類型包括非參數檢索器。這些檢索器依賴于預定義的規則或傳統的圖搜索算法,而不是特定的模型 [146, 175]。

第二種類型利用預訓練的語言模型(LMs)作為檢索器。具體來說,一組工作利用預訓練的嵌入模型對查詢進行編碼,并直接基于查詢與圖元素之間的相似性進行檢索 [81]。

另一組工作采用生成語言模型進行無訓練檢索。候選圖元素如實體、三元組、路徑或子圖作為LLMs的提示輸入的一部分。LLMs然后利用語義關聯根據提供的提示選擇適當的圖元素 [25, 66, 71, 108, 142, 152, 159]。這些方法利用LMs強大的語義理解能力來檢索相關的圖元素,而無需進行明確的訓練。    

2.6.1.2 基于訓練的方法

訓練檢索器通常采用自回歸方法,其中先前的關系路徑被連接到查詢的末尾。模型隨后根據這個連接的輸入預測下一個關系[42, 168]。

然而,大多數數據集中缺乏檢索內容的真值標注是一個重大挑戰。為了解決這一問題,許多方法試圖基于遠程監督構建推理路徑以指導檢索器訓練。例如,

?Zhang等人[181]、Feng等人[31]和Luo等人[102]提取查詢中的實體與答案中的實體之間的所有路徑(或最短路徑),將其用作檢索器的訓練數據。

?此外,Zhang等人[181]還在無監督設置中采用關系抽取數據集進行遠程監督。

?還有一類方法利用隱式的中間監督信號來訓練檢索器。例如,KnowGPT[183]從頭部實體開始搜索最優路徑,將發現尾部實體作為獎勵,并使用策略梯度進行訓練。

?NSM[46]采用雙向搜索策略,其中兩個檢索器分別從頭部實體和尾部實體開始搜索。監督目標確保兩個檢索器搜索的路徑盡可能接近收斂。

一些方法認為,遠程監督信號或隱式中間監督信號可能包含大量噪聲,這使得訓練有效的檢索器變得困難。因此,他們考慮采用自監督方法來預訓練檢索器。SKP [23] 預訓練了 DPR(Dense Passage Retrieval)模型 [69]。首先,它對子圖進行隨機采樣并將其轉換為段落。隨后,它隨機屏蔽段落,使用掩碼語言模型(MLM)訓練模型,并通過將屏蔽段落和原始段落作為正樣本對進行對比學習。

2.6.2生成器的訓練

2.6.2.1 無需訓練

無需訓練的生成器主要適用于閉源大型語言模型(LLMs)或需要避免高訓練成本的場景。在這些方法中,檢索到的圖數據與查詢一起輸入到LLMs中。然后,LLMs根據提示中的任務描述生成響應,主要依賴于其對查詢和圖數據的理解能力。

2.6.2.2 基于訓練

訓練生成器可以直接從下游任務接收監督信號。對于生成型LLMs,可以使用監督微調(SFT)進行微調,其中輸入任務描述、查詢和圖數據,并將輸出與下游任務的 ground truth 進行比較 [47, 50, 102]。另一方面,對于作為生成器的圖神經網絡(GNNs)或判別模型,采用針對下游任務定制的損失函數來有效訓練模型 [59, 81, 146, 175, 184]。

2.6.3 聯合訓練

同時聯合訓練檢索器和生成器可以利用它們的互補優勢,提高下游任務的性能。一些方法將檢索器和生成器統一到一個模型中,通常是LLMs,并同時使用檢索和生成目標進行訓練 [102]。這種方法利用了統一架構的協同能力,使模型能夠在單一框架內無縫檢索相關信息并生成連貫的響應。    

其他方法涉及最初分別訓練檢索器和生成器,隨后采用聯合訓練技術對這兩個組件進行微調。例如,子圖檢索器[181]采用交替訓練范式,其中檢索器的參數固定,使用圖數據訓練生成器。接著,生成器的參數固定,并利用生成器的反饋來指導檢索器的訓練。這種迭代過程有助于兩個組件協調地改進其性能。

2.7 應用與評估

這里論文將總結與GraphRAG相關的下游任務、應用領域、基準和度量標準以及工業應用。表1收集了現有的GraphRAG技術,按下游任務、基準、方法和評估指標進行分類。該表作為一個全面的概覽,突出了GraphRAG技術在不同領域的各個方面和應用。

表1. GraphRAC的任務、基準、方法和指標。

一起聊聊圖檢索增強生成-AI.x社區圖片

2.7.1 下游任務

GraphRAG應用于各種下游任務(尤其是NLP任務),包括問答、信息抽取等。

2.7.1.1 問答任務

問答任務具體包括知識庫問答(KBQA)和常識問答(CSQA)。    

(1) KBQA。KBQA作為圖增強生成(GraphRAG)的基礎下游任務。在KBQA中,問題通常涉及特定的知識圖譜,答案往往涉及圖譜中的實體、關系或實體集之間的操作。該任務考驗系統在結構化知識庫中檢索和推理的能力,這對于促進復雜查詢響應至關重要。

(2) CSQA。與KBQA不同,CSQA主要以多項選擇題的形式出現。常識推理通常呈現一個常識性問題以及若干個答案選項,每個選項可能代表一個實體的名稱或一個陳述。目標是讓機器利用外部常識知識圖譜,如ConceptNet,找到與問題和選項相關的知識,并進行適當的推理,得出正確答案。

2.7.1.2 信息檢索

信息檢索任務包括兩類:實體鏈接(EL)和關系抽取(RE)。

(1) 實體鏈接。實體鏈接(EL)是自然語言處理領域中的一個關鍵任務,涉及識別文本段落中提到的實體,并將它們鏈接到知識圖譜中對應的實體。通過利用Graph RAG等系統,可以從知識圖譜中檢索相關信息,從而促進對文本中提及實體的準確推斷[167]。

(2) 關系抽取。關系抽取(RE)旨在識別和分類文本中實體間的語義關系。GraphRAG通過使用基于圖的結構來編碼和利用實體間的相互依賴關系,從而顯著增強此任務,促進從多樣文本源中更準確且上下文敏感地抽取關系數據[85, 142, 143]。

2.7.1.3 其他應用

除了上述下游任務外,GraphRAG還可應用于自然語言處理領域的多種其他任務,如事實驗證、鏈接預測、對話系統和推薦系統。

(1) 事實驗證。事實驗證任務通常涉及利用知識圖譜評估一個事實陳述的真實性。模型需通過利用結構化知識庫來確定給定事實斷言的有效性。GraphRAG技術可用于提取實體間的證據關聯,以提高系統的效率和準確性[85, 125, 142, 143]。

(2) 鏈接預測。鏈接預測涉及預測圖中缺失的關系或潛在的實體間連接。GraphRAG應用于這一任務[18, 118],通過其從圖中檢索和分析結構化信息的能力,提高預測準確性,揭示圖數據中的潛在關系和模式。

(3) 對話系統。對話系統旨在使用自然語言與人類進行對話,處理諸如回答問題、提供信息或促進用戶交互等任務。通過在基于圖的框架中構建對話歷史和上下文關系,GraphRAG系統[3]能提升模型生成連貫且上下文相關響應的能力。

(4) 推薦系統。在電子商務平臺背景下,用戶與產品間的購買關系自然形成網絡圖。這些平臺中推薦系統的主要目標在于預測用戶的未來購買意向,有效預估該圖中的潛在連接[156]。

2.7.2應用領域

GraphRAG 因其卓越的能力,將結構化知識圖譜與自然語言處理相結合,在電子商務、生物醫學、學術、文獻、法律等多個應用場景中得到廣泛應用,以下將進行介紹。    

2.7.2.1 電子商務

電子商務領域的主要目標是通過個性化推薦和智能客服服務來提升顧客購物體驗和增加銷售額。在此領域中,用戶與商品之間的歷史交互自然形成一個圖,隱含了用戶的行為模式和偏好信息。然而,隨著電子商務平臺數量的增加和用戶交互數據量的增長,利用GraphRAG技術提取關鍵子圖變得至關重要。Wang等人[156]通過集成多種類型或參數不同的檢索器來提取相關子圖,然后對其進行編碼以預測用戶的時間行為。為了提升客服問答系統的模型性能,Xu等人[169]構建了一個包含問題內和問題間關系的過往問題圖。對于每個給定的查詢,系統會檢索相似的過往問題子圖以提高響應質量。

2.7.2.2 生物醫學

近年來,GraphRAG技術在生物醫學問答系統中的應用日益增多,實現了先進的醫療決策性能。在此領域中,每種疾病都與特定癥狀相關聯,每種藥物都含有針對特定疾病的治療活性成分。一些研究者[20, 80]針對特定任務場景構建知識圖譜,而其他研究者[64, 163, 171]則利用CMeKG和CPubMed-KG等開源知識圖譜作為檢索源?,F有方法通常先使用非參數檢索器進行初步搜索,然后設計方法通過重排序[20, 64, 80, 163, 171]來過濾檢索到的內容。此外,還有一些方法提出利用檢索到的信息重寫模型輸入,以提高生成效果[80]。

2.7.2.3 學術研究

在學術研究領域,每篇論文由一位或多位研究人員撰寫,并與一個研究領域相關聯。作者隸屬于機構,并且作者之間存在合作或共享機構隸屬關系等關系。這些元素可以結構化為圖格式。利用GraphRAG在此圖上可以促進學術探索,包括預測作者的潛在合作者、識別特定領域的趨勢等。

2.7.2.4 文學

與學術研究類似,可以在文學領域構建知識圖譜,節點代表書籍、作者、出版商和系列,邊標簽為“由...撰寫”、“在...出版”和“書籍系列”。GraphRAG可以用于增強智能圖書館等現實應用。

2.7.2.5 法律

在法律情境中,案件和司法意見之間存在廣泛的引用聯系,法官在做出新決定時經常引用先前的意見。這自然形成了一個結構化圖,其中節點代表意見、意見集群、案卷和法院,邊包含“意見引用”、“意見集群”、“集群案卷”和“案卷法院”等關系。GraphRAG在法律場景中的應用可以幫助律師和法律研究人員進行案件分析和法律咨詢等任務。

2.7.2.6 其他

除了上述應用外,GraphRAG還應用于其他現實場景,如情報報告生成[128]和專利短語相似性檢測[122]。Ranade和Joshi[128]首先構建事件情節圖(EPG)并檢索事件的關鍵方面以輔助情報報告生成。Peng和Yang[122]創建專利短語圖并檢索給定專利短語的自我網絡以輔助短語相似性判斷。    

2.7.3 基準和度量

2.7.3.1 基準

用于評估GraphRAG系統性能的基準可分為兩類。第一類是下游任務的相應數據集。論文根據第9.1節的分類總結了基準和測試它們的論文,詳細信息見表1。第二類是專門為GraphRAG系統設計的基準。這些基準通常涵蓋多個任務領域,以提供全面的測試結果。例如,STARK[166]在半結構化知識庫上對LLM檢索進行基準測試,涵蓋產品搜索、學術論文搜索和精準醫學查詢三個領域,以評估當前GraphRAG系統的能力。He等人[47]提出了一種面向現實文本圖的靈活問答基準,名為GraphQA,適用于多個應用,包括場景圖理解、常識推理和知識圖推理。Graph Reasoning Benchmark(GRBENCH)[66]旨在促進LLM與圖增強的研究,包含1,740個問題,可通過10個領域圖的知識回答。CRAG[172]提供了一個結構化查詢數據集,并附帶模擬API以訪問底層模擬KG的信息,以實現公平比較。

2.7.3.2 評估指標

GraphRAG的評估指標大致可分為兩大類:下游任務評估(生成質量)和檢索質量。

(1) 下游任務評估(生成質量)。在大多數研究中,下游任務評估指標是評估GraphRAG性能的主要方法。例如,在KBQA中,通常使用精確匹配(EM)和F1分數來衡量回答實體的準確性。此外,許多研究人員采用BERT4Score和GPT4Score來緩解LLMs生成與真實答案同義但非精確匹配的實體的情況。在CSQA中,準確性是最常用的評估指標。對于問答系統等生成任務,常用BLEU、ROUGE-L、METEOR等指標來評估模型生成的文本質量。

(2) 檢索質量評估。雖然基于下游任務性能評估GraphRAG是可行的,但直接衡量檢索內容的準確性存在挑戰。因此,許多研究采用特定的指標來衡量檢索內容的精確度。例如,當存在真實實體時,檢索系統需要在檢索信息量和答案覆蓋范圍之間取得平衡。因此,一些研究使用答案覆蓋范圍與檢索子圖大小的比率來評估檢索系統的性能。此外,一些研究探索了查詢相關性、多樣性和忠實度分數等指標,分別評估檢索內容與查詢的相似度、檢索內容的多樣性以及檢索信息的忠實度。

2.7.4 GraphRAG在工業界的應用

本節主要關注工業界的GraphRAG系統。這些系統的特點在于它們依賴于工業圖數據庫系統或專注于大規模圖數據,具體細節如下。

?GraphRAG(微軟開發):該系統利用LLMs構建基于實體的知識圖譜,并預先生成相關實體群組的社區摘要,從而能夠在文檔集合中捕捉局部和全局關系,進而增強查詢聚焦的摘要(QFS)任務[25]。該項目還可利用開源RAG工具包如Llamalndex、LangChain等進行快速實施。    

?GraphRAG(NebulaGraph開發):該項目是首個工業級GraphRAG系統,由NebulaGraph公司開發。該項目將LLMs集成到NebulaGraph數據庫中,旨在提供更智能和精確的搜索結果。

?GraphRAG(螞蟻集團開發):該框架基于多個AI工程框架如DB-GPT、知識圖譜引擎OpenSPG和圖數據庫TuGraph構建。具體而言,系統首先使用LLMs從文檔中提取三元組,然后存儲在圖數據庫中。在檢索階段,系統從查詢中識別關鍵詞,定位圖數據庫中的相應節點,并使用BFS或DFS遍歷子圖。在生成階段,檢索到的子圖數據被格式化為文本,并與上下文和查詢一起提交給LLMs處理。

?NaLLM(Neo4j開發):NaLLM(Neo4j與大型語言模型)框架將Neo4j圖數據庫技術與LLMs集成。其目標在于探索和展示Neo4j與LLMs之間的協同作用,重點關注三個主要應用場景:知識圖譜的自然語言接口、從非結構化數據創建知識圖譜,以及利用靜態數據和LLM數據生成報告。

?LLM Graph Builder (by Neo4j): 這是由Neo4j開發的一個項目,用于自動構建知識圖譜,適用于GraphRAG的圖數據庫構建和索引階段。該項目主要利用LLMs從非結構化數據中提取節點、關系及其屬性,并利用LangChain框架創建結構化知識圖譜。

本文轉載自 ??AI帝國??,作者: 無影寺

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久免费观看视频 | 热99在线| 一区二区三区免费 | 天天草天天干 | 欧美精品成人 | 精品一区二区久久久久久久网站 | 久久久久久国产精品 | 欧美视频三区 | 亚洲欧美在线观看 | 亚洲一区久久 | 久久久精品一区 | 拍真实国产伦偷精品 | 免费啪啪 | 日日干夜夜草 | 国产欧美一区二区三区久久人妖 | 亚洲天堂av在线 | 亚洲 欧美 日韩 在线 | 看av电影| 岛国午夜| 久久久成人网 | 成人免费在线视频 | 国产精品久久777777 | 久久久久亚洲精品 | 国产麻豆乱码精品一区二区三区 | 欧美日韩高清一区二区三区 | 成人一区二区三区 | 91免费在线播放 | 日韩理论电影在线观看 | 春色av| 久久久久成人精品 | 在线日韩中文字幕 | 亚洲欧美少妇 | 啪一啪| 国产一在线 | 国产黄色在线观看 | 91精品国产乱码久久久久久久久 | 日韩一区二区在线免费观看 | 欧美一级做a爰片免费视频 国产美女特级嫩嫩嫩bbb片 | 91亚洲精| 最新毛片网站 | 久久99蜜桃综合影院免费观看 |