用RAG的思路構建文檔級別知識圖譜框架-RAKG 原創
下面我們來看一個用RAG的思路構建文檔級別知識圖譜構建框架思路,這個思路要解決的問題是如何自動構建文檔級別的知識圖譜。傳統的知識圖譜構建方法面臨長文本處理中的長距離遺忘問題、復雜實體消歧、跨文檔知識整合不足的問題。整體思路可以參考下。
方法
上圖的流程:RAKG框架通過句子分割和向量化處理文檔,提取初步實體,并執行實體消歧和向量化。處理后的實體經過語料庫回顧檢索以獲取相關文本和圖結構檢索以獲取相關知識圖譜。隨后,使用LLM整合檢索到的信息以構建關系網絡,這些網絡針對每個實體進行合并。最后,新構建的知識圖譜與原始知識圖譜相結合。
A. 理想知識圖譜的假設
RAKG假設存在一個理論上完美的知識圖譜構建過程,該過程可以將文檔轉換為一個理想的完備知識圖譜。這個理想知識圖譜可以表示為:
B. 知識庫向量化
RAKG將文檔和知識圖譜進行向量化處理,便于后續的檢索和生成操作。
- 文檔分塊和向量化:文檔被分割成多個文本塊(chunks),通常以句子為單位進行分割。每個文本塊被向量化,以便于后續的處理和分析。類似RAG,這種方法能夠減少LLM每次處理的信息量,同時確保每個片段的語義完整性,從而提高了命名實體識別的準確性。
- 知識圖譜向量化:初始知識圖譜中的每個節點(如實體)通過提取其名稱和類型來進行向量化。使用 BGE-M3 模型進行向量化,便于在檢索過程中使用。
C. 預實體構建
RAKG通過命名實體識別(NER)來識別文本中的實體,并將這些實體作為預實體進行處理。
- 實體識別和向量化:NER的整個過程由LLM(Qwen2.5-72B)完成。先對每個文本塊進行命名實體識別,識別出其中的實體。接著為每個預實體分配類型和屬性描述,區分具有相似名稱的不同實體。最后將實體的名稱和類型組合后進行向量化。
- 實體消歧:在完成整個文檔的實體識別和向量化后,進行相似性檢查。對于相似度超過閾值的實體,進行進一步的消歧處理,以確保每個實體只有一個唯一表示。
D. 關系網絡構建
RAKG通過RAG的方法來構建關系網絡。
- 文檔文本塊檢索:對于指定的實體,通過文本塊的標識符(chunk-id)檢索相關的文本塊。使用向量檢索獲取與選定實體相似的文本塊。
- 圖結構檢索:在初始知識圖譜中進行向量檢索,獲取與選定實體相似的其他實體及其關系網絡。
- 關系網絡生成和評估:將檢索到的文本和關系網絡信息整合,并輸入到LLM中,以生成中心實體的屬性和關系。使用LLM作為評判者來評估生成的三元組,確保其真實性和準確性。
- LLM作為裁判的過程:提取的實體與源文本進行核對以消除幻覺 。檢索器使用實體獲取相關文本和知識圖譜,構建關系網絡。然后驗 證該網絡與檢索信息的一致性。
E. 知識圖譜融合
RAKG將新構建的知識圖譜與初始知識圖譜進行融合。自然而然,KG融合有兩點核心內容。
- 實體合并:將新知識圖譜中的實體與初始知識圖譜中的實體進行消歧和合并,確保實體的一致性。
- 關系整合:將新知識圖譜中的關系與初始知識圖譜中的關系進行整合,以獲得更全面的知識圖譜。
評估指標
評估指標主要是評估KG的,正好復習下KG的常見評估指標。
1. 實體密度(Entity Density, ED)
實體密度是指知識圖譜中實體的數量。公式如下:
ED=Ne
其中Ne, 表示知識圖譜中提取的實體數量。實體密度越高,通常意味著從文本中提取的信息越多,知識圖譜的覆蓋范圍越廣。
2. 關系豐富度(Relationship Richness, RR)
關系豐富度是指知識圖譜中關系的數量相對于實體數量的比率。公式如下:
其中Nr, 表示知識圖譜中提取的關系數量。關系豐富度越高,說明知識圖譜中實體之間的關系越復雜,能夠更好地捕捉實體之間的交互。
3. 實體保真度(Entity Fidelity, EF)
實體保真度用于評估提取的實體的可信度。公式如下:
4. 關系保真度(Relationship Fidelity, RF)
關系保真度用于評估提取的關系的可信度。公式如下:
5. 準確性(Accuracy)
準確性是指知識圖譜在問答任務中的表現。通過構建的知識圖譜來回答問題的準確率。較高的準確性意味著知識圖譜能夠更好地保留文本的語義信息。
6. 實體覆蓋率(Entity Coverage, EC)
實體覆蓋率衡量的是評估知識圖譜中的實體與標準知識圖譜中的實體之間的匹配程度。公式如下:
7. 關系網絡相似度(Relation Network Similarity, RNS)
關系網絡相似度衡量的是評估知識圖譜與標準知識圖譜在關系層面上的相似度。公式如下:
這些指標用于全面評估知識圖譜的質量,確保其在實體提取、關系構建和整體準確性方面的表現。
實驗效果
RAKG實現了95.81%的準確率,優于KGGen(86.48%)和GraphRAG(89.71%)
RAKG、GraphRAG和KGGen生成的知識圖的實體密度和關系豐富度。結果表明,RAKG產生的實體比GraphRAG和KGGen更密集,關系更豐富。
LLM作為評委的結果:實體通過率約為91.33%,關系網絡通過率大約為94.51%。
參考文獻:RAKG:Document-level Retrieval Augmented Knowledge Graph Construction,https://arxiv.org/pdf/2504.09823
公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:????????https://mp.weixin.qq.com/s/x3VscG0T93T1pmdX7XSm_g??
