KGGen用語言模型從純文本中提取知識圖譜
從事大模型應用的讀者都可能受到知識圖譜(KG)不足的困擾,知識圖譜的構建與運營常常是耗時費力的手工過程。
斯坦福最新工作KGGen【文獻1】,利用大語言模型(LLM)從非結構化文本中自動生成高質量知識圖譜,等于從LLM提取出語義。
簡介
知識圖譜是信息檢索等應用中基本的數據結構,通過主謂賓三元組表示實體之間的關系。
然而,許多現有的KG存在不完整性,缺乏實體之間的眾多關系,這對下游任務如KG嵌入和基于圖的推理造成了挑戰。
KGGen通過利用LLM從純文本中提取主謂賓三元組,構建密集且全面的KG,從而緩解數據稀缺和不完整性的問題。
方法
KGGen三步從文本中生成KG:
實體和關系提取:基于LLM的提取器讀取非結構化文本,預測主謂賓三元組,捕捉實體及其關系,并確保實體之間的一致性。
聚合:從每個源文本中提取三元組后,收集所有源圖中的所有唯一實體和邊,將其組合成一個整體圖Graph。聚合無需LLM。
相關實體聚類:為減少提取的KG中的稀疏性,對相關實體進行聚類,確保生成的圖是密集且相互關聯的。靈感來自人群如何逐漸就合并術語達成一致。
這種多步方法使KGGen能夠從純文本中生成高質量的KG,成為下游各種應用的非常有價值工具。
基準測試和性能
為了評估KGGen的有效性,學者們引入了節點和邊信息度量(MINE)基準測試。
MINE通過確定特定事實是否被捕捉到生成的圖中,評估提取器從純文本生成有用KG的能力。
KGGen在該基準測試中優于現存的提取器,展示了其利用LLM生成功能性KG的潛力。
可用性
KGGen作為Python庫提供,用戶可以通過pip(pip install kg-gen)訪問。
該項目的代碼可以在??https://github.com/stair-lab/kg-gen??找到,可促進KGGen在各種應用和研究項目中的集成。
結論
KGGen的開發代表了從非結構化文本中自動生成知識圖譜的重大進展。
通過利用LLM和聚類算法,KGGen解決了傳統KG中數據稀缺和不完整性的問題。
其在MINE基準測試中的優異表現和作為開源Python庫的可用性,可作為知識圖譜構建和利用領域從業者的寶貴資源。
文獻1,KGGen: Extracting Knowledge Graphs from Plain Text with Language Models,https://arxiv.org/pdf/2502.09956v1
本文轉載自??清熙??,作者: 王慶法
