最大的開源GraphRag:知識圖譜完全自主構(gòu)建|港科大&華為
知識圖譜(KGs)已經(jīng)可以很好地將海量的復(fù)雜信息整理成結(jié)構(gòu)化的、機(jī)器可讀的知識,但目前的構(gòu)建方法仍需要由領(lǐng)域?qū)<翌A(yù)先創(chuàng)建模式,這限制了KGs的可擴(kuò)展性、適應(yīng)性和領(lǐng)域覆蓋范圍。
為此,香港科技大學(xué)KnowComp實(shí)驗(yàn)室聯(lián)合香港華為理論部提出了AutoSchemaKG:一個(gè)無需預(yù)定義模式、用于完全自主知識圖譜構(gòu)建的框架。
該系統(tǒng)利用大型語言模型,可以直接從文本中同時(shí)提取知識三元組并歸納出全面的模式,對實(shí)體和事件進(jìn)行建模,同時(shí)采用概念化方法將實(shí)例組織成語義類別。
實(shí)驗(yàn)證實(shí),該模式歸納在零人工干預(yù)的情況下,與人類設(shè)計(jì)的模式達(dá)到了95%的語義對齊。
另外,通過處理超過5000萬份文檔,AutoSchemaKG團(tuán)隊(duì)還構(gòu)建了ATLAS(自動三元組鏈接與模式歸納):一個(gè)包含超過9億節(jié)點(diǎn)和59億邊的知識圖譜系列。
論文第一作者白佳欣是香港科技大學(xué)計(jì)算機(jī)科學(xué)與工程系的博士后研究員,受香港研究資助局新晉學(xué)者計(jì)劃(JRFS)獎項(xiàng)資助。
白博士的研究重點(diǎn)在于圖神經(jīng)數(shù)據(jù)庫系統(tǒng)構(gòu)建,大規(guī)模知識圖譜構(gòu)建和推理,檢索增強(qiáng)生成等。他在ACL、NeurIPS、KDD等頂級會議發(fā)表了多篇論文,工作涵蓋電子商務(wù)意圖建模、復(fù)雜查詢回答和隱私保護(hù)神經(jīng)圖數(shù)據(jù)庫等前沿領(lǐng)域。
創(chuàng)新:驅(qū)動模式歸納的概念化過程
上圖展示的是ATLAS的結(jié)構(gòu),實(shí)體節(jié)點(diǎn)(藍(lán)色)和事件節(jié)點(diǎn)(綠色)從文本中提取,而概念節(jié)點(diǎn)(橙色)則通過模式歸納獲得。
AutoSchemaKG利用大型語言模型的語義理解能力,能夠直接從文本中同時(shí)提取知識三元組并動態(tài)歸納模式,將特定的實(shí)體、事件和關(guān)系泛化為更廣泛的概念類別。
這種概念化具有多種關(guān)鍵功能:它在看似無關(guān)的信息之間建立語義橋梁,支持跨領(lǐng)域的零樣本推理,減少知識圖譜中的稀疏性,并提供支持具體和抽象推理的層級組織。
該框架將事件與實(shí)體一同建模,認(rèn)識到現(xiàn)實(shí)世界的知識是動態(tài)而非靜態(tài)的;通過將事件視為語義基元,可以捕捉到僅有實(shí)體的圖譜所忽略的時(shí)間關(guān)系、因果關(guān)系和過程性知識。
像這樣將傳統(tǒng)的靜態(tài)模式轉(zhuǎn)變?yōu)橐粋€(gè)動態(tài)的、多層次的概念框架,能夠適應(yīng)新領(lǐng)域而無需預(yù)定義本體。
構(gòu)建:完全自動化知識圖譜
三元組提取
AutoSchemaKG采用一個(gè)多階段流水線,使用大型語言模型將Dolma語料庫中的非結(jié)構(gòu)化文本轉(zhuǎn)換為知識三元組。該流水線通過三個(gè)連續(xù)階段提取實(shí)體-實(shí)體、實(shí)體-事件和事件-事件關(guān)系:
階段1:使用系統(tǒng)提示提取實(shí)體-實(shí)體關(guān)系,該提示指示大型語言模型檢測實(shí)體及其相互關(guān)系。輸出被解析為三元組(e(1),r,e(2)),其中e(1),e(2)∈V(N)是實(shí)體節(jié)點(diǎn),r∈R是關(guān)系類型。
階段2:使用提示識別實(shí)體-事件關(guān)系,生成三元組(e,r,v)或(v,r,e),其中e∈V(N),v∈V(E),r∈R。
階段3:針對事件-事件關(guān)系,使用提示生成三元組(v(1),r,v(2)),其中v(1),v(2)∈V(E),r∈R。該流水線支持各種大型語言模型,并具有優(yōu)化的精度設(shè)置和GPU加速。
提取的三元組及其對應(yīng)的文本和元數(shù)據(jù)被序列化為JSON文件。
模式歸納
在三元組提取之后,AutoSchemaKG會再進(jìn)行模式歸納,將特定的實(shí)體、事件和關(guān)系抽象為通用的類型。
這個(gè)過程使用大型語言模型為每個(gè)圖元素生成代表其類型的概念短語,這與該形式化定義G=(V,E,C,?,ψ)相符。
對于每個(gè)類別(事件、實(shí)體和關(guān)系),分批處理元素,大型語言模型為每個(gè)元素生成至少三個(gè)短語,這些短語在不同抽象層次上概括了其類型或相關(guān)概念。
對于實(shí)體(e∈V(N)),通過整合來自鄰近節(jié)點(diǎn)的上下文信息來增強(qiáng)抽象。最多采樣N(ctx)個(gè)鄰居來構(gòu)建一個(gè)提供額外語義線索的上下文字符串。
模式歸納流水線處理從三元組提取階段序列化出來的圖,元素被劃分為批次,并可選擇切片以進(jìn)行分布式計(jì)算。
生成的短語記錄在一個(gè)CSV文件中,通過?和ψ將每個(gè)節(jié)點(diǎn)v∈V和關(guān)系r∈R映射到C中的一個(gè)概念子集。
這種自動化的模式增強(qiáng)了知識圖譜在不同領(lǐng)域間的適應(yīng)性,無需人工策劃。
實(shí)踐:ATLAS系列知識圖譜的構(gòu)建
在語料庫的選擇上,如表所示,ATLAS-Wiki、ATLAS-Pes2o和ATLAS-CC分別由Dolma的維基百科與維基教科書子集、Semantic Scholar子集和Dolma的CC子集構(gòu)建。
使用完整的維基百科與維基教科書來構(gòu)建ATLAS-Wiki,使用Semantic Scholar的摘要部分來構(gòu)建ATLAS-Pes2o,并使用cc-head、cc-middle和cc-tail各3%的數(shù)據(jù)來構(gòu)建ATLAS-CC。
Dolma數(shù)據(jù)集中的CC的頭部、中部和尾部分類是用于衡量與維基百科文本的分布相似性。
在計(jì)算成本上,使用配備80GB顯存、具有1,513TFLOPS FP16計(jì)算能力的GPU,并運(yùn)行帶有Flash Attention的Llama-3-8B-instruct來構(gòu)建該知識圖譜。
計(jì)算需求巨大:En-Wiki(2.439億節(jié)點(diǎn),14.9億邊)需要14,300GPU小時(shí);Pes2o-Abstract(1.744億節(jié)點(diǎn),11.5億邊)需要11,800GPU小時(shí);Common Crawl(9.373億節(jié)點(diǎn),59.6億邊)需要52,300GPU小時(shí)。
以批次方式處理1024-token的文本塊,總共投入了約78,400GPU小時(shí)來提取數(shù)十億的語義關(guān)系。
測試:準(zhǔn)確、連貫、通用
評估三元組提取準(zhǔn)確性
使用一種嚴(yán)格的基于計(jì)數(shù)的評估方法,不依賴主觀評分,而是使用DeepSeek-V3作為評判者進(jìn)行結(jié)構(gòu)化驗(yàn)證。
這種方法使能夠計(jì)算精確的指標(biāo):
- 精確率:正確提取的三元組占所有提取三元組的比例;
- 召回率:正確提取的三元組占文本中所有真實(shí)三元組的比例;
- F1分?jǐn)?shù):精確率和召回率的調(diào)和平均值。
可以看出,AutoSchemaKG在所有數(shù)據(jù)集上都表現(xiàn)出卓越的提取質(zhì)量,尤其是在維基百科內(nèi)容上表現(xiàn)強(qiáng)勁。在大多數(shù)情況下,知識圖譜中三元組的精確率、召回率和F1分?jǐn)?shù)都超過了90%,證明了提取的三元組具有高質(zhì)量和高可靠性。
衡量知識圖譜中的信息保留度
測試AutoSchemaKG將原始段落轉(zhuǎn)換為知識圖譜數(shù)據(jù)后,多項(xiàng)選擇題(MCQ)的性能保留情況,遵循現(xiàn)有工作的評估協(xié)議,為每個(gè)原始段落使用LLaMA-3-70B-Instruct生成五個(gè)多項(xiàng)選擇題,為每個(gè)數(shù)據(jù)集采樣了200個(gè)原始段落,共獲得1,000個(gè)多項(xiàng)選擇題。
讓大型語言模型在沒有上下文的情況下回答這些問題(記為下限),然后再次提供原始段落回答(記為上限)以進(jìn)行健全性檢查。最后,使用實(shí)體級三元組(記為實(shí)體)、事件級三元組(記為事件)以及實(shí)體級和事件級三元組的組合(記為事件+實(shí)體)進(jìn)行測試。
根據(jù)結(jié)果,得出以下見解:
(1)信息在構(gòu)建的知識圖譜中得到了很好的保留。使用實(shí)體、事件或事件+實(shí)體的多項(xiàng)選擇題性能遠(yuǎn)高于下限基線,并接近原始段落的上限。這表明原始段落中的信息在AutoSchemaKG構(gòu)建的知識圖譜中得到了很好的保留;
(2)事件比實(shí)體更有效。使用事件或事件+實(shí)體的多項(xiàng)選擇題性能比僅使用實(shí)體的性能更接近上限,在大多數(shù)情況下準(zhǔn)確率超過95%。這表明事件級三元組可以比實(shí)體級三元組保留更豐富、更精確的信息。
衡量模式質(zhì)量
為了展示AutoSchemaKG歸納方法的能力,將其應(yīng)用于實(shí)體、事件和關(guān)系類型化任務(wù),衡量該方法可以召回多少類型。
由于基于規(guī)則的評估可能會忽略語義相似性,使用了兩個(gè)語義級別的指標(biāo):基于BERTScore的recall和coverage(BS-R和BS-C)。
結(jié)合三種大小的LLaMA-3的使用結(jié)果,可以看出,在大多數(shù)情況下,AutoSchemaKG在實(shí)體、事件和關(guān)系類型上的召回率超過80%,通常達(dá)到90%,并且隨著大型語言模型參數(shù)規(guī)模的增加而性能提升。
在多跳問答任務(wù)上的性能
選擇了MuSiQue、HotpotQA和2WikiMultihopQA三個(gè)以多跳推理需求著稱的基準(zhǔn)數(shù)據(jù)集,這些任務(wù)需要跨文章的復(fù)雜關(guān)系路徑。從每個(gè)數(shù)據(jù)集中隨機(jī)選擇一千個(gè)問題。
將基于知識圖譜的RAG系統(tǒng)與幾種最先進(jìn)的方法進(jìn)行比較:基于圖的基線包括HippoRAG、HippoRAG2、GraphRAG、LightRAG以及MiniRAG。對于基于文本的RAG比較,評估了BM25+LLM(使用傳統(tǒng)BM25評分進(jìn)行檢索)、Contriever以及RAPTOR。
使用開放領(lǐng)域問答的標(biāo)準(zhǔn)指標(biāo)來評估AutoSchemaKG。精確匹配(EM)在歸一化后衡量二元正確性。F1分?jǐn)?shù)衡量歸一化答案之間的詞元重疊度。
實(shí)驗(yàn)結(jié)果表明,AutoSchemaKG在三個(gè)基準(zhǔn)數(shù)據(jù)集的多跳問答中表現(xiàn)出色。
與HippoRAG2集成后,F(xiàn)ull-KG配置(實(shí)體、事件和概念)的性能比BM25和Contriever等傳統(tǒng)檢索方法高出12-18%,凸顯了其在復(fù)雜推理場景中的優(yōu)勢。
另外,與需要LLaMA-3.3-70B-Instruct進(jìn)行構(gòu)建和問答閱讀的原始HippoRAG2實(shí)現(xiàn)相比,AutoSchemaKG使用LLaMA-3.1-8B-Instruct作為圖構(gòu)建器取得了相當(dāng)或更好的結(jié)果。
在增強(qiáng)事實(shí)性方面的有效性
遵循FELM的協(xié)議,對三個(gè)領(lǐng)域(世界知識、科學(xué)/技術(shù)和寫作/推薦)應(yīng)用RAG,同時(shí)對數(shù)學(xué)和推理領(lǐng)域保持原始設(shè)置。
為了進(jìn)行全面比較,評估了多種檢索方法:HippoRAGv2、BM25和使用MiniLM的密集檢索。
所有實(shí)驗(yàn)都使用相同的LLaMA-3.1-8B-Instruct模型,并集成了Neo4j和零樣本CoT設(shè)置,以確保方法間的公平比較。性能使用平衡準(zhǔn)確率(對真假片段給予同等權(quán)重)和檢測事實(shí)錯(cuò)誤的F1分?jǐn)?shù)來衡量。
結(jié)果表明,使用AutoSchemaKG的HippoRAG2在維基百科(56.43%準(zhǔn)確率,30.48%F1)和Common Crawl語料庫上持續(xù)優(yōu)于基線,同時(shí)在Pes2o-Abstract上取得了有競爭力的結(jié)果。在維基百科上的優(yōu)越性能可能源于FELM部分樣本以維基百科為參考。
通用領(lǐng)域知識能力
使用與FELM實(shí)驗(yàn)相同的檢索和生成設(shè)置,將MMLU任務(wù)分類為主體類別,并專注于知識密集型領(lǐng)域,包括歷史、法律、宗教、哲學(xué)/倫理、醫(yī)學(xué)/健康、全球事實(shí)和社會科學(xué)。
結(jié)果表明,ATLAS知識圖譜在所有測試語料庫的這些領(lǐng)域中都提升了性能。
每個(gè)ATLAS變體都展示了獨(dú)特的優(yōu)勢:ATLAS-Pes2o在醫(yī)學(xué)/健康和社會科學(xué)領(lǐng)域表現(xiàn)出色,反映了其源自學(xué)術(shù)論文的知識;ATLAS-Wiki在宗教、哲學(xué)/倫理和全球事實(shí)等一般知識領(lǐng)域顯示出優(yōu)勢;而ATLAS-CC在法律和歷史方面表現(xiàn)最佳,利用了其更廣泛的網(wǎng)絡(luò)來源內(nèi)容。
在這些人文學(xué)科和社會科學(xué)領(lǐng)域,所有ATLAS變體都持續(xù)優(yōu)于無檢索基線和Freebase-ToG。例如,在法律領(lǐng)域,該方法比基線提高了4個(gè)百分點(diǎn),而其他一些檢索方法實(shí)際上降低了性能。
領(lǐng)域特定的性能模式符合直觀預(yù)期:知識圖譜在檢索對人文學(xué)科和社會科學(xué)至關(guān)重要的事實(shí)關(guān)系方面表現(xiàn)出色,而在數(shù)學(xué)和技術(shù)領(lǐng)域,節(jié)點(diǎn)-關(guān)系結(jié)構(gòu)在捕捉過程性知識方面效果有限,因此優(yōu)勢有限。
論文鏈接:https://arxiv.org/abs/2505.23628