“大模型+知識圖譜”雙輪驅動的見解、技術和評估 - 英偉達的GraphRAG
數據是現代企業的命脈,為從創新到戰略決策的方方面面提供動力。然而,隨著組織積累的信息量不斷增長(從技術文檔到內部通信),他們面臨著一項艱巨的挑戰:如何從海量的非結構化數據中提取有意義的見解和可操作的結構。
檢索增強生成 (RAG) 已成為一種流行的解決方案,它通過集成相關的企業數據來增強 AI 生成的響應。雖然傳統的 RAG 方法對簡單的查詢有效,但在解決需要推理和交叉引用的復雜、多層次問題時,往往無法滿足要求。
問題在于:簡單的向量搜索可以檢索數據,但通常無法提供復雜推理所需的細微上下文。即使是多查詢 RAG、查詢增強和混合檢索等高級技術,也難以解決需要中間推理步驟或跨數據類型復雜連接的任務。
本文探討了如何將大型語言模型 (LLM) 的強大功能與知識圖譜相結合來應對這些挑戰,使企業能夠將非結構化數據集轉換為結構化、互連的實體。這種集成增強了推理能力,提高了準確性,并減少了幻覺:這是傳統 RAG 系統無法解決的問題。
本文涵蓋以下方面:
- LLM 生成的知識圖譜如何改進 RAG 技術。
- 構建這些圖形的技術流程,包括使用 cuGraph 進行 GPU 加速。
- 對高級 RAG 方法的比較評估,以突出優勢和實際應用:
VectorRAG
GraphRAG
HybridRAG (vectorRAG和graphRAG集成)
借助 LLM 驅動的知識圖譜,企業可以獲得更深入的見解、簡化運營并獲得競爭優勢。
了解知識圖譜
知識圖譜是信息的結構化表示形式,由實體(節點)、屬性以及它們之間的關系組成。通過在大量數據集之間創建連接,知識圖譜可以更直觀、更強大地探索數據。
大規模知識圖譜的突出示例包括 DBpedia – Wikipedia、LinkedIn 和 Facebook 等平臺使用的社交網絡圖譜,或 Google 搜索創建的知識面板。
Google 率先使用知識圖譜來更好地了解現實世界的實體及其相互聯系。這項創新通過多跳查詢等技術顯著提高了搜索準確性和高級內容探索。
Microsoft 通過 GraphRAG 擴展了這一概念,展示了 LLM 生成的知識圖譜如何通過減少幻覺和實現對整個數據集的推理來增強 RAG。這種方法使 AI 系統能夠通過圖形機器學習來發現數據中的關鍵主題和關系。??重磅 - 微軟官宣正式在GitHub開源GraphRAG??
知識圖譜對于解決復雜問題和解鎖各個行業和用例的見解已成為不可或缺的工具:
- 醫療保健 :通過繪制醫學知識、患者記錄和治療途徑,實現高級研究和明智的決策。
- 推薦系統 :通過將用戶偏好與相關產品、服務或內容聯系起來,提供個性化體驗,從而豐富用戶體驗。
- 搜索引擎 :提高搜索結果的準確性和相關性,正如 2012 年 Google 對知識圖譜的集成所證明的那樣,它徹底改變了信息的傳遞方式。
- 社交網絡 :支持社交圖譜分析,以建議有意義的聯系、發現趨勢并提高 LinkedIn 和 Facebook 等平臺上的用戶參與度。
- 財務 :通過分析交易圖表和識別財務數據中的隱藏關系,檢測欺詐活動并發現見解。
- 學術研究 :通過連接科學出版物和研究數據集中的數據點,促進復雜的查詢并發現新的見解。
通過構建和鏈接不同領域的數據,知識圖譜為 AI 系統提供了高級推理功能,從而為復雜的行業挑戰提供更精確、上下文感知的解決方案。
?構建 LLM 生成的知識圖譜的高級技術和最佳實踐?
在現代 LLM 興起之前(可以稱為前 ChatGPT 時代),知識圖譜是使用傳統的自然語言處理 (NLP) 技術構建的。此過程通常包括三個主要步驟:
- 命名實體識別 (NER)
- 實體鏈接
- 關系提取 (RE)
這些方法在很大程度上依賴于詞性 (PoS) 標記、廣泛的文本預處理和啟發式規則來準確捕獲語義和關系。雖然有效,但這些方法是勞動密集型的,并且通常需要大量的人工干預。
今天,指令微調的 LLM 徹底改變了這一過程。通過將文本拆分為塊并使用 LLM 根據用戶定義的提示提取實體和關系,企業現在可以更輕松、更高效地自動創建知識圖譜。
但是,構建強大而準確的基于 LLM 的知識圖譜仍然需要仔細注意某些關鍵方面:
- 架構或本體定義 :數據之間的關系通常必須受特定用例或域的約束。這是通過架構或本體實現的,它為構建圖形提供了正式的語義規則。定義完善的架構為每個實體指定類、類別、關系和屬性,從而確保一致性和相關性。
- 實體一致性 :保持一致的實體表示形式對于避免重復或不一致至關重要。例如,America、USA、US 和 United States 應映射到同一節點。形式語義和消歧技術可以顯著減少這些問題,但可能仍需要額外的驗證。
- 強制結構化輸出:確保 LLM 輸出符合預定義的結構對于可用性至關重要。有兩種主要方法可以實現此目的:
- 后處理 :如果 LLM 未以所需格式輸出數據,則必須手動處理響應以滿足所需的結構。
- 使用 JSON 模式或函數調用 :某些 LLM 提供將其輸出限制為特定格式(如 JSON)的功能。當本機支持不可用時,微調可以通過持續的基于指令的訓練來訓練模型以生成 JSON 輸出。
通過解決這些注意事項并適當地微調模型,企業可以使用 LLM 生成的知識圖譜來構建強大、準確且可擴展的數據表示形式。這些圖表為高級 AI 應用程序解鎖了新的可能性,從而獲得更深入的見解并增強決策能力。
LLM 生成的知識圖譜的實驗設置
為了演示使用 LLM 創建知識圖譜,我們開發了一個結合 NVIDIA NeMo、LoRA 和 NVIDIA NIM 微服務的優化實驗工作流程(圖 1 )。此設置可以有效地生成 LLM 驅動的知識圖譜,并為企業用例提供可擴展的解決方案。
圖 1.NIM 微服務加速的 GraphRAG 工作流
數據采集
在這個實驗中,我們使用了來自 arXiv 的學術研究數據集,其中包含豐富的元數據,例如文章來源、作者詳細信息、出版日期和隨附的圖像。為了促進復制,我們在 GitHub 上提供了開源代碼,包括用于下載特定領域樣本研究論文的腳本。
知識圖譜創建
該過程使用了 Llama-3 70B NIM 模型,并帶有從文本塊中提取實體關系三元組的詳細提示。雖然初始模型的性能相當不錯,但某些輸出不準確。
為了解決這個問題,我們使用 NVIDIA NeMo 框架和低秩自適應 (LoRA) 微調了一個較小的模型 Llama3-8B ,從而進一步優化了。Mixtral-8x7B 生成了用于微調的三元組數據,與較大的模型相比,這提高了準確性、減少了延遲并降低了推理成本。
該過程將生成的三元組解析為 Python 列表或字典,并將它們索引到圖形數據庫中。通過以下優化解決了格式不正確的三元組(例如,缺少標點符號或括號)等難題:
- 增強的解析功能 :使用具有改進文本處理的最新 LLM 模型。
- Fine-tuning for triplet extraction :添加說明以規范標點符號并確保實體格式的一致性。
- Re-prompting :通過提示 LLM 進行精細響應來糾正格式錯誤的輸出,從而顯著提高準確性。
精度比較
為了評估不同模型和方法對三元體提取的有效性,我們在 100 個新聞文檔的測試集上比較了它們的準確性。結果突出了通過微調和優化實現的性能改進。
請考慮以下示例段落:
? |
在對 Llama-3-8B 模型進行微調之前,提取的三元組不完整,導致后處理函數解析時出現錯誤。
? ? ('Royal Dutch Shell', 'ORG', 'Announce', 'Cut Spending', 'EVENT'), ('Royal Dutch Shell', 'ORG', 'Operate_In', 'Oil and Gas Exploration', 'FIELD')]' |
微調后,該模型在完成率和準確性方面表現出顯著提高。精煉后的三元組更精確,更符合文本的上下文:
? ['Total', 'COMP', 'Cut', 'Spending on oil and gas exploration', 'ACTIVITY'], ['World’s top oil companies', 'ORG', 'Hesitate', 'Accelerate the search for new resources', 'ACTIVITY']] |
圖 2.從 100 個新聞文檔中預測三元組的不同模型和方法的準確性比較
用于三元組提取的代碼和架構
下面是一個 /NVIDIA/GenerativeAIExamples 代碼示例,展示了用于三元組提取的架構和方法:
? ? ? ? ? ? ? ? ? ? ?
? ? ? - ORG: Organizations other than government or regulatory bodies - ORG/GOV: Government bodies (e.g., "United States Government") - ORG/REG: Regulatory bodies (e.g., "Food and Drug Administration") - PERSON: Individuals (e.g., "Marie Curie") - GPE: Geopolitical entities such as countries, cities, etc. (e.g., "Germany") - INSTITUTION: Academic or research institutions (e.g., "Harvard University") - PRODUCT: Products or services (e.g., "CRISPR technology") - EVENT: Specific and Material Events (e.g., "Nobel Prize", "COVID-19 pandemic") - FIELD: Academic fields or disciplines (e.g., "Quantum Physics") - METRIC: Research metrics or indicators (e.g., "Impact Factor"), numerical values like "10%" is not a METRIC; - TOOL: Research tools or methods (e.g., "Gene Sequencing", "Surveys") - CONCEPT: Abstract ideas or notions or themes (e.g., "Quantum Entanglement", "Climate Change") ? ? ? ? ? ? ? ? ? ? ? ? |
這種結構化方法確保了更清晰、更準確的三聯體提取。
優化推理
為了擴展數千個文檔塊的工作流程,我們執行了以下優化:
- Converted model weights :將 NeMo 訓練的模型權重轉換為 TensorRT-LLM 檢查點。
- 優化的推理引擎 :使用 GPU 加速推理以獲得更快的性能。
- 部署的可擴展系統:使用優化的模型檢查點實現高吞吐量推理,顯著提高了大型數據集的性能。
通過集成先進的 LLM 優化技術和微調工作流程,我們實現了高效且可擴展的知識圖譜生成,為企業 AI 應用程序提供了強大的基礎。
使用 NVIDIA cuGraph 加速知識圖譜,實現可擴展的 AI 工作流
NVIDIA 多年來一直致力于推進 GPU 上的 AI 工作流,尤其是在圖形神經網絡 (GNN) 和復雜數據表示等領域。基于這些專業知識,NVIDIA RAPIDS 數據科學團隊開發了 cuGraph,這是一個用于圖形分析的 GPU 加速框架。cuGraph 通過實現可擴展的高速圖形操作,顯著提高了 RAG 系統的效率。
在知識圖譜檢索增強生成 (KRAG) 中,將查詢知識圖譜以檢索相關信息,從而在文本生成期間增強語言模型的上下文。cuGraph 最短路徑、PageRank 和社區檢測等高性能算法可快速識別和排序大規模知識圖譜中的相關節點和邊緣。通過這樣做, cuGraph 確保更快、更準確地檢索上下文相關信息,從而提高 AI 生成的輸出的質量。
cuGraph 特別強大的原因是它與 NetworkX、RAPIDS cuDF 和 cuML 等廣泛使用的開源工具無縫集成。這種集成使您能夠以最少的代碼更改來加速圖形工作流,從而實現快速采用和即時性能提升。
在我們的開源實施中,我們使用 cuGraph 通過 NetworkX 加載和管理圖形表示,從而在多 GPU 系統上實現數十億個節點和邊緣的可擴展性。cuGraph 還支持高效的圖形查詢和多跳搜索,使其成為處理大型復雜知識圖譜不可或缺的工具。
深入了解 VectorRAG、GraphRAG 和 HybridRAG
我們對三種 RAG 技術進行了全面的比較分析:VectorRAG、GraphRAG 和 HybridRAG。我們使用 nemotron-340b 獎勵模型來評估他們的輸出質量。
評估指標
評估側重于以下關鍵指標,評分范圍為 0 到 4(越高越好):
- Helpfulness:衡量響應對提示的處理效果。
- 正確性:評估是否包含所有相關事實,無不準確之處。
- Coherence:評估響應中表達的一致性和清晰度。
- 復雜性:確定生成響應所需的知識深度(例如,它是否需要深厚的領域專業知識,還是可以通過基本的語言能力生成)。
- Verbosity:分析相對于提示要求提供的詳細程度。
有關更多信息,請參閱模型卡。
數據集和實驗設置
本研究使用的數據集包含從 arXiv 收集的研究論文。真實 (GT) 問答對是使用 nemotron-340b 合成數據生成模型合成生成的。
包含關鍵見解的結果摘要
圖 3.地面實況 - 長上下文合成對的比較分析
注意:在這種情況下,與純 GraphRAG 相比,HybridRAG 的性能不佳,因為該數據集是為多跳推理而綜合設計的,以突出 GraphRAG 的優勢。對于真實世界的數據,HybridRAG 可能會在大多數情況下提供最佳結果。
分析揭示了不同技術之間的顯著性能差異:
- 正確性 :GraphRAG 在正確性方面表現出色,提供了高度準確且忠實于源數據的響應。
- 整體表現 :GraphRAG 在所有指標上都表現出卓越的表現,提供準確、連貫且與上下文一致的響應。它的優勢在于使用關系上下文進行更豐富的信息檢索,這使得它對于需要高準確性的數據集特別有效。
- HybridRAG 的潛力 :根據數據集和上下文注入,HybridRAG 幾乎在所有指標上都顯示出優于傳統 VectorRAG 的潛力。其基于圖形的檢索功能可以改進對復雜數據關系的處理,盡管這可能會導致一致性略有妥協。
- HybridRAG 作為一種平衡的方法:HybridRAG 作為一種平衡且有效的技術出現,它將語義 VectorRAG 的靈活性與高級多跳推理和全局上下文摘要無縫結合。這使得它特別適合金融和醫療保健等受監管的領域,在這些領域中,強大的響應基礎至關重要。其方法可實現準確高效的信息提取,滿足這些行業的嚴格要求。
圖形檢索技術的集成有可能重新定義 RAG 方法處理復雜、大規模數據集的方式,使其成為需要跨關系進行多跳推理、高準確性和深入上下文理解的應用程序的理想選擇。
探索 LLM 驅動的知識圖譜的未來
在本文中,我們研究了將 LLM 與知識圖譜集成如何增強 AI 驅動的信息檢索,在多跳推理和高級查詢響應等領域表現出色。VectorRAG、GraphRAG 和 HybridRAG 等技術顯示出巨大的潛力,但在我們突破這項技術的界限時,仍然存在一些挑戰。
以下是一些關鍵挑戰:
- 動態信息更新:將實時數據合并到知識圖譜中,添加新節點和關系,并確保大規模更新期間的相關性。
- 可擴展性:管理增長到數十億個節點和邊緣的知識圖譜,同時保持效率和性能。
- 三元組提取優化:提高實體關系提取的精度以減少錯誤和不一致。
- 系統評估:開發強大的特定領域指標和基準,用于評估基于圖形的檢索系統,以確保一致性、準確性和相關性。
一些未來的方向可能包括以下任何一項:
- 動態知識圖譜:改進技術以無縫擴展動態更新,使圖譜能夠隨著最新數據而發展。
- 專家代理集成 :探索知識圖譜檢索如何充當專家系統,為特定領域的應用程序提供專業見解。
- 圖譜嵌入:為整個知識圖譜開發嵌入的語義表示,以解鎖圖形分析和信息檢索方面的新功能。
使用 NVIDIA 工具構建和優化知識圖譜
要深入了解這些創新,請探索 NVIDIA NeMo 框架、 NVIDIA NIM 微服務和 cuGraph ,以創建和管理 GPU 加速的知識圖譜。
要復制帖子和其他開源示例中討論的工作流程,請參閱 /NVIDIA/GenerativeAIExamples GitHub repo 。這些工具使您能夠有效地擴展系統,無論您是構建動態知識圖譜、微調 LLM 還是優化推理管道。
參考文獻
- ??Stardog Voicebox智能體: 知識圖譜&LLM雙輪驅動、釋放自動化的創造力??
- ??大模型能自動創建高質量知識圖譜嗎?可行性及人機協同機制 - WhyHow.AI??
- ??GraphRAG和輕量級LightRAG技術及應用案例深度解析??
- ??微軟GraphRAG框架演進之路及帶來的一些思考??
- ??LazyGraphRAG:微軟重磅推出高性價比下一代GraphRAG??
- ??提升大型語言模型結果:何時使用GraphRAG??
- ??微軟GraphRAG最新動態:通過動態社區選擇改善全球搜索??
- ??GraphRAG產業化應用落地挑戰和探索:知易行難 - 企業大模型獨角獸Glean實踐之四??
- ??GraphRAG從研發到上線的挑戰-硅谷企業級大模型知識庫獨角獸Glean系列之三??
- ??企業級知識庫為什么要用GraphRAG - 硅谷企業級ChatGPT獨角獸Glean系列之二??
- ??企業智能知識庫企業Glean利用GraphRAG融資2.6億美元??
- ??重磅 - 微軟官宣正式在GitHub開源GraphRAG??
- ??開源GraphRAG解讀:微軟的人工智能驅動知識發現方法??
- ??GraphRAG工程落地成本詳細解讀和實例分析??
- ??GraphRAG類型、限制、案例、使用場景詳細解析??
- ??引入GraphRAG的場景條件分析??
- ??不適用生成式人工智能的場景??
- ??知識圖譜增強大模型GraphRAG全面綜述解讀 - 螞蟻集團、北大、浙大、人大等??
- ??5個知識圖譜KG和RAG系統的誤解 — 構建和使用RAG原生圖譜??
- ??OpenKG-SIG | SIGData興趣組:利用大模型構建LLM需要的知識圖譜??
- ??關于大模型和知識圖譜、本體的一場討論??
- ??什么時候(不)用GraphRAG??
- ??GraphRAG工程落地成本詳細解讀和實例分析??
- ??Structured-GraphRAG知識增強框架——足球游戲數據案例研究??
- ??StructRAG: 下一代GraphRAG - 中科院&阿里??
- ??KG RAG vs. Vector RAG:基準測試、優化杠桿和財務分析示例 - WhyHow.AI實踐??
- ??WhyHow AI??
- ??知識圖譜增強RAG流水線Use Case-WhyHow.AI??
- ??“大模型+知識圖譜”雙輪驅動的醫藥數智化轉型新范式-OpenKG TOC專家談??
- ??知識圖譜(KG)和大模型(LLMs)雙輪驅動的企業級AI平臺構建之道??
本文轉載自 ??知識圖譜科技??,作者:KGGPT
