從零實現大模型-GraphRAG，構建LLM中的關系數據庫原創

魚蟲子

發布于 2024-7-17 07:04

瀏覽

0收藏

傳統RAG

LLM預訓練和微調一般都是基于公開的互聯網數據，不可能包含公司內部私有數據，如果你問有關某公司的運營情況，直接基于模型參數生成的回答可能和胡說八道沒什么兩樣。

RAG（Retrieval-Augmented Generation）的思想就是將私有數據作為參考信息傳遞給LLM。這些私有數據除了作為一種補充信息，也可以作為一種限制，能避免LLM產生幻覺。

參考信息一般以文本、圖片等非結構化形式存在。

RAG的流程是：

從零實現大模型-GraphRAG，構建LLM中的關系數據庫 -AI.x社區

1.首先要將文本劃分成片段，然后將片段轉換成向量存儲到向量數據庫中備用，這個向量就是這段文本語義信息的數字表示。

2.將用戶查詢轉換成向量。并與所有文本片段向量進行相似度計算，取出top k個片段。

3.將用戶查詢和k個文本片段組織成特定prompt格式輸入到LLM中。

（計算文本的向量可以調用API或者使用像llamaindex這樣的庫）

GraphRAG

但傳統的RAG仍有一些限制。

例如，基于某個公司的運營數據搭建RAG，由于LLM上下文大小的限制，劃分的文本片段不可能太大，所以每個文本片段不可能包含太多信息。

如果你問某個員工去年的銷售業績，基于RAG，LLM很可能會給出準確回答，因為某個文本片段很可能包含了某個員工的年終總結信息。

但如果你問該員工所在團隊去年的銷售情況呢？就算某個文本片段包含了該團隊的銷售數據，LLM也很難通過該員工找到團隊的其它成員。

微軟最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是解決這個問題。

GraphRAG就是將圖和傳統的RAG結合了起來。

構造知識圖譜

圖是由節點和邊組成的，節點可以表示各種實體，邊表示實體之間的關系。

GraphRAG的核心就是構造知識圖譜，可以通過GPT4或者使用像llamaindex（KnowledgeGraphIndex）這樣的庫構造知識圖譜。

從零實現大模型-GraphRAG，構建LLM中的關系數據庫 -AI.x社區

將公司運營文檔構造成知識圖譜：

1.識別出文檔中包含的實體以及實體之間的關系（員工，同事）

2.將實體進行聚類（同組同事）

3.對每個聚類進行總結（銷售情況）

4.將實體進行向量化，轉換到圖向量空間

5.提取實體對應的原始文本，并轉換成向量

Query

當用戶提問時，首先在知識圖譜中找到與用戶提問語義相關的實體，同時找到與實體相關的原始文本，最后將這些信息組織成特定prompt格式輸入給LLM。

從零實現大模型-GraphRAG，構建LLM中的關系數據庫 -AI.x社區

References

[1] https://github.com/microsoft/graphrag

[2] https://microsoft.github.io/graphrag/

[3] ??https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/??

本文轉載自公眾號人工智能大講堂

原文鏈接：??https://mp.weixin.qq.com/s/q2BRAiivIFNXWyQIbwx18Q??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

RAG

GraphRAG

LLM

贊

回復

舉報

回復

相關推薦

怎么看大模型、RAG、Agent、知識庫、向量數據庫、知識圖譜、AGI的區別和聯系？

玄姐聊AGI ? 6054瀏覽 ? 0回復
一文搞懂大模型、RAG、函數調用、Agent、知識庫、向量數據庫、知識圖譜、AGI的區別和聯系！！

玄姐聊AGI ? 1.4w瀏覽 ? 0回復
從零實現大模型-GPT2指令微調

魚蟲子 ? 4084瀏覽 ? 0回復
從零實現大模型-BERT微調

魚蟲子 ? 3250瀏覽 ? 0回復
從零實現大模型-RLHF：Reinforcement Learning from Human Feedback

魚蟲子 ? 4666瀏覽 ? 0回復
從零實現大模型-GPT2任務微調

魚蟲子 ? 3623瀏覽 ? 0回復
一文搞懂大模型、RAG、函數調用、Agent、知識庫、向量數據庫、知識圖譜、AGI的區別和聯系！！

玄姐聊AGI ? 3868瀏覽 ? 0回復
用 Dify 和 Notion 打造輕量級金融數據庫

開發者阿橙 ? 4588瀏覽 ? 0回復
LangChain-RAG必備：向量數據庫如何CRUD

ermulong ? 2900瀏覽 ? 0回復
RAG與本地知識庫，向量數據庫，以及知識圖譜的聯系與區別

AI探索時代 ? 5786瀏覽 ? 0回復
利用 Schemonic 優化數據庫模式描述以降低大語言模型成本

AIGC前沿技術追蹤 ? 2596瀏覽 ? 0回復
利用Milvus向量數據庫，帶你實現GraphRAG

AI科技論談 ? 2877瀏覽 ? 0回復
大模型檢索增強生成之向量數據庫的問題

AI探索時代 ? 2535瀏覽 ? 0回復
怎么提升向量數據庫的召回準確率

AI探索時代 ? 2812瀏覽 ? 0回復
別再將LLM當成數據庫了

51CTO內容精選 ? 2524瀏覽 ? 0回復
圖數據庫的剪枝在大型語言模型中的知識表示

51CTO內容精選 ? 1888瀏覽 ? 0回復
爆火 | API 終將淘汰，MCP+LLM+向量數據庫才是 Agent 開發新范式

玄姐聊AGI ? 3084瀏覽 ? 0回復
RAG實戰 | 向量數據庫LanceDB指南

周末程序猿 ? 2050瀏覽 ? 0回復
從零到一構建Agent系統：四大模塊 + 框架生態詳解

PyTorch研習社 ? 2649瀏覽 ? 0回復

魚蟲子

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

從零實現大模型-GraphRAG，構建LLM中的關系數據庫原創

傳統RAG

GraphRAG

構造知識圖譜

Query

References

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

從零實現大模型-GraphRAG，構建LLM中的關系數據庫 原創

傳統RAG

GraphRAG

構造知識圖譜

Query

References

目錄

從零實現大模型-GraphRAG，構建LLM中的關系數據庫原創