成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟開源GraphRAG:極大增強大模型問答、摘要、推理

發布于 2024-7-5 10:02
瀏覽
0收藏

7月3日,微軟在官網開源了基于圖的RAG(檢索增強生成)——GraphRAG。

為了增強大模型的搜索、問答、摘要、推理等能力,RAG已經成為GPT-4、Qwen-2、文心一言、訊飛星火、Gemini等國內外知名大模型標配功能。


傳統的RAG系統在處理外部數據源時,只是簡單地將文檔轉換為文本,將其分割為片段,然后嵌入到向量空間中,使得相似的語義對應相近的位置。


但這種方法在處理需要全局理解的海量數據查詢時存在局限,因為它過度依賴局部文本片段的檢索,無法捕捉到整個數據集的全貌


所以,微軟在RAG基礎之上通過“Graph”圖的方式,例如,文本中的實體,人物、地點、概念等,構建了超大的知識圖譜,幫助大模型更好地捕捉文本中的復雜聯系和交互,來增強其生成、檢索等能力。


開源地址:https://github.com/microsoft/graphrag?tab=readme-ov-file

微軟開源GraphRAG:極大增強大模型問答、摘要、推理-AI.x社區

Graph RAG架構簡單介紹

Graph RAG的核心是通過兩階段構建基于圖譜的文本索引:首先,從源文檔中衍生出實體知識圖譜;然后,針對所有緊密相關的實體群組預生成社區摘要。


所以,Graph RAG的第一步就是將源文檔分割成較小的文本塊,這些文本塊隨后被輸入到大模型中以提取關鍵信息。

微軟開源GraphRAG:極大增強大模型問答、摘要、推理-AI.x社區

在這個過程中,大模型不僅要識別文本中的實體,還要識別實體之間的關系,包括它們之間的相互作用和聯系,用來構建一個龐大的實體知識圖譜,其中包含了數據集中所有重要實體和它們之間的關系。


簡單來說,這個過程就像殺雞一樣,當一整只雞(數據)拿上來后,我們就要把它分解成腿、翅膀、胸肉等更細小的組成部分,同時會關注這些部位之間的關系方便后續的處理。

微軟開源GraphRAG:極大增強大模型問答、摘要、推理-AI.x社區

接著,Graph RAG使用社區檢測算法來識別圖譜中的模塊化社區。這些社區由相關的節點組成,它們之間的聯系比與圖中其他部分的聯系更為緊密。通過這種方式,整個圖譜被劃分為更小、更易于管理的單元,每個單元都代表了數據集中的一個特定主題或概念


在基于圖的索引之上,Graph RAG進一步生成社區摘要。這些摘要是對社區內所有實體和關系的總結,它們提供了對數據集中特定部分的高層次理解。


然后要求大模型對每個答案進行打分,分數在0—100之間,得分過低的將被過濾掉,高分則留下。將剩余的中間答案按照得分高低排序,逐步添加至新的上下文窗口中,直至詞數限制。


例如,當用戶提問“如何進行有效減肥時?”,系統會利用與問題相關的社區摘要來生成部分答案。這些部分答案隨后被匯總并精煉,以形成最終答案。

Graph RAG對大模型的好處

與傳統RAG相比,Graph RAG的全局檢索能力非常強,所以很擅長處理大規模數據集,以下是對大模型的主要幫助。

擴展上下文理解能力:通常大模型受限于其上下文窗口的大小,這限制了它們理解和生成基于長文本的能力。Graph RAG通過構建基于圖的索引,將整個文本集合分解成更小、更易于管理的社區模塊,從而擴展了模型的理解和生成能力。


增強全局查詢:傳統的RAG方法在處理全局數據的查詢時表現不佳,因為依賴于局部文本片段的檢索。Graph RAG通過生成社區摘要,使得模型能夠從整個數據集中提取相關信息,生成更加全面和準確的答案。


提高摘要的質量和多樣性:Graph RAG方法通過并行生成社區摘要,然后匯總這些摘要來生成最終答案,能幫助大模型從不同的角度和社區中提取信息,從而生成更豐富的摘要。

微軟開源GraphRAG:極大增強大模型問答、摘要、推理-AI.x社區

優化算力、資源利用率:在處理大規模文本數據集時,資源的有效利用至關重要。Graph RAG通過模塊化處理,減少了對算力資源的需求。與傳統的全文摘要方法相比,Graph RAG在生成高質量摘要的同時,顯著降低了對token的需求。


提升信息檢索和生成的協同:Graph RAG方法通過結合檢索增強和生成任務,實現了兩者之間的協同工作,提高了生成內容的準確性和相關性。


增強了對數據集結構的理解:通過構建知識圖譜和社區結構,Graph RAG不僅幫助模型理解文本內容,還能理解數據集的內在結構。


提高對復雜問題的處理能力:在處理需要多步驟推理或多文檔信息整合的復雜問題時,Graph RAG能夠通過檢索和摘要不同社區的信息,提升對問題更深層次的理解。尤其是在解讀PDF、Word等文檔時非常有用。


為了評估Graph RAG的性能,微軟在一個100萬tokens、超復雜結構的數據集上,包含娛樂、播客、商業、體育、技術、醫療等內容,進行了綜合測試。

微軟開源GraphRAG:極大增強大模型問答、摘要、推理-AI.x社區

結果顯示,全局檢索方法在全面性和多樣性測試上,超越了Naive RAG等方法。特別是,Graph RAG方法在播客轉錄和新聞文章數據集上都顯示出了超高的水準,多樣性也非常全面,是目前最佳的RAG方法之一。


同時Graph RAG對tokens的需求很低,也就是說可以幫助開發者節省大量成本。


本文轉自 AIGC開放社區 ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/TYIBSFGsowmZT3oabL0kkg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕第三页 | 久草网址| 亚洲精品久久久一区二区三区 | 欧美一区二区三区四区五区无卡码 | 日韩视频精品在线 | 精品视频在线一区 | 国产乱码精品一品二品 | 天天草视频 | av大片在线观看 | 情侣av | 成人精品鲁一区一区二区 | 龙珠z国语版在线观看 | 99久久免费精品国产男女高不卡 | 婷婷狠狠 | 黑人性hd | 成人一区二区三区视频 | 最新午夜综合福利视频 | 国产精品美女一区二区三区 | 一区二区av | 色综合久久久久 | 日韩精品中文字幕在线 | 国产精品日韩一区 | 久久精品国产久精国产 | 久久网国产 | 国产成人精品久久 | 中文字幕乱码亚洲精品一区 | 一级a性色生活片久久毛片波多野 | 亚洲国产一区二区三区四区 | 久久久www成人免费精品 | 一区二区高清 | 亚洲精品在线91 | 成人黄在线观看 | 国产一区二区久久久 | 国产一区久久精品 | 视频精品一区二区三区 | 亚洲看片网站 | 欧美视频第三页 | 亚洲精品第一国产综合野 | 久久亚洲视频 | 国产在线不卡视频 | 国产成人高清 |