成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考 原創(chuàng)

發(fā)布于 2025-6-13 08:42
瀏覽
0收藏

系統(tǒng)的評(píng)估總是有趣的,在前文,我們通過(guò)一個(gè)類(lèi)似的benchmark得出結(jié)論:GraphRAG在需要多跳推理和上下文綜合的任務(wù)中表現(xiàn)優(yōu)異,但在簡(jiǎn)單事實(shí)檢索任務(wù)中不如傳統(tǒng)RAG。見(jiàn)《???什么時(shí)候用GraphRAG?RAG VS GraphRAG綜合分析??

本文,再來(lái)看一個(gè)評(píng)估工作,同樣是一個(gè)GraphRAG-bench,也再次通過(guò)評(píng)估得出GraphRAG適合多跳推理場(chǎng)景,并且系統(tǒng)的評(píng)估了九大GraphRAG(RAPTOR、LightRAG、GraphRAG、G-Retriever、HippoRAG、GFM-RAG、DALK、KGP和ToG)在這個(gè)benchmark上的性能,供參考。

評(píng)估設(shè)計(jì)

數(shù)據(jù)來(lái)源:從超過(guò)100本出版物中,系統(tǒng)地挑選出最具代表性的20本計(jì)算機(jī)科學(xué)領(lǐng)域的教科書(shū)。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)


數(shù)據(jù)處理:其實(shí)就是文檔解析,前面《文檔智能》專(zhuān)欄也介紹了很多,包含:預(yù)處理、內(nèi)容解析、后處理和層次結(jié)構(gòu)構(gòu)建。預(yù)處理階段包括PDF分類(lèi)和元數(shù)據(jù)提取;內(nèi)容解析階段使用LayoutLMv3進(jìn)行布局分析、公式識(shí)別和OCR;后處理階段使用MinerU重新排序和合并頁(yè)面區(qū)域;層次結(jié)構(gòu)構(gòu)建階段將提取的內(nèi)容組織成層次化的教科書(shū)樹(shù)結(jié)構(gòu)

評(píng)估問(wèn)題設(shè)計(jì):定義了五種類(lèi)型的問(wèn)題,每種類(lèi)型都針對(duì)GraphRAG的不同推理能力。如下表,GraphRAG-bench評(píng)估問(wèn)題類(lèi)型的描述

問(wèn)題類(lèi)型

描述

填空題(FB)

要求用語(yǔ)義精確的術(shù)語(yǔ)完成上下文相關(guān)的陳述。這些題目評(píng)估模型利用局部語(yǔ)義依賴(lài)和圖結(jié)構(gòu)知識(shí)中的實(shí)體定位,生成上下文連貫內(nèi)容的能力。

多選題(MC)

提供一個(gè)問(wèn)題及4個(gè)選項(xiàng),包括語(yǔ)言上合理的干擾項(xiàng)。這些題目評(píng)估模型通過(guò)區(qū)分性推理識(shí)別正確答案的能力,整合實(shí)體信息和邊關(guān)系以排除語(yǔ)義相似但事實(shí)錯(cuò)誤的選項(xiàng)。

多選答題(MS)

要求從4個(gè)選項(xiàng)中選擇2-4個(gè)正確答案,通常需要對(duì)相互關(guān)聯(lián)的概念進(jìn)行推理。包含重疊干擾項(xiàng)的設(shè)置測(cè)試模型處理復(fù)雜查詢(xún)語(yǔ)義的能力,從多跳圖路徑中聚合證據(jù),并解決相關(guān)但非必要屬性之間的沖突。

判斷題(TF)

涉及驗(yàn)證陳述的正確性。這些題目衡量模型的事實(shí)準(zhǔn)確性評(píng)估能力,要求對(duì)知識(shí)進(jìn)行邏輯推理。

開(kāi)放式問(wèn)題(OE)

開(kāi)放式問(wèn)題允許廣泛的回答,要求方法生成詳細(xì)且全面的答案。這些題目評(píng)估模型的整體知識(shí)綜合能力,要求整合多學(xué)科知識(shí)以生成結(jié)構(gòu)化、邏輯連貫的長(zhǎng)篇回答。

評(píng)估指標(biāo):涵蓋圖構(gòu)建、知識(shí)檢索、答案生成和推理過(guò)程的評(píng)價(jià)。圖構(gòu)建評(píng)估包括效率、成本和組織性;知識(shí)檢索評(píng)估包括索引時(shí)間和平均檢索時(shí)間;生成評(píng)估引入了新的Accuracy指標(biāo),考慮語(yǔ)義對(duì)齊和正確性;推理評(píng)估通過(guò)LLM對(duì)生成的理由進(jìn)行評(píng)分,評(píng)估其邏輯一致性。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

實(shí)驗(yàn)與結(jié)論

  • GraphRAG在大多數(shù)任務(wù)中顯著提升了LLM的推理能力。例如,在開(kāi)放性問(wèn)題(OE)上,GraphRAG的平均準(zhǔn)確率達(dá)到了52.42%,而基線模型GPT-4o-mini僅為52.23%。在多跳推理任務(wù)中,GraphRAG方法如RAPTOR和HippoRAG表現(xiàn)尤為突出,分別在準(zhǔn)確率和推理分?jǐn)?shù)上取得了73.58%和45.53%的成績(jī)。
  • 在數(shù)學(xué)領(lǐng)域,GraphRAG方法的表現(xiàn)有所下降,這主要是因?yàn)閿?shù)學(xué)問(wèn)題需要嚴(yán)格的符號(hào)操作和精確的推理鏈,而GraphRAG檢索到的信息往往與問(wèn)題要求不完全匹配,導(dǎo)致信息提取和轉(zhuǎn)換中的歧義或關(guān)鍵步驟丟失。
  • 在倫理領(lǐng)域,GraphRAG和LLM本身的表現(xiàn)均較為一般,原因是倫理問(wèn)題涉及主觀價(jià)值判斷,LLM通過(guò)統(tǒng)計(jì)學(xué)習(xí)捕獲的符號(hào)表示難以準(zhǔn)確建模這些模糊的倫理概念。

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

圖構(gòu)建過(guò)程的比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

知識(shí)檢索過(guò)程比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

生成過(guò)程的比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

推理能力比較

GraphRAG變種這么多,該采用哪種?九大GraphRAG評(píng)估參考-AI.x社區(qū)

參考文獻(xiàn):GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation,https://arxiv.org/pdf/2506.02404

repo:https://github.com/jeremycp3/GraphRAG-Bench


本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理??   作者:余俊暉

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品福利在线 | 国产精品久久久久999 | 最新国产视频 | 日批的视频 | 国产视频一区二区 | 国产精品国产成人国产三级 | 男女午夜激情视频 | av入口 | 国产午夜精品视频 | 国产一区二区三区免费 | 欧美日韩在线一区二区三区 | 成人教育av | www.成人.com| 日韩免费中文字幕 | caoporn国产精品免费公开 | 97久久精品 | 精品国产欧美日韩不卡在线观看 | 日韩精品中文字幕一区二区三区 | 超碰成人免费观看 | 亚洲国产精品久久久 | 国产高清自拍视频在线观看 | 午夜国产 | 国产区高清 | 欧美视频 | 一区二区三区四区视频 | 精品国产伦一区二区三区观看方式 | 在线观看免费福利 | 天堂成人av | 狠狠操狠狠搞 | 九九热精品视频 | 日韩三级在线 | 成人精品鲁一区一区二区 | 欧美日韩一区在线播放 | 国产精品成人av | 91资源在线观看 | 久久机热 | 国产成人精品一区 | 亚洲人久久 | 免费观看一级特黄欧美大片 | 日韩一区二区三区精品 | 日韩中文字幕网 |