清華大學(xué)新RAG框架:DO-RAG 準(zhǔn)確率飆升33%!
1、RAG研究現(xiàn)狀
問答系統(tǒng)(QA)讓用戶能用自然語言從海量資料中精準(zhǔn)獲取信息,主要分為兩類:
- 開放域QA依托常識作答
- 封閉域QA則需專業(yè)資料支持
隨著DeepSeek-R1、Grok-3等大語言模型(LLM)的突破,文本流暢度和語義理解顯著提升。但這些模型依賴參數(shù)記憶,遇到專業(yè)術(shù)語或復(fù)雜推理時(shí),仍可能"胡言亂語"或答非所問。
檢索增強(qiáng)生成(RAG)通過在作答前抓取相關(guān)片段提升準(zhǔn)確性-,知識圖譜(KG)則用結(jié)構(gòu)化關(guān)系網(wǎng)絡(luò)支持多步推理。
但現(xiàn)有方案存在明顯缺陷:
- 技術(shù)文檔中的復(fù)雜關(guān)聯(lián)常被割裂檢索,導(dǎo)致答案支離破碎;
- 構(gòu)建高質(zhì)量領(lǐng)域圖譜費(fèi)時(shí)費(fèi)力,與向量搜索結(jié)合又帶來巨大工程負(fù)擔(dān)。
為此,清華大學(xué)團(tuán)隊(duì)推出DO-RAG框架,實(shí)現(xiàn)三大創(chuàng)新:
- 構(gòu)建動(dòng)態(tài)知識圖譜:通過多級智能體流水線,自動(dòng)從文本、表格等多模態(tài)數(shù)據(jù)中提取實(shí)體關(guān)系
- 雙軌檢索融合:結(jié)合圖譜推理與語義搜索,生成信息飽滿的提示模板
- 幻覺修正機(jī)制:對照知識庫校驗(yàn)答案,迭代修正邏輯漏洞
在數(shù)據(jù)庫等專業(yè)領(lǐng)域測試中,DO-RAG以94%的準(zhǔn)確率碾壓主流方案,最高領(lǐng)先33個(gè)百分點(diǎn)。模塊化設(shè)計(jì)支持即插即用,無需重訓(xùn)練即可遷移到新領(lǐng)域。
二、什么是DO-RAG?
2.1 系統(tǒng)架構(gòu)全景
如上圖所示,DO-RAG系統(tǒng)由四大核心模塊構(gòu)成:
- 多模態(tài)文檔解析與分塊處理
- 知識圖譜(KG)構(gòu)建中的多層級實(shí)體關(guān)系抽取
- 圖遍歷與向量搜索的混合檢索機(jī)制
- 面向精準(zhǔn)回答的多階段生成引擎
系統(tǒng)首先對日志、技術(shù)文檔、圖表等異構(gòu)數(shù)據(jù)進(jìn)行智能分塊,并將文本片段與其向量化表示同步存儲于pgvector增強(qiáng)的PostgreSQL數(shù)據(jù)庫。
通過思維鏈驅(qū)動(dòng)的智能體流程,將文檔內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化的多模態(tài)知識圖譜(MMKG),精準(zhǔn)捕捉系統(tǒng)參數(shù)、行為特征等多維關(guān)聯(lián)。
當(dāng)用戶發(fā)起查詢時(shí),意圖解析模塊會(huì)將其拆解為若干子查詢。系統(tǒng)首先在知識圖譜中定位相關(guān)實(shí)體節(jié)點(diǎn),通過多跳推理擴(kuò)展檢索邊界,獲取富含領(lǐng)域特性的結(jié)構(gòu)化上下文。
隨后,系統(tǒng)運(yùn)用圖譜感知的提示模板對原始查詢進(jìn)行語義精煉,將其轉(zhuǎn)化為無歧義的精準(zhǔn)表達(dá)。優(yōu)化后的查詢通過向量化檢索,從數(shù)據(jù)庫中召回最相關(guān)的文本片段。
最終,系統(tǒng)融合原始查詢、優(yōu)化語句、圖譜上下文、檢索結(jié)果及對話歷史,構(gòu)建統(tǒng)一提示輸入生成引擎。
答案生成經(jīng)歷三階段打磨:首輪生成、事實(shí)校驗(yàn)與語義優(yōu)化、最終凝練。系統(tǒng)還會(huì)智能預(yù)測后續(xù)問題,實(shí)現(xiàn)自然流暢的多輪對話體驗(yàn)。
2.2 知識庫構(gòu)建
文檔處理從多模態(tài)輸入開始,文本、表格和圖像經(jīng)過標(biāo)準(zhǔn)化處理,分割為語義連貫的片段,同時(shí)保留源文件結(jié)構(gòu)、章節(jié)層級等元數(shù)據(jù)以確保可追溯性。
采用多智能體分層流水線并行抽取結(jié)構(gòu)化知識。如上圖所示,四個(gè)專用智能體各司其職:
- 高層智能體:解析文檔骨架(章節(jié)/段落)
- 中層智能體:抓取領(lǐng)域?qū)嶓w(系統(tǒng)組件/API/參數(shù))
- 底層智能體:挖掘細(xì)粒度操作邏輯(線程行為/錯(cuò)誤鏈路)
- 協(xié)變量智能體:標(biāo)注節(jié)點(diǎn)屬性(默認(rèn)值/性能影響)
最終生成動(dòng)態(tài)知識圖譜,以節(jié)點(diǎn)表實(shí)體、邊表關(guān)聯(lián)、權(quán)重表置信度。通過余弦相似度比對實(shí)體嵌入向量實(shí)現(xiàn)去重,并聚合相似實(shí)體為摘要節(jié)點(diǎn)以簡化圖譜。
2.3 混合檢索與查詢分解
如上圖所示,當(dāng)用戶提問時(shí),DO-RAG會(huì)通過基于大語言模型的意圖分析器對問題進(jìn)行結(jié)構(gòu)化拆解,生成指導(dǎo)知識圖譜(KG)和向量庫檢索的子查詢。
系統(tǒng)首先根據(jù)語義相似度從KG中提取相關(guān)節(jié)點(diǎn),通過多跳遍歷構(gòu)建富含上下文的子圖。借助圖感知提示,這些圖譜證據(jù)會(huì)優(yōu)化查詢表述并消除歧義。優(yōu)化后的查詢經(jīng)向量化處理后,即可從向量庫中獲取語義相近的內(nèi)容片段。
最終,DO-RAG會(huì)將原始查詢、優(yōu)化查詢、圖譜上下文、向量檢索結(jié)果及用戶對話歷史等所有信息,整合成統(tǒng)一的提示框架。
2.4 答案的生成與交付
如上圖所示,最終答案通過分階段提示策略生成。
首先,基礎(chǔ)提示要求大語言模型僅依據(jù)檢索到的證據(jù)作答,避免無依據(jù)內(nèi)容。
然后通過優(yōu)化提示對答案進(jìn)行結(jié)構(gòu)調(diào)整和驗(yàn)證。
最后凝練階段確保回答的語氣、語言和風(fēng)格與問題保持一致。
為提升交互體驗(yàn),DO-RAG還會(huì)基于優(yōu)化后的答案生成后續(xù)問題。最終交付內(nèi)容包括:
- (1) 精煉可驗(yàn)證的答案,
- (2) 標(biāo)注來源的引用,
- (3) 針對性后續(xù)問題。
若證據(jù)不足,系統(tǒng)會(huì)如實(shí)返回"我不知道",確保可靠性和準(zhǔn)確性。
3. 效果對比
選用Client Service國際公司(CSII)研發(fā)的SunDB分布式關(guān)系數(shù)據(jù)庫作為測試平臺。其技術(shù)手冊、系統(tǒng)日志和規(guī)范說明構(gòu)成的異構(gòu)數(shù)據(jù)集,為驗(yàn)證DO-RAG的多模態(tài)處理、實(shí)體關(guān)系挖掘和混合檢索能力提供了理想場景。
3.1 實(shí)驗(yàn)配置
3.1.1 硬件環(huán)境
64GB內(nèi)存+NVIDIA A100顯卡的Ubuntu工作站
3.1.2 軟件棧
- 追蹤系統(tǒng):LangFuse(v3.29.0)
- 緩存管理:Redis(v7.2.5)
- 文檔存儲:MinIO(最新版)
- 分析引擎:ClickHouse(穩(wěn)定版)
- 向量數(shù)據(jù)庫:PostgreSQL+pgvector組合
3.1.3 測試數(shù)據(jù)
- SunDB核心數(shù)據(jù)集:含嵌入式代碼的技術(shù)文檔
- 電氣工程輔助集:帶電路圖的技術(shù)手冊
每組245道專業(yè)題庫均標(biāo)注標(biāo)準(zhǔn)答案及精確出處
3.1.4 評估體系
四大核心指標(biāo)(達(dá)標(biāo)線0.7分):
- 答案相關(guān)性(Answer Relevancy, AR) - 語義匹配度
- 上下文召回(Contextual Recall, CR) - 信息完整度
- 檢索精度(Contextual Precision, CP) - 結(jié)果純凈度
- 內(nèi)容忠實(shí)度(Faithfulness, F) - 答案可信度
3.1.5 評估工具鏈
- RAGAS負(fù)責(zé)指標(biāo)計(jì)算
- DeepEval進(jìn)行端到端驗(yàn)證
- LangFuse實(shí)現(xiàn)全鏈路追蹤
3.1.6 對比方案
- 橫向?qū)Ρ龋篎astGPT/TiDB.AI/Dify.AI三大主流框架
- 縱向?qū)Ρ龋褐R圖譜增強(qiáng)版vs純向量檢索版
3.2 外部基準(zhǔn)測試
如上表顯示,在跨模型測試中,SunDB.AI的綜合評分全面超越FastGPT、TiDB.AI和Dify.AI三大基線系統(tǒng)。
下圖通過可視化對比,直觀呈現(xiàn)了SunDB.AI的持續(xù)領(lǐng)先優(yōu)勢。
3.3 內(nèi)部優(yōu)化驗(yàn)證
上表表明集成知識圖譜后,DeepSeek-V3的答案相關(guān)性提升5.7%,上下文精確度提高2.6%,雙模型均實(shí)現(xiàn)100%上下文召回。
未啟用圖譜時(shí),召回率下滑至96.4%-97.7%,且因依賴非結(jié)構(gòu)化搜索導(dǎo)致可信度降低。
DeepSeek-R1在啟用圖譜后出現(xiàn)5.6%的可信度微降,推測源于其創(chuàng)造性輸出特性
3.4 領(lǐng)域?qū)m?xiàng)表現(xiàn)
SunDB與電氣領(lǐng)域測試數(shù)據(jù)(表III/IV)顯示,各模型上下文召回率均逼近滿分。答案相關(guān)性、精確度與可信度的差異化表現(xiàn),折射出不同模型的特長所在。
本文轉(zhuǎn)載自???大語言模型論文跟蹤???,作者:HuggingAGI
