清華大學新RAG框架:DO-RAG 準確率飆升33%!
1、RAG研究現狀
問答系統(QA)讓用戶能用自然語言從海量資料中精準獲取信息,主要分為兩類:
- 開放域QA依托常識作答
- 封閉域QA則需專業資料支持
隨著DeepSeek-R1、Grok-3等大語言模型(LLM)的突破,文本流暢度和語義理解顯著提升。但這些模型依賴參數記憶,遇到專業術語或復雜推理時,仍可能"胡言亂語"或答非所問。
檢索增強生成(RAG)通過在作答前抓取相關片段提升準確性-,知識圖譜(KG)則用結構化關系網絡支持多步推理。
但現有方案存在明顯缺陷:
- 技術文檔中的復雜關聯常被割裂檢索,導致答案支離破碎;
- 構建高質量領域圖譜費時費力,與向量搜索結合又帶來巨大工程負擔。
為此,清華大學團隊推出DO-RAG框架,實現三大創新:
- 構建動態知識圖譜:通過多級智能體流水線,自動從文本、表格等多模態數據中提取實體關系
- 雙軌檢索融合:結合圖譜推理與語義搜索,生成信息飽滿的提示模板
- 幻覺修正機制:對照知識庫校驗答案,迭代修正邏輯漏洞
在數據庫等專業領域測試中,DO-RAG以94%的準確率碾壓主流方案,最高領先33個百分點。模塊化設計支持即插即用,無需重訓練即可遷移到新領域。
二、什么是DO-RAG?
2.1 系統架構全景
如上圖所示,DO-RAG系統由四大核心模塊構成:
- 多模態文檔解析與分塊處理
- 知識圖譜(KG)構建中的多層級實體關系抽取
- 圖遍歷與向量搜索的混合檢索機制
- 面向精準回答的多階段生成引擎
系統首先對日志、技術文檔、圖表等異構數據進行智能分塊,并將文本片段與其向量化表示同步存儲于pgvector增強的PostgreSQL數據庫。
通過思維鏈驅動的智能體流程,將文檔內容轉化為結構化的多模態知識圖譜(MMKG),精準捕捉系統參數、行為特征等多維關聯。
當用戶發起查詢時,意圖解析模塊會將其拆解為若干子查詢。系統首先在知識圖譜中定位相關實體節點,通過多跳推理擴展檢索邊界,獲取富含領域特性的結構化上下文。
隨后,系統運用圖譜感知的提示模板對原始查詢進行語義精煉,將其轉化為無歧義的精準表達。優化后的查詢通過向量化檢索,從數據庫中召回最相關的文本片段。
最終,系統融合原始查詢、優化語句、圖譜上下文、檢索結果及對話歷史,構建統一提示輸入生成引擎。
答案生成經歷三階段打磨:首輪生成、事實校驗與語義優化、最終凝練。系統還會智能預測后續問題,實現自然流暢的多輪對話體驗。
2.2 知識庫構建
文檔處理從多模態輸入開始,文本、表格和圖像經過標準化處理,分割為語義連貫的片段,同時保留源文件結構、章節層級等元數據以確保可追溯性。
采用多智能體分層流水線并行抽取結構化知識。如上圖所示,四個專用智能體各司其職:
- 高層智能體:解析文檔骨架(章節/段落)
- 中層智能體:抓取領域實體(系統組件/API/參數)
- 底層智能體:挖掘細粒度操作邏輯(線程行為/錯誤鏈路)
- 協變量智能體:標注節點屬性(默認值/性能影響)
最終生成動態知識圖譜,以節點表實體、邊表關聯、權重表置信度。通過余弦相似度比對實體嵌入向量實現去重,并聚合相似實體為摘要節點以簡化圖譜。
2.3 混合檢索與查詢分解
如上圖所示,當用戶提問時,DO-RAG會通過基于大語言模型的意圖分析器對問題進行結構化拆解,生成指導知識圖譜(KG)和向量庫檢索的子查詢。
系統首先根據語義相似度從KG中提取相關節點,通過多跳遍歷構建富含上下文的子圖。借助圖感知提示,這些圖譜證據會優化查詢表述并消除歧義。優化后的查詢經向量化處理后,即可從向量庫中獲取語義相近的內容片段。
最終,DO-RAG會將原始查詢、優化查詢、圖譜上下文、向量檢索結果及用戶對話歷史等所有信息,整合成統一的提示框架。
2.4 答案的生成與交付
如上圖所示,最終答案通過分階段提示策略生成。
首先,基礎提示要求大語言模型僅依據檢索到的證據作答,避免無依據內容。
然后通過優化提示對答案進行結構調整和驗證。
最后凝練階段確保回答的語氣、語言和風格與問題保持一致。
為提升交互體驗,DO-RAG還會基于優化后的答案生成后續問題。最終交付內容包括:
- (1) 精煉可驗證的答案,
- (2) 標注來源的引用,
- (3) 針對性后續問題。
若證據不足,系統會如實返回"我不知道",確保可靠性和準確性。
3. 效果對比
選用Client Service國際公司(CSII)研發的SunDB分布式關系數據庫作為測試平臺。其技術手冊、系統日志和規范說明構成的異構數據集,為驗證DO-RAG的多模態處理、實體關系挖掘和混合檢索能力提供了理想場景。
3.1 實驗配置
3.1.1 硬件環境
64GB內存+NVIDIA A100顯卡的Ubuntu工作站
3.1.2 軟件棧
- 追蹤系統:LangFuse(v3.29.0)
- 緩存管理:Redis(v7.2.5)
- 文檔存儲:MinIO(最新版)
- 分析引擎:ClickHouse(穩定版)
- 向量數據庫:PostgreSQL+pgvector組合
3.1.3 測試數據
- SunDB核心數據集:含嵌入式代碼的技術文檔
- 電氣工程輔助集:帶電路圖的技術手冊
每組245道專業題庫均標注標準答案及精確出處
3.1.4 評估體系
四大核心指標(達標線0.7分):
- 答案相關性(Answer Relevancy, AR) - 語義匹配度
- 上下文召回(Contextual Recall, CR) - 信息完整度
- 檢索精度(Contextual Precision, CP) - 結果純凈度
- 內容忠實度(Faithfulness, F) - 答案可信度
3.1.5 評估工具鏈
- RAGAS負責指標計算
- DeepEval進行端到端驗證
- LangFuse實現全鏈路追蹤
3.1.6 對比方案
- 橫向對比:FastGPT/TiDB.AI/Dify.AI三大主流框架
- 縱向對比:知識圖譜增強版vs純向量檢索版
3.2 外部基準測試
如上表顯示,在跨模型測試中,SunDB.AI的綜合評分全面超越FastGPT、TiDB.AI和Dify.AI三大基線系統。
下圖通過可視化對比,直觀呈現了SunDB.AI的持續領先優勢。
3.3 內部優化驗證
上表表明集成知識圖譜后,DeepSeek-V3的答案相關性提升5.7%,上下文精確度提高2.6%,雙模型均實現100%上下文召回。
未啟用圖譜時,召回率下滑至96.4%-97.7%,且因依賴非結構化搜索導致可信度降低。
DeepSeek-R1在啟用圖譜后出現5.6%的可信度微降,推測源于其創造性輸出特性
3.4 領域專項表現
SunDB與電氣領域測試數據(表III/IV)顯示,各模型上下文召回率均逼近滿分。答案相關性、精確度與可信度的差異化表現,折射出不同模型的特長所在。
本文轉載自???大語言模型論文跟蹤???,作者:HuggingAGI
