Agentic RAG-R1:讓大模型從「檢索助手」躍升為「思考+搜索王者」!
Agentic RAG-R1 是由北京大學研發的一項開源研究項目,旨在推動語言模型在自主檢索與推理能力方面的能力邊界。該項目通過引入強化學習策略(GRPO),構建了一個可自我規劃、檢索、推理與總結的智能體式 RAG 系統。
核心亮點
1. Agentic RAG 架構:融合檢索增強生成(RAG)與 Agentic AI 機制,模型不僅生成答案,還能“決定如何生成答案”。
2. 強化學習優化(GRPO):借助 Generalized Relevance Policy Optimization,讓模型學會更合理地選擇檢索和推理步驟。
3. 多輪推理與回溯能力:支持計劃、回溯、總結等多種 agent 行為,實現人類式的問題解決流程。
4. LoRA 與量化支持:低成本微調與高效推理并存,輕松部署大模型至生產環境。
5. 豐富獎勵機制:引入格式、準確性、RAG 表現等多個維度的獎勵,訓練出更“懂業務”的智能體。
Github項目地址: ???https://github.com/jiangxinke/Agentic-RAG-R1??
“模型自主、工具自選、推理自洽”——Agentic RAG-R1 用強化學習把 RAG 帶進智能體時代。
背景:為什么 RAG 需要 “Agentic”?
?事實性:RAG 通過外部檢索解決 “幻覺” 問題,但仍依賴人工提示來決定何時檢索。
?上下文爆炸:檢索結果越多,拼接進上下文越長,反而稀釋關鍵信息。
?多跳推理:復雜任務需要 “查-思-查-思” 循環,僅一次檢索難以覆蓋。
Agentic RAG-R1 讓模型在每一步“思考”時都能自主決定:
1.是否檢索? —— 省掉無關調用,提高效率
2.檢索什么? —— 人類不再手寫復雜 prompt
3.如何引用? —— 自動將證據融入推理鏈
體系結構:全面的 Agentic 思考
核心理念:兩大王牌技術的強強聯合
檢索增強生成 (RAG):在生成過程中即時從外部知識庫檢索信息,兼具語言模型的創造力與實時、可信的事實。
Agentic AI 智能體:讓模型自主決定何時檢索、檢索什么,以及如何把檢索證據編織進推理鏈,真正做到“會思考、會行動”。
架構:基于 TC-RAG 的智能體思考循環
目前支持如下動作:
# | 動作 | 說明 | 狀態 |
1 | ?? Reasoning(推理) | 展開思考、提出假設 | ? |
2 | ?? Backtrack(回溯) | 回到上一節點,修正思路 | ? |
3 | ?? Summary(總結) | 匯總已有證據,壓縮上下文 | ? |
4 | ??? Tool Observation(工具調用) | 訪問 Wiki / 文檔 / 知識圖譜等 | ? |
5 | ? Conclusion(結論) | 輸出最終答案 | ? |
技術細節深挖
Features
組件 | 關鍵點 | 優勢 |
GRPO (Generalized Relevance Policy Optimization) | 采樣多條推理-檢索軌跡,對“高相關、高準確、高格式”路徑賦正獎勵 | 訓練穩定 、收斂快,避免 RLHF 里的 Reward Hacking |
LoRA + NF4 量化 | 10?% 參數可訓練,int-4 存儲 | GPU 省錢 ,多實驗迭代無壓力 |
Deepspeed Zero-3 | 權重 & 優化器拆分到 CPU / NVMe | 3×A100 → 32B 輕松起飛 |
多模態工具接口 | 支持文本、代碼、數據庫、REST API | 讓模型在“真實工作流”里落地 |
獎勵公式: (
其中 r_rag 由 RAGAS 自動評測檢索片段是否被有效引用。
Rollout Generation
結果:數據說話
數據集:MedQA(中英雙語)?|?Judge Model:Qwen-2.5-72B
設置 | 格式準確率 ↑ | 答案準確率 ↑ |
微調前 | 39 % | 84 % |
微調前 + 檢索 | 56 % | 79 % |
微調后 + 檢索 | 92 % (+53 %) | 87 % (+3 %) |
?跨語言:中/英兩份測試集均顯著提升
?復雜推理:多跳問題正確率提升 8?% 以上
?工具調用成功率:> 95 %,日志可追溯
實際測試結果:
FAQ
Q1:必須用 32B 模型嗎?
A1:不需要!我們默認用 Qwen-2.5-7B-Instruct;你也可以換成 Llama-3-8B / Baichuan-13B,只需改配置。
Q2:RL 訓練很復雜嗎?
A2:腳本參數與常規 LoRA 差不多,多加一份獎勵配置即可。CPU 顯存不足?Zero-3 + Offload 輕松搞定。
結語 & 口號
“模型自主,檢索在手;深度推理,靠譜出口!”
“讓 LLM 會自己找資料,再也不用 Ctrl + C / Ctrl + V!”
本文轉載自????PaperAgent??
