推理模型+Multi-Agent,可能就是Deep Research的全貌!
繼谷歌、OpenAI和Perplexity相繼發布各自的Deep Research后,牛津大學發布了一個 “Agentic Reasoning: Reasoning LLMs with Tools for the Deep Research”的工作,并且代碼開源了,今天咱們來詳細看看他們的 deepresearch 的玩法!
這個框架,不僅在PhD級別的科學推理測試(GPQA)上超越了現有的RAG系統和閉源大模型, 而且在金融、醫療和法律等領域的深度研究任務中,擊敗了谷歌的Gemini Deep Research!
為什么能做到這一點?
普通的推理模型只能依賴自身知識,或者聯網的上下文知識,進行長時間思考推理,最后做出回應。而推理模型的思考過程,如果能調用工具來輔助推理,那必須是事半功倍。
Agentic Reasoning來了,它模仿了人解決復雜問題的方式。 通過互聯網收集信息、用計算工具進行定量分析、在白板上組織思路。
所以他們定制了3個核心智能體:
- Web搜索智能體:負責從互聯網獲取信息
- 代碼智能體:使用Python進行計算分析
- "思維導圖"記憶智能體:構建基于推理上下文的知識圖譜 (trick,后面細說)
對復雜問題的工具調用推理過程,本身可以很好的跟推理大模型的思考過程融合到一起!
推理大模型進行正常的推理,根據任務需求自行實時決定是否需要其他信息。(生成相應的token即可,工具調用完成,可以把結果整合回推理鏈中)。
經過過長的思維鏈+外部知識(web,code),思維鏈可能會變得很混亂,所以這個框架引入了一個MindMap智能體。這個智能體可以將原始的推理鏈轉換為一個結構化的知識圖譜(這個工作直接把graphrag搬過來了,實體抽取->構建社區->抽象社區摘要)。
一些發現!
分工的重要性
讓不同的LLM專注于各自擅長的任務(如DeepSeek-R1負責推理,Claude-Sonnet負責編程),能顯著提升整體表現。
少即是多
僅使用少量智能體工具反而能獲得最佳效果。增加更多工具反而會增加選擇錯誤的風險。
工具使用與準確性
對單個問題而言,使用更多工具通常能帶來更好的推理結果。但是如果跨問題都需要頻繁調用工具,可能意味著初始推理軌跡存在缺陷。
項目開源地址:https://github.com/theworldofagents/Agentic-Reasoning
框架的表現,在幾個領域大幅超越 Google DeepResearch效果。甚至超越了各個領域的人類專家。在一些需要20分鐘以上的深度研究問題上,也表現優異。
本文轉載自 ??探索AGI??,作者: 獼猴桃
