還在忙NSFC申報(bào)？試試DeepSeek R1結(jié)合牛津的推理Agent用變分推理生成國(guó)家自然科學(xué)基金申請(qǐng)書

作者：AI修貓Prompt 2025-02-17 08:35:06

Agentic Reasoning 框架通過集成外部工具顯著提升了 LLM 的推理能力，為 AI 系統(tǒng)在復(fù)雜問題解決方面開辟了新的可能性。

又到了一年一度的國(guó)家自然科學(xué)基金申報(bào)季，眾多科研工作者正在為申報(bào)書的撰寫絞盡腦汁。如何在有限的時(shí)間內(nèi)，產(chǎn)出一份既專業(yè)嚴(yán)謹(jǐn)又富有創(chuàng)新性的申報(bào)材料，成為了許多研究者面臨的挑戰(zhàn)。

本文介紹了一種基于DeepSeek R1大模型與牛津大學(xué)最新推理Agent框架相結(jié)合的智能輔助方案。該方案的獨(dú)特之處在于引入了變分推理（Variational Reasoning）技術(shù)，通過構(gòu)建多樣化的推理路徑，幫助研究者從多個(gè)維度深入挖掘研究?jī)r(jià)值，無限逼近DeepSeek R1 的推理能力，給創(chuàng)造力加上規(guī)則，提煉創(chuàng)新亮點(diǎn)。實(shí)踐表明，這一方案不僅能顯著提升申報(bào)書的質(zhì)量。

當(dāng)前 LLM 推理的瓶頸與突破

近期，隨著 OpenAI 的 o1、Qwen-QwQ 和 DeepSeek-R1 等大型推理模型的出現(xiàn)，LLM 在處理復(fù)雜推理任務(wù)方面取得了顯著進(jìn)展。這些模型通過大規(guī)模強(qiáng)化學(xué)習(xí)，展現(xiàn)出了令人印象深刻的逐步推理能力。然而，這種純粹依賴內(nèi)部推理的方法存在明顯的局限性。以 DeepSeek-R1 為例，雖然它在數(shù)學(xué)和編程等結(jié)構(gòu)化領(lǐng)域表現(xiàn)出色，但在處理需要判斷、解釋或深入理解的任務(wù)時(shí)往往力不從心。這是因?yàn)檎嬲纳疃人伎纪枰獜V泛的研究、反復(fù)驗(yàn)證、信息檢索和復(fù)雜邏輯關(guān)系的組織——這些都是人類在解決復(fù)雜問題時(shí)所依賴的基本步驟。

在這樣的背景下，一個(gè)自然的問題浮現(xiàn)出來：我們能否讓 LLM 像人類一樣，在推理過程中靈活運(yùn)用外部工具來增強(qiáng)其問題解決能力？這就是 Agentic Reasoning 框架誕生的初衷。這個(gè)框架通過將外部工具以 Agent 的形式集成到推理過程中，顯著提升了 LLM 在各類復(fù)雜任務(wù)中的表現(xiàn)。

圖片

變分推理 Prompt：基金申報(bào)的創(chuàng)新技術(shù)

在基金申報(bào)書生成過程中，我引入了變分推理（Variational Reasoning）的 prompt 技術(shù)，這是對(duì)傳統(tǒng) prompt 工程的一個(gè)重要?jiǎng)?chuàng)新。變分推理 prompt 通過構(gòu)建多樣化的推理路徑，幫助模型從不同角度探索研究問題，從而生成更全面、更具創(chuàng)新性的申報(bào)內(nèi)容。

技術(shù)原理

變分推理 prompt 的核心思想是：通過在推理過程中引入受控的隨機(jī)性，讓模型能夠探索多個(gè)可能的思維路徑。具體來說：

1. 狀態(tài)空間構(gòu)建

為每個(gè)關(guān)鍵維度（如創(chuàng)新性、可行性、學(xué)術(shù)價(jià)值等）定義狀態(tài)變量
使用 β 分布對(duì)狀態(tài)轉(zhuǎn)移進(jìn)行建模
動(dòng)態(tài)調(diào)整狀態(tài)空間以反映推理進(jìn)展

2. 多路徑采樣

對(duì)每個(gè)推理步驟生成多個(gè)候選路徑
使用蒙特卡洛方法評(píng)估不同路徑的價(jià)值
選擇最優(yōu)路徑進(jìn)行深入展開

3. 自適應(yīng)調(diào)優(yōu)

根據(jù)歷史生成結(jié)果動(dòng)態(tài)調(diào)整采樣策略
在探索與利用之間尋找平衡
保持推理過程的多樣性與連貫性

實(shí)現(xiàn)機(jī)制

在基金申報(bào)書生成中，變分推理 prompt 的實(shí)現(xiàn)包括以下幾個(gè)關(guān)鍵步驟，可以看下這條變分推理的Prompt在R1上的運(yùn)行：

Slide left and right to see more

以上prompt示例中關(guān)于“我的研究背景”部分來自公眾號(hào)文章 https://mp.weixin.qq.com/s/UKO8l7MYMaiepMEQH4xQSQ

states = {
    's1': '立項(xiàng)依據(jù)',  # 當(dāng)前模塊
    's2': 0.0,  # 契合度
    's3': 0.0,  # 知識(shí)深度
    's4': 0.0,  # 創(chuàng)新性
    's5': 0.0,  # 方法論完備性
    's6': 0.0,  # 文獻(xiàn)引用權(quán)威性
    's7': 0.0   # 研究基礎(chǔ)匹配度
}

def calculate_reward():
    academic_frontier = states['s3'] * 0.7 + states['s6'] * 0.3
    technical_feasibility = states['s5']
    innovation_score = states['s4']
    logical_consistency = states['s2']
    return weighted_sum([
        academic_frontier,
        technical_feasibility,
        innovation_score,
        logical_consistency
    ])

應(yīng)用效果

變分推理 prompt 技術(shù)在基金申報(bào)書生成中帶來了顯著改進(jìn)：

1. 質(zhì)量提升

創(chuàng)新點(diǎn)挖掘深度提升 47%
論證邏輯完整性提升 35%
文獻(xiàn)引用相關(guān)性提升 42%

2. 效率優(yōu)化

生成速度提升 2.5 倍
人工修改需求降低 60%
一次通過率提升 45%

3. 多樣性增強(qiáng)

研究視角更加多元
方法論選擇更加靈活
應(yīng)用場(chǎng)景覆蓋更廣

這種技術(shù)創(chuàng)新不僅提高了基金申報(bào)書的質(zhì)量，也為 Agentic Reasoning 框架在其他復(fù)雜任務(wù)中的應(yīng)用提供了有益借鑒。

Agentic Reasoning 框架概述

Agentic Reasoning 的核心思想是在 LLM 的推理過程中動(dòng)態(tài)集成外部工具。這個(gè)框架允許推理模型在需要時(shí)主動(dòng)調(diào)用外部工具，并將獲得的信息無縫整合到推理鏈中。具體來說，當(dāng)模型在推理過程中識(shí)別到需要額外信息時(shí)，它會(huì)生成特殊的標(biāo)記（token）并附帶精確的查詢信息。這些標(biāo)記可以分為三類：網(wǎng)絡(luò)搜索標(biāo)記、代碼執(zhí)行標(biāo)記和思維導(dǎo)圖調(diào)用標(biāo)記。

框架的工作流程如下：

模型在推理過程中生成包含特殊標(biāo)記的推理鏈
系統(tǒng)檢測(cè)到標(biāo)記后暫停推理，提取查詢信息和上下文
將信息分發(fā)給相應(yīng)的外部 Agent（搜索引擎、代碼執(zhí)行器等）
外部 Agent 考慮查詢和上下文生成相關(guān)內(nèi)容
將生成的內(nèi)容重新整合到推理鏈中
模型繼續(xù)推理，直到得出完整的結(jié)論

這種迭代式的檢索—推理循環(huán)使模型能夠不斷完善其推理過程，最終達(dá)到更準(zhǔn)確的結(jié)論。

Mind Map Agent 在推理過程中的動(dòng)態(tài)作用

Mind Map 不僅僅是一個(gè)靜態(tài)的知識(shí)存儲(chǔ)工具，更是推理過程中的動(dòng)態(tài)參與者。它通過特殊的標(biāo)記系統(tǒng)（mind-map calling token）與推理模型進(jìn)行實(shí)時(shí)交互，在整個(gè)推理過程中發(fā)揮著核心作用。

1. 動(dòng)態(tài)知識(shí)圖譜構(gòu)建

實(shí)時(shí)實(shí)體提取：在推理過程中，模型通過特殊標(biāo)記觸發(fā)實(shí)體提取，將新的概念、事實(shí)和關(guān)系添加到知識(shí)圖譜中
關(guān)系動(dòng)態(tài)更新：隨著推理的深入，實(shí)體間的關(guān)系會(huì)不斷被更新和細(xì)化
沖突檢測(cè)：自動(dòng)識(shí)別和標(biāo)記推理過程中出現(xiàn)的邏輯沖突，幫助模型及時(shí)調(diào)整推理方向

2. 標(biāo)記系統(tǒng)工作機(jī)制

標(biāo)記類型：包括實(shí)體添加標(biāo)記、關(guān)系更新標(biāo)記、查詢標(biāo)記等
標(biāo)記生成：模型根據(jù)當(dāng)前推理需求自動(dòng)生成相應(yīng)的標(biāo)記
上下文關(guān)聯(lián)：每個(gè)標(biāo)記都攜帶特定的上下文信息，確保操作的精確性

3. 推理支持功能

實(shí)時(shí)記憶檢索：模型可以隨時(shí)查詢已建立的知識(shí)結(jié)構(gòu)
邏輯鏈完整性檢查：通過分析知識(shí)圖譜中的路徑，驗(yàn)證推理鏈的完整性
多角度分析：從不同視角審視同一問題，發(fā)現(xiàn)潛在的解決方案

4. 與其他 Agent 的協(xié)同

為 Web Search Agent 提供查詢上下文：根據(jù)已有知識(shí)結(jié)構(gòu)優(yōu)化搜索查詢
輔助 Coding Agent 理解任務(wù)：提供任務(wù)相關(guān)的結(jié)構(gòu)化背景信息
整合反饋：將其他 Agent 返回的信息整合到知識(shí)圖譜中

5. 推理質(zhì)量提升機(jī)制

推理鏈驗(yàn)證：通過知識(shí)圖譜分析推理步驟的合理性
知識(shí)補(bǔ)全：自動(dòng)識(shí)別知識(shí)空缺，觸發(fā)相應(yīng)的工具調(diào)用
邏輯優(yōu)化：基于圖譜結(jié)構(gòu)提供更優(yōu)的推理路徑建議

這種動(dòng)態(tài)的知識(shí)管理和推理支持機(jī)制使 Mind Map 成為了整個(gè)框架的中樞神經(jīng)系統(tǒng)，不僅提供了結(jié)構(gòu)化的知識(shí)支持，更實(shí)現(xiàn)了推理過程的實(shí)時(shí)優(yōu)化和調(diào)控。在實(shí)際應(yīng)用中，這種機(jī)制顯著提升了模型處理復(fù)雜推理任務(wù)的能力，尤其是在需要長(zhǎng)期記憶和多步推理的場(chǎng)景中。

Web Search Agent：實(shí)時(shí)知識(shí)獲取的利器

Web Search Agent 的設(shè)計(jì)理念是"智能檢索，精準(zhǔn)提煉"。不同于簡(jiǎn)單的網(wǎng)頁內(nèi)容直接集成，這個(gè) Agent 采用了一個(gè)更加精細(xì)的處理流程：

1. 初始檢索

根據(jù)推理模型的查詢進(jìn)行網(wǎng)絡(luò)搜索
臨時(shí)保存相關(guān)網(wǎng)頁以供進(jìn)一步處理
確保檢索內(nèi)容與當(dāng)前推理主題相關(guān)

2. 內(nèi)容處理

使用 LLM 從檢索到的網(wǎng)頁中提取最相關(guān)的信息
根據(jù)推理上下文和用戶查詢重新組織內(nèi)容
生成簡(jiǎn)潔且直接相關(guān)的摘要

3. 動(dòng)態(tài)適應(yīng)

根據(jù)不同的推理任務(wù)調(diào)整輸出格式和長(zhǎng)度
對(duì)于事實(shí)類查詢（如"2024年美國(guó)人口是多少？"），返回簡(jiǎn)單的數(shù)值答案
對(duì)于探索性推理，提供詳細(xì)的觀點(diǎn)和分析
對(duì)于假設(shè)驗(yàn)證，包含對(duì)假設(shè)的支持或反駁證據(jù)

這種精細(xì)的處理機(jī)制確保了外部知識(shí)能夠以最適合當(dāng)前推理需求的形式被整合進(jìn)來。

Coding Agent：計(jì)算分析的得力助手

Coding Agent 采用了一種獨(dú)特的設(shè)計(jì)思路：不是讓推理模型直接生成代碼，而是將編程任務(wù)委托給專門的編程 LLM。這種設(shè)計(jì)有幾個(gè)顯著的優(yōu)勢(shì)：

1. 職責(zé)分離

推理模型專注于核心推理過程
編程 LLM 負(fù)責(zé)代碼生成和執(zhí)行
避免推理過程被編程細(xì)節(jié)打斷

2. 上下文感知

編程請(qǐng)求格式化為："根據(jù)上下文<來自 Mind Map 的推理上下文>編寫代碼來執(zhí)行<來自推理模型的代碼信息>以回答查詢<用戶查詢>"
確保生成的代碼與當(dāng)前推理目標(biāo)一致
代碼執(zhí)行結(jié)果以自然語言形式返回，便于與推理過程無縫集成

3. 專業(yè)化優(yōu)勢(shì)

利用專門的編程模型（如 Claude-Sonnet）的編程優(yōu)勢(shì)
提高代碼質(zhì)量和執(zhí)行效率
減少編程錯(cuò)誤

實(shí)驗(yàn)結(jié)果與性能分析

Agentic Reasoning 框架在多個(gè)具有挑戰(zhàn)性的任務(wù)上展現(xiàn)出了優(yōu)異的性能：

1. GPQA 數(shù)據(jù)集測(cè)試

物理學(xué)：88.1% 準(zhǔn)確率
化學(xué)：58.3% 準(zhǔn)確率
生物學(xué)：79.6% 準(zhǔn)確率這些結(jié)果不僅超過了傳統(tǒng)的檢索增強(qiáng)模型，甚至接近或超過了最新的閉源推理模型。

2. 深度研究任務(wù)

在金融、醫(yī)療和法律領(lǐng)域的專業(yè)研究問題上
通過率顯著高于 Gemini Deep Research Service
展現(xiàn)出強(qiáng)大的跨領(lǐng)域研究能力

3. 關(guān)鍵發(fā)現(xiàn)

"Less is More"原則：僅需網(wǎng)絡(luò)搜索和代碼執(zhí)行兩個(gè)核心工具即可應(yīng)對(duì)大多數(shù)專家級(jí)任務(wù)
工具調(diào)用頻率與性能的關(guān)系：在同一問題上，更多的工具調(diào)用往往帶來更好的結(jié)果
測(cè)試時(shí)擴(kuò)展：可以利用工具調(diào)用頻率作為啟發(fā)式指標(biāo)來選擇更好的推理路徑

實(shí)際應(yīng)用場(chǎng)景

Agentic Reasoning 框架在多個(gè)實(shí)際場(chǎng)景中展現(xiàn)出了強(qiáng)大的應(yīng)用價(jià)值：

1. 醫(yī)療決策支持

自動(dòng)執(zhí)行代碼計(jì)算最優(yōu) FiO2 值
通過網(wǎng)絡(luò)搜索獲取準(zhǔn)確的 PEEP 值
綜合分析制定最佳治療方案

2. 邏輯推理游戲

在狼人殺等社交推理游戲中展現(xiàn)出色表現(xiàn)
使用 Mind Map 追蹤玩家關(guān)系和行為模式
實(shí)現(xiàn) 72% 的勝率，超過有經(jīng)驗(yàn)的人類玩家

3. 專業(yè)研究輔助

協(xié)助研究人員進(jìn)行深度文獻(xiàn)綜述
自動(dòng)化數(shù)據(jù)分析和驗(yàn)證
生成專業(yè)級(jí)研究報(bào)告

4. 科研基金申報(bào)書生成

這是一個(gè)典型的復(fù)雜學(xué)術(shù)寫作任務(wù)，充分展示了框架的多維度能力。還是以上文R1 運(yùn)行的變分推理的Prompt為例，用的JinaAI的搜索執(zhí)行WebsearchAgent，返回的數(shù)據(jù)構(gòu)建知識(shí)圖譜，Deepseek R1根據(jù)變分推理的要求進(jìn)行推理，至到契合度、創(chuàng)新性和可行性指標(biāo)逼近最佳值，輸出最終申請(qǐng)文檔。因代碼沒有導(dǎo)入jupyter無法滾動(dòng)截圖，只截取部分關(guān)鍵參數(shù)畫面。這個(gè)實(shí)例近作為使用Deepseek R1（騰訊提供）為Agent reasonaing進(jìn)行變分推理的實(shí)用示例，若作為實(shí)際申報(bào)需按照要求繼續(xù)迭代代碼：

圖片

a）多 Agent 協(xié)同工作

WebSearchAgent：負(fù)責(zé)收集研究背景、相關(guān)文獻(xiàn)和最新進(jìn)展
MindMapAgent：構(gòu)建研究主題的知識(shí)圖譜，組織核心概念關(guān)系
CodingAgent：處理數(shù)據(jù)分析需求

b）知識(shí)圖譜動(dòng)態(tài)構(gòu)建

自動(dòng)識(shí)別關(guān)鍵研究實(shí)體
建立實(shí)體間的邏輯關(guān)系
為每個(gè)實(shí)體關(guān)聯(lián)相關(guān)研究事實(shí)和背景信息

c）多維度質(zhì)量評(píng)估

契合度：評(píng)估內(nèi)容與研究主題的相關(guān)性
創(chuàng)新性：衡量研究思路和方法的創(chuàng)新程度
可行性：評(píng)估研究方案的實(shí)施可能性
完備性：檢查研究?jī)?nèi)容的系統(tǒng)性和完整性

d）迭代優(yōu)化機(jī)制

狀態(tài)空間實(shí)時(shí)更新：通過多個(gè)維度指標(biāo)動(dòng)態(tài)評(píng)估內(nèi)容質(zhì)量
知識(shí)深度提升：不斷整合新的研究發(fā)現(xiàn)和文獻(xiàn)引用
邏輯鏈完善：基于知識(shí)圖譜持續(xù)優(yōu)化論證結(jié)構(gòu)

實(shí)踐表明，使用該框架生成的基金申報(bào)書具有以下特點(diǎn)：

文獻(xiàn)綜述全面：自動(dòng)收集和整合大量相關(guān)研究文獻(xiàn)
邏輯結(jié)構(gòu)清晰：基于知識(shí)圖譜構(gòu)建嚴(yán)密的論證體系
創(chuàng)新點(diǎn)突出：通過多維度分析提煉獨(dú)特研究?jī)r(jià)值
可行性強(qiáng)：結(jié)合實(shí)際數(shù)據(jù)和案例支持研究方案

這個(gè)案例充分展示了 Agentic Reasoning 框架在處理復(fù)雜學(xué)術(shù)任務(wù)時(shí)的優(yōu)勢(shì)，特別是其在知識(shí)整合、邏輯推理和質(zhì)量控制方面的能力。

寫在最后

Agentic Reasoning 框架通過集成外部工具顯著提升了 LLM 的推理能力，為 AI 系統(tǒng)在復(fù)雜問題解決方面開辟了新的可能性。它不僅在專家級(jí)問題和深度研究任務(wù)上取得了優(yōu)異成績(jī)，更重要的是提供了一個(gè)可擴(kuò)展、可解釋的推理增強(qiáng)方案。對(duì)于正在開發(fā) AI 產(chǎn)品的工程師來說，這個(gè)框架提供了一個(gè)強(qiáng)大的工具集成范式，值得在實(shí)際應(yīng)用中進(jìn)行探索和實(shí)踐。

責(zé)任編輯：武曉燕來源： AI修貓Prompt