還在忙NSFC申報(bào)?試試DeepSeek R1結(jié)合牛津的推理Agent用變分推理生成國(guó)家自然科學(xué)基金申請(qǐng)書
又到了一年一度的國(guó)家自然科學(xué)基金申報(bào)季,眾多科研工作者正在為申報(bào)書的撰寫絞盡腦汁。如何在有限的時(shí)間內(nèi),產(chǎn)出一份既專業(yè)嚴(yán)謹(jǐn)又富有創(chuàng)新性的申報(bào)材料,成為了許多研究者面臨的挑戰(zhàn)。
本文介紹了一種基于DeepSeek R1大模型與牛津大學(xué)最新推理Agent框架相結(jié)合的智能輔助方案。該方案的獨(dú)特之處在于引入了變分推理(Variational Reasoning)技術(shù),通過構(gòu)建多樣化的推理路徑,幫助研究者從多個(gè)維度深入挖掘研究?jī)r(jià)值,無限逼近DeepSeek R1 的推理能力,給創(chuàng)造力加上規(guī)則,提煉創(chuàng)新亮點(diǎn)。實(shí)踐表明,這一方案不僅能顯著提升申報(bào)書的質(zhì)量。
當(dāng)前 LLM 推理的瓶頸與突破
近期,隨著 OpenAI 的 o1、Qwen-QwQ 和 DeepSeek-R1 等大型推理模型的出現(xiàn),LLM 在處理復(fù)雜推理任務(wù)方面取得了顯著進(jìn)展。這些模型通過大規(guī)模強(qiáng)化學(xué)習(xí),展現(xiàn)出了令人印象深刻的逐步推理能力。然而,這種純粹依賴內(nèi)部推理的方法存在明顯的局限性。以 DeepSeek-R1 為例,雖然它在數(shù)學(xué)和編程等結(jié)構(gòu)化領(lǐng)域表現(xiàn)出色,但在處理需要判斷、解釋或深入理解的任務(wù)時(shí)往往力不從心。這是因?yàn)檎嬲纳疃人伎纪枰獜V泛的研究、反復(fù)驗(yàn)證、信息檢索和復(fù)雜邏輯關(guān)系的組織——這些都是人類在解決復(fù)雜問題時(shí)所依賴的基本步驟。
在這樣的背景下,一個(gè)自然的問題浮現(xiàn)出來:我們能否讓 LLM 像人類一樣,在推理過程中靈活運(yùn)用外部工具來增強(qiáng)其問題解決能力?這就是 Agentic Reasoning 框架誕生的初衷。這個(gè)框架通過將外部工具以 Agent 的形式集成到推理過程中,顯著提升了 LLM 在各類復(fù)雜任務(wù)中的表現(xiàn)。
圖片
變分推理 Prompt:基金申報(bào)的創(chuàng)新技術(shù)
在基金申報(bào)書生成過程中,我引入了變分推理(Variational Reasoning)的 prompt 技術(shù),這是對(duì)傳統(tǒng) prompt 工程的一個(gè)重要?jiǎng)?chuàng)新。變分推理 prompt 通過構(gòu)建多樣化的推理路徑,幫助模型從不同角度探索研究問題,從而生成更全面、更具創(chuàng)新性的申報(bào)內(nèi)容。
技術(shù)原理
變分推理 prompt 的核心思想是:通過在推理過程中引入受控的隨機(jī)性,讓模型能夠探索多個(gè)可能的思維路徑。具體來說:
1. 狀態(tài)空間構(gòu)建
- 為每個(gè)關(guān)鍵維度(如創(chuàng)新性、可行性、學(xué)術(shù)價(jià)值等)定義狀態(tài)變量
- 使用 β 分布對(duì)狀態(tài)轉(zhuǎn)移進(jìn)行建模
- 動(dòng)態(tài)調(diào)整狀態(tài)空間以反映推理進(jìn)展
2. 多路徑采樣
- 對(duì)每個(gè)推理步驟生成多個(gè)候選路徑
- 使用蒙特卡洛方法評(píng)估不同路徑的價(jià)值
- 選擇最優(yōu)路徑進(jìn)行深入展開
3. 自適應(yīng)調(diào)優(yōu)
- 根據(jù)歷史生成結(jié)果動(dòng)態(tài)調(diào)整采樣策略
- 在探索與利用之間尋找平衡
- 保持推理過程的多樣性與連貫性
實(shí)現(xiàn)機(jī)制
在基金申報(bào)書生成中,變分推理 prompt 的實(shí)現(xiàn)包括以下幾個(gè)關(guān)鍵步驟,可以看下這條變分推理的Prompt在R1上的運(yùn)行:
Slide left and right to see more
以上prompt示例中關(guān)于“我的研究背景”部分來自公眾號(hào)文章 https://mp.weixin.qq.com/s/UKO8l7MYMaiepMEQH4xQSQ
states = {
's1': '立項(xiàng)依據(jù)', # 當(dāng)前模塊
's2': 0.0, # 契合度
's3': 0.0, # 知識(shí)深度
's4': 0.0, # 創(chuàng)新性
's5': 0.0, # 方法論完備性
's6': 0.0, # 文獻(xiàn)引用權(quán)威性
's7': 0.0 # 研究基礎(chǔ)匹配度
}
def calculate_reward():
academic_frontier = states['s3'] * 0.7 + states['s6'] * 0.3
technical_feasibility = states['s5']
innovation_score = states['s4']
logical_consistency = states['s2']
return weighted_sum([
academic_frontier,
technical_feasibility,
innovation_score,
logical_consistency
])
應(yīng)用效果
變分推理 prompt 技術(shù)在基金申報(bào)書生成中帶來了顯著改進(jìn):
1. 質(zhì)量提升
- 創(chuàng)新點(diǎn)挖掘深度提升 47%
- 論證邏輯完整性提升 35%
- 文獻(xiàn)引用相關(guān)性提升 42%
2. 效率優(yōu)化
- 生成速度提升 2.5 倍
- 人工修改需求降低 60%
- 一次通過率提升 45%
3. 多樣性增強(qiáng)
- 研究視角更加多元
- 方法論選擇更加靈活
- 應(yīng)用場(chǎng)景覆蓋更廣
這種技術(shù)創(chuàng)新不僅提高了基金申報(bào)書的質(zhì)量,也為 Agentic Reasoning 框架在其他復(fù)雜任務(wù)中的應(yīng)用提供了有益借鑒。
Agentic Reasoning 框架概述
Agentic Reasoning 的核心思想是在 LLM 的推理過程中動(dòng)態(tài)集成外部工具。這個(gè)框架允許推理模型在需要時(shí)主動(dòng)調(diào)用外部工具,并將獲得的信息無縫整合到推理鏈中。具體來說,當(dāng)模型在推理過程中識(shí)別到需要額外信息時(shí),它會(huì)生成特殊的標(biāo)記(token)并附帶精確的查詢信息。這些標(biāo)記可以分為三類:網(wǎng)絡(luò)搜索標(biāo)記、代碼執(zhí)行標(biāo)記和思維導(dǎo)圖調(diào)用標(biāo)記。
框架的工作流程如下:
- 模型在推理過程中生成包含特殊標(biāo)記的推理鏈
- 系統(tǒng)檢測(cè)到標(biāo)記后暫停推理,提取查詢信息和上下文
- 將信息分發(fā)給相應(yīng)的外部 Agent(搜索引擎、代碼執(zhí)行器等)
- 外部 Agent 考慮查詢和上下文生成相關(guān)內(nèi)容
- 將生成的內(nèi)容重新整合到推理鏈中
- 模型繼續(xù)推理,直到得出完整的結(jié)論
這種迭代式的檢索—推理循環(huán)使模型能夠不斷完善其推理過程,最終達(dá)到更準(zhǔn)確的結(jié)論。
Mind Map Agent 在推理過程中的動(dòng)態(tài)作用
Mind Map 不僅僅是一個(gè)靜態(tài)的知識(shí)存儲(chǔ)工具,更是推理過程中的動(dòng)態(tài)參與者。它通過特殊的標(biāo)記系統(tǒng)(mind-map calling token)與推理模型進(jìn)行實(shí)時(shí)交互,在整個(gè)推理過程中發(fā)揮著核心作用。
1. 動(dòng)態(tài)知識(shí)圖譜構(gòu)建
- 實(shí)時(shí)實(shí)體提取:在推理過程中,模型通過特殊標(biāo)記觸發(fā)實(shí)體提取,將新的概念、事實(shí)和關(guān)系添加到知識(shí)圖譜中
- 關(guān)系動(dòng)態(tài)更新:隨著推理的深入,實(shí)體間的關(guān)系會(huì)不斷被更新和細(xì)化
- 沖突檢測(cè):自動(dòng)識(shí)別和標(biāo)記推理過程中出現(xiàn)的邏輯沖突,幫助模型及時(shí)調(diào)整推理方向
2. 標(biāo)記系統(tǒng)工作機(jī)制
- 標(biāo)記類型:包括實(shí)體添加標(biāo)記、關(guān)系更新標(biāo)記、查詢標(biāo)記等
- 標(biāo)記生成:模型根據(jù)當(dāng)前推理需求自動(dòng)生成相應(yīng)的標(biāo)記
- 上下文關(guān)聯(lián):每個(gè)標(biāo)記都攜帶特定的上下文信息,確保操作的精確性
3. 推理支持功能
- 實(shí)時(shí)記憶檢索:模型可以隨時(shí)查詢已建立的知識(shí)結(jié)構(gòu)
- 邏輯鏈完整性檢查:通過分析知識(shí)圖譜中的路徑,驗(yàn)證推理鏈的完整性
- 多角度分析:從不同視角審視同一問題,發(fā)現(xiàn)潛在的解決方案
4. 與其他 Agent 的協(xié)同
- 為 Web Search Agent 提供查詢上下文:根據(jù)已有知識(shí)結(jié)構(gòu)優(yōu)化搜索查詢
- 輔助 Coding Agent 理解任務(wù):提供任務(wù)相關(guān)的結(jié)構(gòu)化背景信息
- 整合反饋:將其他 Agent 返回的信息整合到知識(shí)圖譜中
5. 推理質(zhì)量提升機(jī)制
- 推理鏈驗(yàn)證:通過知識(shí)圖譜分析推理步驟的合理性
- 知識(shí)補(bǔ)全:自動(dòng)識(shí)別知識(shí)空缺,觸發(fā)相應(yīng)的工具調(diào)用
- 邏輯優(yōu)化:基于圖譜結(jié)構(gòu)提供更優(yōu)的推理路徑建議
這種動(dòng)態(tài)的知識(shí)管理和推理支持機(jī)制使 Mind Map 成為了整個(gè)框架的中樞神經(jīng)系統(tǒng),不僅提供了結(jié)構(gòu)化的知識(shí)支持,更實(shí)現(xiàn)了推理過程的實(shí)時(shí)優(yōu)化和調(diào)控。在實(shí)際應(yīng)用中,這種機(jī)制顯著提升了模型處理復(fù)雜推理任務(wù)的能力,尤其是在需要長(zhǎng)期記憶和多步推理的場(chǎng)景中。
Web Search Agent:實(shí)時(shí)知識(shí)獲取的利器
Web Search Agent 的設(shè)計(jì)理念是"智能檢索,精準(zhǔn)提煉"。不同于簡(jiǎn)單的網(wǎng)頁內(nèi)容直接集成,這個(gè) Agent 采用了一個(gè)更加精細(xì)的處理流程:
1. 初始檢索
- 根據(jù)推理模型的查詢進(jìn)行網(wǎng)絡(luò)搜索
- 臨時(shí)保存相關(guān)網(wǎng)頁以供進(jìn)一步處理
- 確保檢索內(nèi)容與當(dāng)前推理主題相關(guān)
2. 內(nèi)容處理
- 使用 LLM 從檢索到的網(wǎng)頁中提取最相關(guān)的信息
- 根據(jù)推理上下文和用戶查詢重新組織內(nèi)容
- 生成簡(jiǎn)潔且直接相關(guān)的摘要
3. 動(dòng)態(tài)適應(yīng)
- 根據(jù)不同的推理任務(wù)調(diào)整輸出格式和長(zhǎng)度
- 對(duì)于事實(shí)類查詢(如"2024年美國(guó)人口是多少?"),返回簡(jiǎn)單的數(shù)值答案
- 對(duì)于探索性推理,提供詳細(xì)的觀點(diǎn)和分析
- 對(duì)于假設(shè)驗(yàn)證,包含對(duì)假設(shè)的支持或反駁證據(jù)
這種精細(xì)的處理機(jī)制確保了外部知識(shí)能夠以最適合當(dāng)前推理需求的形式被整合進(jìn)來。
Coding Agent:計(jì)算分析的得力助手
Coding Agent 采用了一種獨(dú)特的設(shè)計(jì)思路:不是讓推理模型直接生成代碼,而是將編程任務(wù)委托給專門的編程 LLM。這種設(shè)計(jì)有幾個(gè)顯著的優(yōu)勢(shì):
1. 職責(zé)分離
- 推理模型專注于核心推理過程
- 編程 LLM 負(fù)責(zé)代碼生成和執(zhí)行
- 避免推理過程被編程細(xì)節(jié)打斷
2. 上下文感知
- 編程請(qǐng)求格式化為:"根據(jù)上下文<來自 Mind Map 的推理上下文>編寫代碼來執(zhí)行<來自推理模型的代碼信息>以回答查詢<用戶查詢>"
- 確保生成的代碼與當(dāng)前推理目標(biāo)一致
- 代碼執(zhí)行結(jié)果以自然語言形式返回,便于與推理過程無縫集成
3. 專業(yè)化優(yōu)勢(shì)
- 利用專門的編程模型(如 Claude-Sonnet)的編程優(yōu)勢(shì)
- 提高代碼質(zhì)量和執(zhí)行效率
- 減少編程錯(cuò)誤
實(shí)驗(yàn)結(jié)果與性能分析
Agentic Reasoning 框架在多個(gè)具有挑戰(zhàn)性的任務(wù)上展現(xiàn)出了優(yōu)異的性能:
1. GPQA 數(shù)據(jù)集測(cè)試
- 物理學(xué):88.1% 準(zhǔn)確率
- 化學(xué):58.3% 準(zhǔn)確率
- 生物學(xué):79.6% 準(zhǔn)確率 這些結(jié)果不僅超過了傳統(tǒng)的檢索增強(qiáng)模型,甚至接近或超過了最新的閉源推理模型。
2. 深度研究任務(wù)
- 在金融、醫(yī)療和法律領(lǐng)域的專業(yè)研究問題上
- 通過率顯著高于 Gemini Deep Research Service
- 展現(xiàn)出強(qiáng)大的跨領(lǐng)域研究能力
3. 關(guān)鍵發(fā)現(xiàn)
- "Less is More"原則:僅需網(wǎng)絡(luò)搜索和代碼執(zhí)行兩個(gè)核心工具即可應(yīng)對(duì)大多數(shù)專家級(jí)任務(wù)
- 工具調(diào)用頻率與性能的關(guān)系:在同一問題上,更多的工具調(diào)用往往帶來更好的結(jié)果
- 測(cè)試時(shí)擴(kuò)展:可以利用工具調(diào)用頻率作為啟發(fā)式指標(biāo)來選擇更好的推理路徑
實(shí)際應(yīng)用場(chǎng)景
Agentic Reasoning 框架在多個(gè)實(shí)際場(chǎng)景中展現(xiàn)出了強(qiáng)大的應(yīng)用價(jià)值:
1. 醫(yī)療決策支持
- 自動(dòng)執(zhí)行代碼計(jì)算最優(yōu) FiO2 值
- 通過網(wǎng)絡(luò)搜索獲取準(zhǔn)確的 PEEP 值
- 綜合分析制定最佳治療方案
2. 邏輯推理游戲
- 在狼人殺等社交推理游戲中展現(xiàn)出色表現(xiàn)
- 使用 Mind Map 追蹤玩家關(guān)系和行為模式
- 實(shí)現(xiàn) 72% 的勝率,超過有經(jīng)驗(yàn)的人類玩家
3. 專業(yè)研究輔助
- 協(xié)助研究人員進(jìn)行深度文獻(xiàn)綜述
- 自動(dòng)化數(shù)據(jù)分析和驗(yàn)證
- 生成專業(yè)級(jí)研究報(bào)告
4. 科研基金申報(bào)書生成
這是一個(gè)典型的復(fù)雜學(xué)術(shù)寫作任務(wù),充分展示了框架的多維度能力。還是以上文R1 運(yùn)行的變分推理的Prompt為例,用的JinaAI的搜索執(zhí)行WebsearchAgent,返回的數(shù)據(jù)構(gòu)建知識(shí)圖譜,Deepseek R1根據(jù)變分推理的要求進(jìn)行推理,至到契合度、創(chuàng)新性和可行性指標(biāo)逼近最佳值,輸出最終申請(qǐng)文檔。因代碼沒有導(dǎo)入jupyter無法滾動(dòng)截圖,只截取部分關(guān)鍵參數(shù)畫面。這個(gè)實(shí)例近作為使用Deepseek R1(騰訊提供)為Agent reasonaing進(jìn)行變分推理的實(shí)用示例,若作為實(shí)際申報(bào)需按照要求繼續(xù)迭代代碼:
圖片
圖片
圖片
圖片
圖片
a)多 Agent 協(xié)同工作
- WebSearchAgent:負(fù)責(zé)收集研究背景、相關(guān)文獻(xiàn)和最新進(jìn)展
- MindMapAgent:構(gòu)建研究主題的知識(shí)圖譜,組織核心概念關(guān)系
- CodingAgent:處理數(shù)據(jù)分析需求
b)知識(shí)圖譜動(dòng)態(tài)構(gòu)建
- 自動(dòng)識(shí)別關(guān)鍵研究實(shí)體
- 建立實(shí)體間的邏輯關(guān)系
- 為每個(gè)實(shí)體關(guān)聯(lián)相關(guān)研究事實(shí)和背景信息
c)多維度質(zhì)量評(píng)估
- 契合度:評(píng)估內(nèi)容與研究主題的相關(guān)性
- 創(chuàng)新性:衡量研究思路和方法的創(chuàng)新程度
- 可行性:評(píng)估研究方案的實(shí)施可能性
- 完備性:檢查研究?jī)?nèi)容的系統(tǒng)性和完整性
d)迭代優(yōu)化機(jī)制
- 狀態(tài)空間實(shí)時(shí)更新:通過多個(gè)維度指標(biāo)動(dòng)態(tài)評(píng)估內(nèi)容質(zhì)量
- 知識(shí)深度提升:不斷整合新的研究發(fā)現(xiàn)和文獻(xiàn)引用
- 邏輯鏈完善:基于知識(shí)圖譜持續(xù)優(yōu)化論證結(jié)構(gòu)
實(shí)踐表明,使用該框架生成的基金申報(bào)書具有以下特點(diǎn):
- 文獻(xiàn)綜述全面:自動(dòng)收集和整合大量相關(guān)研究文獻(xiàn)
- 邏輯結(jié)構(gòu)清晰:基于知識(shí)圖譜構(gòu)建嚴(yán)密的論證體系
- 創(chuàng)新點(diǎn)突出:通過多維度分析提煉獨(dú)特研究?jī)r(jià)值
- 可行性強(qiáng):結(jié)合實(shí)際數(shù)據(jù)和案例支持研究方案
這個(gè)案例充分展示了 Agentic Reasoning 框架在處理復(fù)雜學(xué)術(shù)任務(wù)時(shí)的優(yōu)勢(shì),特別是其在知識(shí)整合、邏輯推理和質(zhì)量控制方面的能力。
寫在最后
Agentic Reasoning 框架通過集成外部工具顯著提升了 LLM 的推理能力,為 AI 系統(tǒng)在復(fù)雜問題解決方面開辟了新的可能性。它不僅在專家級(jí)問題和深度研究任務(wù)上取得了優(yōu)異成績(jī),更重要的是提供了一個(gè)可擴(kuò)展、可解釋的推理增強(qiáng)方案。對(duì)于正在開發(fā) AI 產(chǎn)品的工程師來說,這個(gè)框架提供了一個(gè)強(qiáng)大的工具集成范式,值得在實(shí)際應(yīng)用中進(jìn)行探索和實(shí)踐。