微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸

發布于 2025-6-20 06:44

瀏覽

0收藏

6月18日凌晨，微軟研究院發布三篇突破性論文，正式公開rStar-Math、LIPS、CPL三大算法，直擊大語言模型（LLM）的核心痛點——數學推理與邏輯鏈能力不足。這些算法不僅適用于百億參數大模型，也能顯著提升小模型的推理性能，被業界稱為“推理增強三件套”。

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸-AI.x社區

一、rStar-Math：用蒙特卡洛樹搜索實現“深度思考”

核心思想：將蒙特卡洛樹搜索（MCTS）與代碼驗證結合，讓大模型像人類一樣“反復推演再下結論”。

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸-AI.x社區

技術亮點：

代碼增強的思維鏈（CoT）：

模型生成推理步驟時，同步輸出Python代碼并執行驗證，僅保留代碼執行通過的邏輯鏈。
實驗顯示，該方法在MATH數據集上的準確率提升23%。

偏好對訓練（PPM）：

傳統方法直接用Q值作為獎勵信號，但噪聲大、精度低。
rStar-Math提出“高Q值正樣本+低Q值負樣本”對比學習，讓模型學會區分推理步驟的優劣。

四輪自我進化：

策略模型與獎勵模型（PPM）通過迭代訓練逐步升級，問題難度逐輪遞增，最終覆蓋復雜數學證明。

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸-AI.x社區

論文地址："arXiv:2501.04519" (https://arxiv.org/pdf/2501.04519)

二、LIPS：數學證明的“符號計算+神經直覺”雙引擎

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸-AI.x社區

核心思想：將數學證明分解為符號縮放（嚴謹但有限）和神經重寫（靈活但需篩選），二者協同突破傳統方法的局限性。

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸-AI.x社區

技術突破：

符號縮放：

基于不等式引理庫（如AM-GM不等式）對目標式進行嚴格變形，但可能產生無效子目標。
通過SMT求解器自動驗證縮放策略的有效性。

神經重寫：

大模型負責生成等價變形策略（如分母有理化、變量替換），憑借“數學直覺”從無限可能中篩選最優路徑。

兩階段篩選：

符號過濾：利用齊次性、解耦性等數學特性快速剔除無效目標。
神經排序：對剩余目標用大模型進行最終優先級排序。

論文地址："arXiv:2502.13834" (https://arxiv.org/pdf/2502.13834)

三、CPL：關鍵計劃學習——讓AI學會“抓重點”

核心思想：傳統強化學習在跨任務泛化上表現不佳，CPL通過抽象計劃空間搜索和關鍵步驟優化，實現推理能力的本質提升。

創新點：

計劃空間搜索：

先生成高層次解題計劃（如“先求導再積分”），而非直接輸出具體公式，增強泛化性。

Step-APO優化：

改進DPO（直接偏好優化），引入優勢估計權重，讓模型識別對結果影響最大的關鍵步驟。
在代碼生成任務中，關鍵步驟識別準確率提升37%。

論文地址："arXiv:2409.08642" (https://arxiv.org/pdf/2409.08642)

四、學術啟示：AI推理的未來方向

微軟此次提出的三大算法，共同指向LLM推理能力的下一代范式：

混合架構：符號計算（嚴謹性）+神經生成（靈活性）的結合不可逆。
自我進化：自動化迭代訓練將成為模型能力躍遷的核心路徑。
計劃抽象：高層次推理規劃將逐步取代“端到端暴力生成”。

業內評價：

“這或許是GPT-5時代的關鍵技術儲備——讓AI不僅會‘說’，更要會‘想’。” ——艾倫AI研究所研究員

本文轉載自??柏企閱文??，作者：tailet

標簽

推理

算法

已于2025-6-20 10:50:29修改

贊

回復

舉報

回復

相關推薦

大模型推理優化實踐：KV cache復用與投機采樣

wx5bbef785639a1 ? 6890瀏覽 ? 0回復
Transformer在復雜推理任務中的新進展：多步邏輯推理中的匹配策略

xuxiangda ? 5613瀏覽 ? 0回復
ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了

輕薄滴假象 ? 3878瀏覽 ? 0回復
大模型的條件推理和模態推理

xuxiangda ? 3382瀏覽 ? 0回復
語言模型的神秘面紗：小學數學與隱含推理過程

sbf_2000 ? 2319瀏覽 ? 0回復
論文解讀：《大語言模型推理算法：從解碼到元生成》

智能交互引擎 ? 2615瀏覽 ? 0回復
從openAI最新模型GPT-o1再談思維鏈(Cot)技術，大模型該怎么提升其邏輯推理能力？

AI探索時代 ? 7338瀏覽 ? 0回復
突破大語言模型的邏輯瓶頸：Logic-of-Thought方法讓LLM更懂"推理" | 用外部數據增強大語言模型：RAG全面解

sbf_2000 ? 4187瀏覽 ? 0回復
AI數學天才還是數字騙子？GSM-Symbolic揭秘大語言模型的數學推理能力

sbf_2000 ? 2494瀏覽 ? 0回復
谷歌與學術界聯手，研究突破多智能體合作瓶頸的新算法

xuxiangda ? 2948瀏覽 ? 0回復
微軟 Phi-4 震撼發布：14B 參數模型性能超越一眾大模型，數學推理性能提升顯著

Syrupup ? 3014瀏覽 ? 0回復
華為諾亞方舟實驗室突破具身AI瓶頸， SpatialCoT通過坐標對齊和思路鏈推進空間推理

xuxiangda ? 3624瀏覽 ? 0回復
從GraphRAG到PIKE-RAG，微軟發布復雜企業場景下的私域知識提取與推理新突破

AI博物院 ? 4014瀏覽 ? 0回復
首個混合推理模型Claude 3.7重磅發布，AI 邊界在哪里？

算家計算 ? 1955瀏覽 ? 0回復
LLM合集：微軟發布基于過程的自獎勵方法顯著提升數學推理性能

AIPaperDaily ? 1699瀏覽 ? 0回復
挑戰LLM邏輯推理極限！新基準TEXTGAMES能否揭開大模型的短板？

sbf_2000 ? 1792瀏覽 ? 0回復
ReSearch: 突破性強化學習框架實現大模型推理搜索能力無縫整合

頓數AI ? 5270瀏覽 ? 0回復
數學推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場！

Halo咯咯 ? 1716瀏覽 ? 0回復
知識圖譜與LLM接口優化：突破復雜推理的性能瓶頸

頓數AI ? 2410瀏覽 ? 0回復

柏企閱文

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

微軟重磅發布三大AI推理算法：突破大模型數學與邏輯推理瓶頸

一、rStar-Math：用蒙特卡洛樹搜索實現“深度思考”

二、LIPS：數學證明的“符號計算+神經直覺”雙引擎

三、CPL：關鍵計劃學習——讓AI學會“抓重點”

四、學術啟示：AI推理的未來方向

目錄