微軟重磅發布三大AI推理算法:突破大模型數學與邏輯推理瓶頸
6月18日凌晨,微軟研究院發布三篇突破性論文,正式公開rStar-Math、LIPS、CPL三大算法,直擊大語言模型(LLM)的核心痛點——數學推理與邏輯鏈能力不足。這些算法不僅適用于百億參數大模型,也能顯著提升小模型的推理性能,被業界稱為“推理增強三件套”。
一、rStar-Math:用蒙特卡洛樹搜索實現“深度思考”
核心思想:將蒙特卡洛樹搜索(MCTS)與代碼驗證結合,讓大模型像人類一樣“反復推演再下結論”。
技術亮點:
- 代碼增強的思維鏈(CoT):
- 模型生成推理步驟時,同步輸出Python代碼并執行驗證,僅保留代碼執行通過的邏輯鏈。
- 實驗顯示,該方法在MATH數據集上的準確率提升23%。
- 偏好對訓練(PPM):
- 傳統方法直接用Q值作為獎勵信號,但噪聲大、精度低。
- rStar-Math提出“高Q值正樣本+低Q值負樣本”對比學習,讓模型學會區分推理步驟的優劣。
- 四輪自我進化:
- 策略模型與獎勵模型(PPM)通過迭代訓練逐步升級,問題難度逐輪遞增,最終覆蓋復雜數學證明。
論文地址:"arXiv:2501.04519" (https://arxiv.org/pdf/2501.04519)
二、LIPS:數學證明的“符號計算+神經直覺”雙引擎
核心思想:將數學證明分解為符號縮放(嚴謹但有限)和神經重寫(靈活但需篩選),二者協同突破傳統方法的局限性。
技術突破:
- 符號縮放:
- 基于不等式引理庫(如AM-GM不等式)對目標式進行嚴格變形,但可能產生無效子目標。
- 通過SMT求解器自動驗證縮放策略的有效性。
- 神經重寫:
- 大模型負責生成等價變形策略(如分母有理化、變量替換),憑借“數學直覺”從無限可能中篩選最優路徑。
- 兩階段篩選:
- 符號過濾:利用齊次性、解耦性等數學特性快速剔除無效目標。
- 神經排序:對剩余目標用大模型進行最終優先級排序。
論文地址:"arXiv:2502.13834" (https://arxiv.org/pdf/2502.13834)
三、CPL:關鍵計劃學習——讓AI學會“抓重點”
核心思想:傳統強化學習在跨任務泛化上表現不佳,CPL通過抽象計劃空間搜索和關鍵步驟優化,實現推理能力的本質提升。
創新點:
- 計劃空間搜索:
- 先生成高層次解題計劃(如“先求導再積分”),而非直接輸出具體公式,增強泛化性。
- Step-APO優化:
- 改進DPO(直接偏好優化),引入優勢估計權重,讓模型識別對結果影響最大的關鍵步驟。
- 在代碼生成任務中,關鍵步驟識別準確率提升37%。
論文地址:"arXiv:2409.08642" (https://arxiv.org/pdf/2409.08642)
四、學術啟示:AI推理的未來方向
微軟此次提出的三大算法,共同指向LLM推理能力的下一代范式:
- 混合架構:符號計算(嚴謹性)+神經生成(靈活性)的結合不可逆。
- 自我進化:自動化迭代訓練將成為模型能力躍遷的核心路徑。
- 計劃抽象:高層次推理規劃將逐步取代“端到端暴力生成”。
業內評價:
“這或許是GPT-5時代的關鍵技術儲備——讓AI不僅會‘說’,更要會‘想’。” ——艾倫AI研究所研究員
本文轉載自??柏企閱文??,作者:tailet
已于2025-6-20 10:50:29修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦