微軟分享三大王炸算法:突破大模型推理瓶頸,性能大漲
今天凌晨,微軟在官網分享了自研的三大創新算法,以幫助大模型增強其推理能力。
無論你是小參數或者是大參數模型玩家,都能從rStar-Math、LIPS 、CPL這三大算法獲益,突破推理瓶頸,極大增強模型的數學推理和思考鏈的能力。
rStar-Math
rStar-Math算法主要通過蒙特卡洛樹搜索(MCTS)實現深度思考。MCTS 是一種用于決策過程的搜索算法,通過模擬多個可能的路徑來評估每個步驟的價值。在rStar-Math算法中,MCTS 被用來生成高質量的推理軌跡,并通過一個基于SLM的獎勵模型進行評估。
在傳統的推理方法中,語言模型生成的自然語言推理軌跡往往存在錯誤或不相關的內容,尤其是在復雜的數學問題中。為了解決這一問題,rStar-Math 引入了代碼增強的CoT方法。大模型在生成每個推理步驟時,會同時生成對應的 Python 代碼。
這些代碼不僅用于驗證推理步驟的正確性,還能夠通過執行結果來篩選出高質量的生成內容。只有那些 Python 代碼能夠成功執行的生成內容才會被保留,從而確保中間步驟的正確性。
此外,傳統的獎勵模型訓練中,直接使用 Q 值作為獎勵標簽是一種常見的方法,但這種方法存在明顯的局限性。Q 值雖然能夠反映步驟的整體質量,但它們帶有噪聲,無法精確地評估每個步驟的優劣。
為了解決這一難題,rStar-Math 提出了一種新的訓練方法,通過構建基于 Q 值的正負偏好對來訓練PPM。對于每個推理步驟,模型會選擇 Q 值最高的兩個步驟作為正樣本,選擇 Q 值最低的兩個步驟作為負樣本。
通過這種方式,PPM 能夠學習到如何區分高質量和低質量的推理步驟,從而提供更準確的獎勵信號。這種方法避免了直接使用 Q 值作為獎勵標簽的噪聲問題,顯著提高了獎勵模型的精度和可靠性。
論文地址:https://arxiv.org/pdf/2501.04519
rStar-Math的自我進化方法也是其核心優勢之一。通過四輪自我進化,策略模型和PPM 從頭開始逐步構建,生成的訓練數據質量不斷提高,覆蓋的問題難度也逐漸增加。
在每一輪中,使用最新的策略模型和 PPM進行MCTS,生成高質量的推理軌跡,并用這些軌跡訓練更強的策略模型和PPM。
LIPS
LIPS算法主要用于增強數學推理,其核心思想是將數學證明過程中的策略分為縮放和重寫兩大類。縮放策略通過符號工具實現,利用有限的不等式引理庫對當前目標進行細化,而重寫策略則由大模型負責生成,通過等價變換將問題轉化為更易于解決的形式。
在縮放策略方面,LIPS算法通過符號工具實現,利用有限的不等式引理庫對當前目標進行細化。例如,通過AM-GM不等式,算術平均數大于等于幾何平均數對目標中的某些項進行縮放。但縮放策略可能會引入無效的子目標,所以需要通過符號工具如SMT求解器檢查反例,從而過濾掉無效的縮放策略。
在重寫策略方面,LIPS算法由大模型負責生成,通過設計一系列提示引導大模型對當前目標進行等價變換。例如,通過簡化、重新排列或消去分母等操作將目標轉化為更易于處理的形式。由于重寫策略的空間是無限的,大模型的數學直覺在這里發揮了關鍵作用,能夠從大量可能的變換中篩選出最有希望的策略。
在目標過濾與排序方面,LIPS算法采用了兩個階段:符號過濾和神經排序。縮放和重寫策略生成的新目標集合需要進一步篩選和排序,以確定最有希望的證明路徑。首先,通過符號過濾階段,利用不等式的齊次性和解耦性來評估每個目標的潛力。
論文地址:https://arxiv.org/pdf/2502.13834
齊次性表示不等式兩邊的次數相同,而解耦性則衡量不等式中混合變量項的數量。通過這些指標,可以快速排除那些不太可能被證明的目標。其次,在神經排序階段,對于經過符號過濾后的前k個目標,利用大模型進行最終排序。
CPL
傳統的強化學習方法雖然在特定任務上取得了進展,但在跨任務泛化方面存在不足。此外,大模型的推理空間是無限的,這使得在其中尋找有效的推理路徑變得極為困難。
例如,在數學問題解決中,模型需要在眾多可能的解題步驟中找到最優路徑,而在代碼生成任務中,模型需要在復雜的邏輯結構中進行有效的探索。
為了解決這些難題,微軟提出了CPL算法,一種基于關鍵計劃步驟學習的方法,旨在通過在高層次抽象計劃空間中進行搜索,提升模型的泛化能力和推理性能。
在CPL算法中,計劃空間搜索是第一步,也是至關重要的一步。與傳統的解決方案搜索不同,計劃空間搜索關注的是高層次的抽象計劃,而不是具體的解決方案。
例如,在解決一個數學問題時,模型首先會生成一個逐步解決問題的計劃,而不是直接生成具體的數學公式。這種計劃可以包括確定需要應用哪些知識、如何分解問題等抽象思維步驟。通過這種方式,模型能夠學習到更通用的、與任務無關的技能,從而提高其在不同任務中的泛化能力。
在生成了多樣化的計劃步驟后,CPL的第二步是通過Step-APO學習關鍵計劃步驟。Step-APO是基于Direct Preference Optimization(DPO)的一種改進方法,它通過引入優勢估計來優化步驟偏好。
Step-APO利用MCTS過程中獲得的優勢估計,為每一對步驟偏好賦予不同的權重,從而讓模型能夠更有效地識別出哪些步驟對推理能力的提升更為關鍵。
論文地址:https://arxiv.org/pdf/2409.08642
例如,在一個復雜的推理任務中,模型可能會發現某些步驟雖然在表面上看起來合理,但實際上對最終結果的貢獻較小,而Step-APO能夠幫助模型識別并強化那些真正重要的步驟。