性能提升11.74%!騰訊優(yōu)圖提出激勵推理,專攻復雜指令
現(xiàn)有的語言大模型(LLMs)在復雜指令下的理解和執(zhí)行能力仍需提升。
騰訊優(yōu)圖(UTU)研究團隊提出一種系統(tǒng)性方法——激勵推理(Incentivizing Reasoning ),來提升LLM處理復雜指令的能力。
結(jié)果顯示,該方法能夠有效提升大多數(shù)LLM進行復雜指令深度處理時的表現(xiàn),并在1.5B參數(shù)的LLM上實現(xiàn)了11.74%的性能提升,表現(xiàn)可媲美8B參數(shù)的LLM。
背景:難處理復雜指令與約束條件
現(xiàn)有的大語言模型(LLMs)在遵循復雜指令時面臨挑戰(zhàn),尤其當多重約束以并行、鏈式和分支結(jié)構(gòu)組織時,LLMs難以厘清真正的指令與約束條件。
一個直觀的解決方案是通過“思維鏈”(CoT)來普遍提升LLMs的指令跟隨能力。
然而研究團隊發(fā)現(xiàn),原始的CoT由于其表層的推理模式,即僅僅是對指令的簡單釋義與重復,卻對性能產(chǎn)生了負面影響。樸素的CoT未能剖析約束的組成部分,也無法識別不同層級類型和維度關(guān)系。
為此,研究團隊提出了一種系統(tǒng)性方法,通過激勵推理能力來提升LLM處理復雜指令的能力:首先,基于現(xiàn)有分類法對復雜指令進行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法。其次,利用帶有可驗證、以規(guī)則為中心的獎勵建模,通過強化學習(RL)培養(yǎng)模型在遵循指令時的推理能力。
方法:從數(shù)據(jù)生產(chǎn)方法到推理能力
復雜規(guī)則與約束的復雜指令數(shù)據(jù)生產(chǎn)
針對復雜指令集的數(shù)量問題,研究團隊基于現(xiàn)有分類法對復雜指令進行分解,提出了一種基于開源數(shù)據(jù)與已有約束結(jié)構(gòu)的數(shù)據(jù)生產(chǎn)方法以及校驗準則的方法。
種子指令挑選:團隊從WildChat和Alpaca等數(shù)據(jù)集中多樣化地篩選種子指令,并通過主題和任務標簽進行細致挑選。
帶規(guī)則約束的指令發(fā)散:團隊在細粒度規(guī)則和約束下自演化指令,結(jié)合代碼執(zhí)行和LLM判別兩種驗證方式,確保生成指令的多樣性和有效性。
回復生產(chǎn)與質(zhì)量校驗:團隊利用LLM生成回復并通過多重驗證篩除低質(zhì)量樣本,同時用LLM判別典型問題以保證指令和回復的合理性。
面向復雜指令任務下推理的強化學習
團隊提出利用強化學習(RL)方法(采用GRPO算法),通過規(guī)則驅(qū)動的獎勵機制,優(yōu)化大語言模型在復雜指令下的結(jié)構(gòu)化推理能力,提升最終答案的準確性。
基于規(guī)則的獎勵建模:團隊設計了基于規(guī)則的獎勵函數(shù),分別對推理格式和多約束滿足度進行評價,結(jié)合啟發(fā)式與獎勵模型,實現(xiàn)對復雜指令響應的精細化引導。
經(jīng)驗回放緩沖區(qū)篩選:團隊引入自適應經(jīng)驗回放機制,通過對比有無推理過程的樣本表現(xiàn),篩選并強化能帶來更優(yōu)結(jié)果的推理鏈,提升模型在復雜任務下的推理有效性。
策略模型分布偏移控制:采用行為克隆約束策略分布,防止模型在片面追求約束滿足時犧牲語義或遺忘原有知識,確保推理內(nèi)容與答案的語義一致性和流暢性。
結(jié)果與討論
與基線方法的比較
此方法能有效提升大多數(shù)現(xiàn)有LLM在處理復雜指令時的表現(xiàn),體現(xiàn)了深度推理的泛化能力。
相比之下,CoT提示會導致所有模型性能大幅下降,進一步證實了淺層思考的負面影響。SDC方法將推理與回答分為兩步,但由于其本質(zhì)上的表面性,仍未能提升推理質(zhì)量。
SFT技術(shù)通過知識蒸餾讓小模型模仿強模型的推理模式,保證了思考的深度和廣度。但SFT的缺點是對訓練外樣本的泛化能力較差?;赗L的訓練方式則教會LLM如何思考,推動多樣化推理的自我發(fā)展,而非簡單記憶。
不同模型大小與基座的比較
小模型(1.5B)在訓練中獲得的提升遠大于大模型,顯示了小模型通過測試時擴展的潛力。
DeepSeek蒸餾的LLM因廣泛模仿任務而在推理的結(jié)構(gòu)學習上有更好的起點。Ministral和LLaMA的能力不如Qwen,且LLaMA3.1-8B在訓練中出現(xiàn)模型崩潰。
LLaMA模型在訓練中出現(xiàn)響應急劇縮短和KL懲罰激增,表明其偏離初始狀態(tài)。這可能與底座模型的預訓練知識有關(guān),LLaMA傾向于無休止地生成思考,難以輸出一致的語義響應,最終導致崩潰。
與SOTA方法的比較
團隊在ComplexBench上實現(xiàn)了多種SOTA方法,并在最復雜的Chain和Selection類別上表現(xiàn)出色。這表明深度推理確實有助于LLM分析并完成真正相關(guān)且有約束的請求。
推理模式的變化
關(guān)鍵詞如“first”“second”等的變化顯示,所有LLM在CFBench和ComplexBench等高難度基準上推理詞頻增加,證實了深度推理的重要性。對于沒有復雜結(jié)構(gòu)的指令,慢思考LLM的關(guān)鍵詞頻率隨著響應長度變短而略有下降。
數(shù)學數(shù)據(jù)的重要性
DeepScaleR在推理能力培養(yǎng)上起到了積極作用,數(shù)學題數(shù)量的增加與CoT token增長和性能提升正相關(guān)。
篩選機制的作用
優(yōu)秀CoT樣本比例先降后升,說明訓練中淺層到深層推理的轉(zhuǎn)變被促進,最終帶來更高獎勵的響應。經(jīng)驗回放中篩選優(yōu)秀CoT樣本有助于滿足輸出格式約束,防止劣質(zhì)推理獲得獎勵,并為模仿專家思維留出時間。
團隊發(fā)現(xiàn),直接模仿專家推理不僅鼓勵模型獲得格式獎勵,還能穩(wěn)定訓練并彌補規(guī)則獎勵的不足。
論文地址:https://arxiv.org/pdf/2506.01413
項目地址:https://github.com/yuleiqin/RAIF
數(shù)據(jù):https://huggingface.co/collections/yolay/raif-arxivorg-pdf-250601413-682b16e5c0c2fa9b73811369