跨領(lǐng)域強化學習樣本數(shù)據(jù)集;符號表達的分層推理基準
RE-IMAGINE: Symbolic Benchmark Synthesis for Reasoning Evaluation
2025-06-18|MSRC-UK, Microsoft Research India|ICML 2025|??2
??http://arxiv.org/abs/2506.15455v1???
???https://huggingface.co/papers/2506.15455??
研究背景與意義
- 問題定義與現(xiàn)狀
當前大型語言模型(LLMs)在多種推理基準測試中表現(xiàn)出較高準確率,但仍存在爭議,即這些結(jié)果是否源自真正的推理能力,還是僅僅是訓練數(shù)據(jù)的統(tǒng)計記憶。推理作為一種認知過程,涉及基于事實或前提進行推斷,區(qū)別于簡單的模式匹配。
- 挑戰(zhàn)與目標
現(xiàn)有推理評估多依賴固定基準,且通常缺乏系統(tǒng)性和可擴展性,難以全面反映模型的推理層級和泛化能力。本文旨在構(gòu)建一個基于符號表達的分層推理評估框架——RE-IMAGINE,系統(tǒng)化地生成多層次、可擴展的推理問題變體,進而揭示和量化LLMs的真實推理能力和局限。
研究方法與創(chuàng)新
- 技術(shù)描述
RE-IMAGINE框架基于Pearl的因果推理階梯理論,提出三層推理層級:“觀察”(Observe)、“變異”(Mutate)和“想象”(Imagine),分別對應(yīng)模型對原始問題的解答能力、對問題變體的泛化能力以及對新邏輯整合的能力。框架設(shè)計了自動化的符號表示轉(zhuǎn)換和變異生成流水線,支持從自然語言問題到符號代碼的雙向轉(zhuǎn)換,并通過符號計算圖進行多種變異操作。
- 創(chuàng)新點
統(tǒng)一分層推理體系:首次將推理能力劃分為三層,系統(tǒng)整合了之前零散的變異測試方法,明確區(qū)分了不同推理能力的評估目標。
可擴展自動變異流水線:實現(xiàn)了跨多個領(lǐng)域(數(shù)學、因果推理、代碼理解等)的自動化、可執(zhí)行的符號變異生成,極大提升了評估規(guī)模和多樣性,降低了人工干預(yù)。
結(jié)合因果推理度量:引入了基于二元反事實的因果一致性指標(必要性和充分性不一致率),豐富了推理能力的定量評估手段。
- 優(yōu)勢與對比相較于以往依賴手工設(shè)計模板或固定基準的評估,RE-IMAGINE能夠生成海量“未見過”的問題變體,避免訓練數(shù)據(jù)泄露帶來的記憶偏差,更全面地考察模型的推理泛化和創(chuàng)新能力。其自動化流水線和統(tǒng)一層級框架為未來推理評估樹立了標準。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計
- 選取四個主流推理基準:GSM8K(數(shù)學)、CLadder(因果推理)、CRUXEval和Loop(代碼理解)。
- 對原始問題進行三層次變異,生成大量自動標注的變體問題。
- 測試多款主流LLM(包括GPT系列、Llama、Phi等),采用8-shot鏈式思考提示。
- 評估指標包括準確率、反事實推理一致性指標(N-IR、S-IR)等。
- 主要結(jié)果
- 模型在原始問題(Level-1)上表現(xiàn)較好,準確率普遍較高。
- Level-2變異(輕微修改問題參數(shù)或添加無關(guān)信息)導(dǎo)致模型性能明顯下降,揭示模型對簡單變異的泛化能力有限。
- Level-3變異(引入新邏輯或反事實條件)對模型構(gòu)成更大挑戰(zhàn),性能大幅下滑,表明模型難以有效整合和推理復(fù)雜新信息。
- 反事實指標顯示,盡管部分模型如GPT-4o表現(xiàn)較優(yōu),但整體仍存在因果推理能力不足問題。
- 代碼理解任務(wù)中,盡管變異設(shè)計盡量保持代碼復(fù)雜度不變,模型表現(xiàn)仍顯著下降,表明記憶與泛化之間的權(quán)衡問題普遍存在。
- 引入變異樣例作為上下文示例能有效提升模型對變異問題的適應(yīng)能力,說明訓練和提示策略對推理泛化影響顯著。
- 統(tǒng)計顯著性與多場景表現(xiàn)
- 通過多組樣本和多模型驗證,結(jié)果具有統(tǒng)計顯著性,且跨數(shù)學、因果和代碼領(lǐng)域均表現(xiàn)一致,表明RE-IMAGINE框架的通用性和有效性。
結(jié)論與展望
- 總結(jié)貢獻
RE-IMAGINE實現(xiàn)了對LLMs推理能力的系統(tǒng)、層級化評估,明確揭示了當前模型在面對復(fù)雜變異時的性能瓶頸和記憶依賴問題。該框架推動了推理評估從靜態(tài)基準向動態(tài)、多樣化、因果邏輯驅(qū)動的方向轉(zhuǎn)變。
- 局限分析
- 當前變異主要基于符號代碼層面,部分自然語言表達的復(fù)雜性和多樣性尚未充分覆蓋。
- 評估集中于數(shù)學、因果和代碼領(lǐng)域,尚需擴展到更多推理類型和實際應(yīng)用場景。
- 反事實推理指標計算成本較高,限制了大規(guī)模應(yīng)用。
- 未來展望
- 推動RE-IMAGINE向更廣泛的推理任務(wù)和多模態(tài)場景擴展,提升評估的全面性。
- 結(jié)合模型訓練過程,探索如何利用變異生成技術(shù)提升模型的推理泛化能力。
- 優(yōu)化因果推理指標的計算效率,促進其在實際評估中的廣泛應(yīng)用。
- 利用該框架促進開發(fā)更具魯棒性和真正推理能力的AI系統(tǒng),推動AI安全和可信賴性研究。
綜上,RE-IMAGINE為理解和提升大型語言模型的推理能力提供了堅實的理論基礎(chǔ)和實踐工具,具有重要的學術(shù)價值和應(yīng)用前景。
Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective
2025-06-17|UC San Diego, MBZUAI, Carnegie Mellon U, Purdue U|??31
??http://arxiv.org/abs/2506.14965v1???
???https://huggingface.co/papers/2506.14965???
???https://github.com/LLM360/Reasoning360??
研究背景與意義
- 研究背景
近年來,強化學習(RL)被廣泛應(yīng)用于提升大型語言模型(LLM)的推理能力,尤其在數(shù)學和編程領(lǐng)域取得顯著進展。然而,現(xiàn)有研究多聚焦于這兩個狹窄領(lǐng)域,限制了對RL在更廣泛推理任務(wù)中適用性的理解。跨領(lǐng)域推理的RL研究受到缺乏可靠且可擴展的獎勵信號的制約,導(dǎo)致模型在多樣推理任務(wù)中的表現(xiàn)和泛化能力受限。
- 研究意義
本研究提出了GURU數(shù)據(jù)集——一個涵蓋數(shù)學、代碼、科學、邏輯、模擬和表格六大推理領(lǐng)域的92K條經(jīng)嚴格篩選和驗證的強化學習訓練樣本。GURU不僅彌補了多領(lǐng)域推理訓練數(shù)據(jù)的缺失,也為系統(tǒng)研究RL在不同推理領(lǐng)域的適用性和機制提供了基礎(chǔ)。通過此數(shù)據(jù)集,研究者能夠更全面地理解RL如何促進LLM的推理技能提升,推動通用推理能力的發(fā)展。
研究方法與創(chuàng)新
- 數(shù)據(jù)集構(gòu)建與創(chuàng)新
研究團隊設(shè)計了嚴謹?shù)臄?shù)據(jù)處理流水線,包括多源數(shù)據(jù)采集、去重、領(lǐng)域特定獎勵函數(shù)設(shè)計、啟發(fā)式及模型驅(qū)動的過濾,以及難度過濾,確保訓練樣本的高質(zhì)量和獎勵信號的準確性。創(chuàng)新點在于跨領(lǐng)域覆蓋廣泛,獎勵設(shè)計多樣(規(guī)則匹配、代碼執(zhí)行驗證、模型判別驗證),有效解決了多領(lǐng)域推理中獎勵信號不足和數(shù)據(jù)噪聲問題。
- 強化學習訓練策略
基于GURU數(shù)據(jù)集,作者對Qwen系列模型(7B與32B參數(shù)規(guī)模)進行了單領(lǐng)域與混合領(lǐng)域的強化學習訓練。通過系統(tǒng)性對比,揭示了RL在不同領(lǐng)域的表現(xiàn)差異,首次明確了預(yù)訓練覆蓋度對RL跨領(lǐng)域轉(zhuǎn)移能力的影響:數(shù)學、代碼、科學領(lǐng)域因預(yù)訓練數(shù)據(jù)豐富,能通過跨領(lǐng)域訓練快速提升;而邏輯、模擬、表格等領(lǐng)域因預(yù)訓練覆蓋不足,需依賴領(lǐng)域內(nèi)訓練實現(xiàn)實質(zhì)性技能增長。
- 理論貢獻與優(yōu)勢
本研究突破了以往只關(guān)注數(shù)學和代碼領(lǐng)域的局限,提出了多領(lǐng)域RL訓練的新范式,強調(diào)了領(lǐng)域特異性和跨領(lǐng)域數(shù)據(jù)混合訓練的重要性。通過細致的獎勵設(shè)計與數(shù)據(jù)篩選,提升了RL訓練的穩(wěn)定性和效果,促進了模型對復(fù)雜推理任務(wù)的適應(yīng)能力。相比現(xiàn)有方法,GURU及其訓練策略顯著提高了模型的通用推理性能和泛化能力。
實驗設(shè)計與結(jié)果分析
- 實驗設(shè)計
實驗采用GURU數(shù)據(jù)集中的單領(lǐng)域3K樣本和混合領(lǐng)域18K樣本,分別對Qwen2.5-7B和32B基模型進行RL訓練。評估涵蓋17個任務(wù),跨六大推理領(lǐng)域,綜合考察模型在本領(lǐng)域和跨領(lǐng)域的表現(xiàn)。訓練過程中監(jiān)控獎勵信號和響應(yīng)長度變化,分析訓練難度對性能的影響。
- 結(jié)果分析
- 跨領(lǐng)域轉(zhuǎn)移能力差異顯著:數(shù)學、代碼、科學領(lǐng)域表現(xiàn)出強烈的跨領(lǐng)域轉(zhuǎn)移能力,訓練于任一領(lǐng)域均有助于提升其他兩個領(lǐng)域的性能;而邏輯、模擬、表格領(lǐng)域僅在本領(lǐng)域訓練時表現(xiàn)明顯提升,表明這些領(lǐng)域需要專門的領(lǐng)域內(nèi)訓練來獲得技能增長。
- 混合領(lǐng)域訓練效果優(yōu)異:將所有領(lǐng)域樣本混合訓練,模型表現(xiàn)達到或超過單領(lǐng)域訓練效果,顯示多領(lǐng)域數(shù)據(jù)的融合能夠促進模型獲得更廣泛的推理能力。
- 獎勵與響應(yīng)長度動態(tài):不同領(lǐng)域RL訓練對響應(yīng)長度的影響存在差異,部分領(lǐng)域如數(shù)學和科學傾向于生成更長答案,而代碼和邏輯領(lǐng)域則可能縮短輸出,說明RL訓練調(diào)整了模型的表達策略以適應(yīng)任務(wù)需求。
- 訓練難度過濾的雙刃劍效應(yīng):針對數(shù)學領(lǐng)域,篩選高難度樣本提升了本領(lǐng)域性能,但對跨領(lǐng)域簡單任務(wù)產(chǎn)生負面影響,提示訓練數(shù)據(jù)難度的平衡對于提升泛化能力至關(guān)重要。
- 統(tǒng)計顯著性與多場景表現(xiàn)GURU-7B和GURU-32B模型在17個任務(wù)上的平均準確率分別領(lǐng)先最優(yōu)公開基線7.9%和6.7%。尤其在復(fù)雜且預(yù)訓練中較少出現(xiàn)的任務(wù)(如ZebraPuzzle)中,模型表現(xiàn)出顯著提升,驗證了RL訓練擴展模型推理邊界的能力。
結(jié)論與展望
- 總結(jié)貢獻
本研究首次構(gòu)建了涵蓋六大推理領(lǐng)域的高質(zhì)量強化學習數(shù)據(jù)集GURU,系統(tǒng)揭示了RL訓練在不同推理領(lǐng)域的表現(xiàn)差異和機制,提出了多領(lǐng)域混合訓練的有效策略,顯著提升了開放模型的通用推理能力。GURU-7B/32B模型刷新了公開數(shù)據(jù)訓練模型的性能紀錄,推動了LLM推理研究的多領(lǐng)域發(fā)展。
- 局限性分析
盡管GURU數(shù)據(jù)集廣泛且精細,但仍存在領(lǐng)域覆蓋不全、獎勵設(shè)計依賴預(yù)定義規(guī)則或判別模型的局限。此外,混合領(lǐng)域訓練的長期影響及多領(lǐng)域間潛在的干擾效應(yīng)尚需進一步探究,尤其在更多領(lǐng)域和更大規(guī)模模型上的適用性有待驗證。
- 未來展望
未來研究可聚焦于:
- 設(shè)計更為靈活和自適應(yīng)的獎勵機制,提升開放式推理任務(wù)的評價準確性和多樣性;
- 探索更精細的領(lǐng)域平衡和樣本難度調(diào)控策略,優(yōu)化跨領(lǐng)域知識遷移和泛化;
- 擴展GURU數(shù)據(jù)集覆蓋更多推理類型和實際應(yīng)用場景,推動RL在LLM推理中的普適性提升;
- 結(jié)合其他訓練范式(如監(jiān)督學習、對比學習)與RL融合,構(gòu)建更強大的通用推理模型。
本研究為多領(lǐng)域強化學習推動LLM推理能力提供了堅實基礎(chǔ),期待后續(xù)工作在理論和應(yīng)用層面持續(xù)深化和拓展。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇
