無需人工標注!AI自生成訓練數(shù)據(jù),靠「演繹-歸納-溯因」解鎖推理能力
當AI試圖破解數(shù)學、編程與科學的難題時,它常常像一位靈感乍現(xiàn)的天才,卻又難以穩(wěn)定發(fā)揮。
新加坡國立大學、清華大學和Salesforce AI Research的研究者,提出了一種革命性的訓練框架——元能力對齊,賦予模型穩(wěn)健的推理能力,讓頓悟成為常態(tài)。
論文鏈接:https://arxiv.org/abs/2505.10554
他們提出了一項使大型推理模型的能力變得更加可控和可靠的訓練方法,能夠高效地系統(tǒng)化培養(yǎng)大模型的數(shù)學,編程和科學問題上的基本推理能力。
要理解其突破,需要知道何為啊哈時刻,這里指的是在使用純強化學習訓練大模型的時候,大模型偶然展現(xiàn)出的高級推理行為,如自我糾正、回溯和驗證等。
DeepSeek-R1的成功表明,從預訓練基礎(chǔ)模型或指令微調(diào)模型開始,基于規(guī)則的純強化學習能夠自發(fā)地涌現(xiàn)出長鏈式思維推理、自我糾正、自我反思等高級行為。
然而,這些涌現(xiàn)行為的頻率和一致性,卻始終不可預測且無法控制,這就限制了大模型的推理能力的可擴展性和可靠性。
實驗方法:模仿心理學,
讓大模型穩(wěn)定地涌現(xiàn)出推理能力
要想做到超越「頓悟時刻」就需要借助于心理學家皮爾斯提出的經(jīng)典推理三元組,該理論指出人類的推理能力,可以分為三個組件間的組合,分別是假設(shè),觀察和規(guī)則,根據(jù)任意兩個,可以得出第三個。
例如根據(jù)觀察和假設(shè),通過歸納得到可泛化的規(guī)則;而基于規(guī)則和假設(shè),能根據(jù)演繹推斷出未來可能的觀察結(jié)果;至于基于規(guī)則和觀察,得到假設(shè)的過程,稱之為溯因。
圖1:皮爾斯提出的推理元能力三元組
有了這樣的分類,研究者據(jù)此構(gòu)建了一個程序,能自動化生成上述三類推理的實例,用于大模型的訓練,并對大模型輸出的結(jié)果自動進行驗證,程序生成的任務(wù),是由常見數(shù)據(jù)組合而成,但又不再訓練數(shù)據(jù)集中的,由此可訓練模型的元推理能力。
例如,在演繹推理(H+R?O)中,模型被給定一組邏輯規(guī)則R和一個候選真值賦值H作為假設(shè),必須驗證整體觀察結(jié)果O(即所有公式為真)是否成立。
而在歸納推理(H+O?R)中,模型被提供可觀察項O和不完整輸入H,必須抽象出底層生成規(guī)則R;在溯因推理(O+R?H)中,模型被給定觀察結(jié)果O和一個規(guī)則圖R ,必須反向追蹤以恢復能夠邏輯解釋結(jié)論的最小隱藏假設(shè)集H。
下面是作者給出的一個訓練數(shù)據(jù)的例子,以提示詞及正確回復的方式出現(xiàn)。
每個訓練實例由自動化生成器產(chǎn)生,并由驗證器篩選,從而生成大規(guī)模、自我校驗的訓練數(shù)據(jù),完全無需人工標注。
圖2:模型訓練的三階段流程概述:對演繹、歸納和溯因?qū)<疫M行對齊,在參數(shù)空間中合并它們,并持續(xù)使用強化學習訓練統(tǒng)一模型到下游領(lǐng)域
具體來看,該架構(gòu)下的大模型,可視為一個類似混合專家模型的架構(gòu),每類專家拿到的訓練數(shù)據(jù)后,先各自提升自己的能力,演繹推理的「專家」,會在訓練后產(chǎn)生假設(shè)生成、邏輯推論傳播、經(jīng)驗一致性檢測和糾錯。
歸納專家增強了模型在抽象和泛化方面的基本能力;而溯因?qū)<覐哪繕碎_始,以假設(shè)最小支持性為前提,對照已知事實,高效地進行目標導向的假設(shè)形成、驗證和修訂的重復循環(huán),相當于對因果圖進行剪枝。
這些能力是跨領(lǐng)域進行穩(wěn)健推理的必要組成部分。
之后研究者會后通過參數(shù)空間融合,將這些專家合并,然后在數(shù)學,編程和社交互動這三種場景上分別使用強化學習訓練專家模型(稱之為Domain-RL-Meta特定領(lǐng)域元強化學習),之后再對訓練好的模型進行融合。
這種訓練方法,被稱為元能力對齊。
實驗結(jié)果
高效且可擴展的訓練方式
對于上述三類任務(wù),該研究對問題難度進行了分級,并采用循序漸進的學習策略,從易到難逐級訓練模型。
按照這個計劃,7B模型在2級問題時性能收斂,并且在使用更高級別的訓練數(shù)據(jù)集時,不再提升性能,32B模型偶爾受益于3級難度的訓練數(shù)據(jù),但獎勵曲線不穩(wěn)定,因此該研究中也沒有采用。
研究者在訓練過程中,對于7B模型,每個任務(wù)每個級別實驗200個實例,對于32B模型,每個任務(wù)每個級別適應2000個實例。
結(jié)果顯示:相比指令微調(diào)基線(Qwen-2.5),基于元能力對齊的訓練方法使模型在數(shù)學,編程和科學問題的7個模型從沒有見過的基準測試上的準確率提高了10%以上,并通過特定領(lǐng)域強化學習獲得進一步增益。
在7B和32B規(guī)模下,元能力對齊和合并的模型始終優(yōu)于指令微調(diào)的基線模型,合并后的模型取得了最高增益。
在7B規(guī)模模型上,數(shù)學問題的平均分從基準的38.8%提升到Domain-RL-Meta的43.0%;而沒有經(jīng)過元能力對齊,只是進行特定領(lǐng)域的強化學習,訓練后的表現(xiàn)只有41.2%。
參數(shù)量擴展至32B時,數(shù)學問題上的表現(xiàn)從46.9升至50.3(特定領(lǐng)域強化學習)再升至52.3(元能力對齊+特定領(lǐng)域強化學習),整體平均分從44.6升至47.4再升至48.8。
對比7B和32B參數(shù)量的提升,可看出元能力對齊帶來的收益隨模型規(guī)模增加而擴展,顯著提升了各項任務(wù)的性能上限,尤其是在數(shù)學任務(wù)上,合并三種推理模式后,訓練好的模型性能提升了11.1%。
表1:不同參數(shù)量下,適應元能力對齊訓練的大模型在數(shù)學和編程問題上的性能
這說明該框架為在數(shù)學、編程和科學領(lǐng)域提升推理能力提供了一種可擴展、可推廣且可控的方法,有助于構(gòu)建可解釋且魯棒的推理模型。
這種模塊化的訓練方式,借鑒了混合專家模型,同時使用來自心理學對人類推理本質(zhì)的洞見,讓大模型的每個專家進行專業(yè)分工,擅長一種推理方式,從而能夠用小數(shù)據(jù)集完成快速的性能提升。
這就如同學生學到了能駕馭各家功夫的小無相功后,能夠在各種問題上游刃有余。