合成數(shù)據(jù)>人工數(shù)據(jù),絕對(duì)性能暴漲超10個(gè)點(diǎn)!僅需任務(wù)定義,高效微調(diào)大模型
盡管如GPT-4和Gemini等基礎(chǔ)模型已在通用語言理解方面設(shè)立了新的行業(yè)標(biāo)桿 ,但它們?cè)谛枰疃阮I(lǐng)域知識(shí)的專業(yè)領(lǐng)域中,其表現(xiàn)常常不盡如人意。
當(dāng)面臨數(shù)學(xué)、醫(yī)學(xué)、法律及金融等專門任務(wù)時(shí),這些模型時(shí)常表現(xiàn)不佳,因?yàn)檫@些領(lǐng)域高度依賴特定的專業(yè)知識(shí)。
傳統(tǒng)上,為了讓這些模型適應(yīng)特定領(lǐng)域,最直接的方法是使用大規(guī)模的人類標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)。然而,這一過程不僅成本高昂、耗時(shí)漫長(zhǎng),而且在許多實(shí)際應(yīng)用場(chǎng)景中并不可行。
為了解決上述挑戰(zhàn),北京大學(xué)、MIT等機(jī)構(gòu)的研究人員提出了「合成數(shù)據(jù)強(qiáng)化學(xué)習(xí)」(Synthetic Data RL)框架。這是一個(gè)簡(jiǎn)單而通用的框架,僅從一個(gè)任務(wù)定義出發(fā),合成大量多樣的領(lǐng)域特定樣本,然后利用強(qiáng)化學(xué)習(xí)(RL)對(duì)模型進(jìn)行微調(diào)。
論文鏈接:https://arxiv.org/pdf/2505.17063
代碼倉庫:https://github.com/gydpku/Data_Synthesis_RL
這種方式實(shí)現(xiàn)了參數(shù)化的自適應(yīng),將領(lǐng)域知識(shí)直接嵌入到模型的參數(shù)中,并且完全無需任何人類標(biāo)注的數(shù)據(jù)。
三步走實(shí)現(xiàn)高效自適應(yīng)學(xué)習(xí)
研究人員提出的合成數(shù)據(jù)強(qiáng)化學(xué)習(xí)框架由三個(gè)主要環(huán)節(jié)構(gòu)成。
圖1:三階段方法框架圖
如圖1所示,首先,系統(tǒng)通過知識(shí)引導(dǎo)的合成環(huán)節(jié)結(jié)合檢索到的外部知識(shí)和任務(wù)特定模式,生成既有事實(shí)依據(jù)又與目標(biāo)任務(wù)對(duì)齊的合成數(shù)據(jù)。
隨后,在難度自適應(yīng)環(huán)節(jié),系統(tǒng)會(huì)根據(jù)模型的反饋來調(diào)整這些生成樣本的復(fù)雜度,目的是創(chuàng)建一個(gè)難度均衡、避免過于簡(jiǎn)單或困難的數(shù)據(jù)集。
最后,在高潛力樣本選擇與強(qiáng)化學(xué)習(xí)環(huán)節(jié),框架會(huì)精心挑選出高學(xué)習(xí)潛力的樣本,并利用強(qiáng)化學(xué)習(xí)在這些樣本上進(jìn)行微調(diào)。
知識(shí)引導(dǎo)的數(shù)據(jù)合成
該環(huán)節(jié)的目標(biāo)是生成高質(zhì)量、多樣化,并與任務(wù)高度相關(guān)的任務(wù)數(shù)據(jù)。
該過程主要分為兩個(gè)核心步驟:關(guān)鍵詞提取與相關(guān)段落檢索:為了讓生成的內(nèi)容能緊密圍繞相關(guān)領(lǐng)域的知識(shí),該環(huán)節(jié)首先會(huì)使用大模型從任務(wù)描述中提取一組領(lǐng)域特定的關(guān)鍵詞。
這些關(guān)鍵詞可以看作是一種中間摘要,精確地概括了任務(wù)的核心領(lǐng)域與要求。
接下來,一個(gè)「段落檢索器」會(huì)使用這些關(guān)鍵詞,在一個(gè)大型的高質(zhì)量文本庫(例如維基百科)中進(jìn)行搜索,從而找到一系列與任務(wù)高度相關(guān)的知識(shí)段落。
圖2:GPQA的任務(wù)定義,包括任務(wù)描述,輸入和輸出的形式。
在獲取了相關(guān)的知識(shí)段落后,LLM生成器便開始合成初始的任務(wù)樣本集。LLM生成器會(huì)綜合利用所有信息,包括之前檢索到的相關(guān)段落、抽象模式與具體示例的組合(可不提供),以及原始的任務(wù)指令(如圖所示),來生成初始合成數(shù)據(jù)集。并通過大多數(shù)投票方法確保任務(wù)輸出的正確性。
通過這種方式,系統(tǒng)確保了合成出來的數(shù)據(jù)不僅在事實(shí)上有所依據(jù),而且在形式和內(nèi)容上也更加豐富多樣。
難度自適應(yīng)過程
本環(huán)節(jié)旨在解決訓(xùn)練樣本難度不均衡的問題。核心思想是,通過自動(dòng)評(píng)估和改寫樣本,生成一個(gè)難度分布更合理的數(shù)據(jù)集,從而提升模型的學(xué)習(xí)效率和最終效果。
整個(gè)過程可以分為三個(gè)主要步驟:
(1)首先,使用一個(gè)基礎(chǔ)模型對(duì)初始數(shù)據(jù)集進(jìn)行全面評(píng)估。根據(jù)模型能否正確解答,樣本被分為兩類:已解決樣本集:這個(gè)集合包含了所有基礎(chǔ)模型能夠正確解答的樣本。未解決樣本集:這個(gè)集合包含了所有基礎(chǔ)模型未能正確解答的樣本。
(2)接下來,利用一個(gè)大語言模型改寫器對(duì)已分類的樣本進(jìn)行難度調(diào)整,以擴(kuò)充數(shù)據(jù)集。改寫器會(huì)分析已解決樣本集中的內(nèi)容,并在此基礎(chǔ)上創(chuàng)造出更具挑戰(zhàn)性的新樣本,形成一個(gè)更難的樣本集。同樣地,改寫器會(huì)分析未解決樣本集的內(nèi)容,并創(chuàng)造出難度更低的新樣本,形成一個(gè)「更容易的樣本集」。
最后,將三個(gè)部分的數(shù)據(jù)合并在一起,包括原始的初始樣本集、新生成的更難樣本集、新生成的更容易樣本集。
通過這個(gè)動(dòng)態(tài)調(diào)整過程,如下圖所示,最終的數(shù)據(jù)集在難度上更加多樣和均衡,更貼合人類真實(shí)數(shù)據(jù)的分布特征,能夠?yàn)槟P吞峁┮粋€(gè)平滑的學(xué)習(xí)曲線,從而實(shí)現(xiàn)更優(yōu)的訓(xùn)練效果。
圖3:合成與人工數(shù)據(jù)難度分布,合成數(shù)據(jù)調(diào)整后更貼合人工數(shù)據(jù)。
篩選高潛力樣本并強(qiáng)化微調(diào)
在通過難度自適應(yīng)策略生成了包含多樣化難度的大規(guī)模合成數(shù)據(jù)集后,研究人員并不會(huì)直接將所有數(shù)據(jù)用于訓(xùn)練,因?yàn)樵S多合成樣本可能對(duì)模型來說過于簡(jiǎn)單或過于困難,無法提供有效的學(xué)習(xí)信號(hào)。
為了最大化訓(xùn)練效率和效果,研究人員設(shè)計(jì)了第三個(gè)環(huán)節(jié),旨在識(shí)別并利用那些最具學(xué)習(xí)價(jià)值的「高潛力」樣本。
為了精準(zhǔn)地識(shí)別出這些高潛力樣本,框架設(shè)計(jì)了一套基于模型實(shí)際表現(xiàn)的評(píng)分系統(tǒng)。具體來說,它會(huì)利用基礎(chǔ)模型,對(duì)每個(gè)樣本進(jìn)行多次解答嘗試。
接著,系統(tǒng)會(huì)計(jì)算模型在多次嘗試中成功解答的次數(shù)比例。這個(gè)評(píng)分系統(tǒng)有一個(gè)巧妙的設(shè)計(jì):對(duì)于那些模型在所有嘗試中都失敗的「極難」樣本(即通過率為0),系統(tǒng)會(huì)故意給它們一個(gè)最高分(比如1)。
這樣做的目的是為了在后續(xù)排序時(shí),能夠輕易地將這些過于困難/存在合成錯(cuò)誤的樣本沉底。評(píng)分完成后,所有樣本會(huì)按照它們的「通過率得分」從低到高進(jìn)行排序。
根據(jù)這個(gè)排序結(jié)果,得分最低(但大于0)的樣本,正是我們尋找的「高潛力」目標(biāo)—模型偶爾能答對(duì),但磕磕絆絆,充滿了不確定性。框架會(huì)從排序列表的頂端選取一定數(shù)量的樣本,構(gòu)成訓(xùn)練集。
最后,這個(gè)精挑細(xì)選出的高潛力訓(xùn)練集將被用于對(duì)基礎(chǔ)模型進(jìn)行一輪的強(qiáng)化學(xué)習(xí)訓(xùn)練。
最終步驟旨在將模型在這些「臨界區(qū)」樣本上的不確定性轉(zhuǎn)化為穩(wěn)定的正確解答能力,從而產(chǎn)出一個(gè)性能得到顯著提升的最終模型。
全面超越SFT,媲美人工數(shù)據(jù)RL
實(shí)驗(yàn)設(shè)定:在數(shù)據(jù)合成過程中,GPT-4o被用作指導(dǎo)者模型,而Qwen2.5-7B-base則作為基礎(chǔ)模型,整個(gè)流程的訓(xùn)練集大小也維持在500個(gè)數(shù)據(jù),RL訓(xùn)練采用了GRPO算法 。
研究人員在數(shù)學(xué)、科學(xué)、醫(yī)學(xué)、法律和金融等多個(gè)領(lǐng)域的8個(gè)公開基準(zhǔn)數(shù)據(jù)集上,對(duì)提出方法進(jìn)行了全面評(píng)估,并該方法與多個(gè)基線進(jìn)行了比較,包括像Qwen-2.5-7B和GPT-4o這樣的預(yù)訓(xùn)練和指令調(diào)優(yōu)模型,像Self-Instruct和SynthLLM這樣的其他合成數(shù)據(jù)生成方法,以及像使用人類標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督式微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)這樣的標(biāo)準(zhǔn)訓(xùn)練策略。
實(shí)驗(yàn)結(jié)果如表1所示。
表1:該方法和基線在8個(gè)任務(wù)上的的表現(xiàn)。
具體來看,該框架帶來全方位的性能提升,不僅顯著超越了模型自身的基礎(chǔ)版本,也優(yōu)于官方的指令微調(diào)模型和其他主流的合成數(shù)據(jù)方法:
- 在數(shù)學(xué)推理領(lǐng)域:在廣泛關(guān)注的 GSM8K基準(zhǔn)測(cè)試上,該方法取得了91.7%的準(zhǔn)確率,相較于Qwen-2.5-7B基礎(chǔ)模型的62.5%,實(shí)現(xiàn)了29.2%的絕對(duì)性能提升。
這一成績(jī)不僅顯著優(yōu)于官方指令微調(diào)模型Qwen-2.5-7B-Instruct的88.8%,也超越了包括Self-Instruct (85.1%) 和SynthLLM (90.1%) 在內(nèi)的其他合成數(shù)據(jù)生成方法,在更具挑戰(zhàn)性的MATH數(shù)據(jù)集上,也獲得了8.7%的絕對(duì)提升。
- 在專業(yè)知識(shí)領(lǐng)域:該方法的優(yōu)勢(shì)同樣延伸到了需要高度專業(yè)知識(shí)的領(lǐng)域。在MedQA(醫(yī)學(xué))、CQA(法律)和 CFA(金融)等基準(zhǔn)測(cè)試中,分別取得了8.9%、17.7%和13.7%的絕對(duì)性能提升。
- 在科學(xué)領(lǐng)域:在GPQA(研究生水平科學(xué)問答)這一高難度任務(wù)上,其性能提升同樣顯著,達(dá)到了13.1%
同等數(shù)據(jù)預(yù)算下的效率優(yōu)勢(shì)
該框架最引人注目的優(yōu)勢(shì)之一在于其極高的數(shù)據(jù)效率。在與使用「真實(shí)」人工標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的方法進(jìn)行同等數(shù)據(jù)預(yù)算的公平比較時(shí),Synthetic Data RL表現(xiàn)出了顯著的優(yōu)勢(shì)。
- 完勝監(jiān)督微調(diào)(SFT):當(dāng)訓(xùn)練預(yù)算被限制在相同數(shù)量(例如500個(gè)樣本)時(shí),「合成數(shù)據(jù)強(qiáng)化學(xué)習(xí)」方法的效果遠(yuǎn)超傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法 。例如,在GSM8K任務(wù)上,SFT使用500個(gè)人類樣本僅能達(dá)到74.5%的準(zhǔn)確率,而該框架則達(dá)到了91.7%。這突顯了在數(shù)據(jù)稀缺的情況下,RL相較于SFT的普遍優(yōu)越性。
- 媲美甚至超越人類數(shù)據(jù)RL:更令人印象深刻的是,該方法不僅效果好,而且效率極高。在使用同等數(shù)量(500個(gè)樣本)的訓(xùn)練數(shù)據(jù)時(shí),它的表現(xiàn)能夠持平甚至略微超過使用「真實(shí)」人類標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練的強(qiáng)化學(xué)習(xí)(RL)方法。
在GSM8K任務(wù)上,使用500個(gè)合成樣本的準(zhǔn)確率(91.7%)甚至略高于使用500個(gè)人類樣本的RL(91.2%)。這一趨勢(shì)在不同數(shù)據(jù)預(yù)算(100、300、1000個(gè)樣本)的消融研究中也得到了證實(shí)(詳情見原文),表明該方法始終能與使用人類數(shù)據(jù)的RL基線相媲美或更優(yōu)。
人工數(shù)據(jù)指導(dǎo)的邊際效益遞減
表1的研究結(jié)果進(jìn)一步揭示了一個(gè)重要現(xiàn)象:對(duì)模型合成數(shù)據(jù)而言,掌握任務(wù)的正確「形式」比學(xué)習(xí)大量具體「實(shí)例」更為關(guān)鍵,這一點(diǎn)體現(xiàn)在人類標(biāo)注數(shù)據(jù)呈現(xiàn)出的邊際效益遞減上:
當(dāng)模型通過「合成數(shù)據(jù)強(qiáng)化學(xué)習(xí)」框架,僅從任務(wù)定義中學(xué)習(xí)并掌握了任務(wù)的底層結(jié)構(gòu)后,其性能已經(jīng)達(dá)到了一個(gè)非常高的水平。
此時(shí),額外增加由人類標(biāo)注的演示示例,所帶來的性能提升變得非常有限。例如,在GSM8K基準(zhǔn)測(cè)試上的表現(xiàn):
僅使用任務(wù)定義進(jìn)行訓(xùn)練的模型,其準(zhǔn)確率已經(jīng)可以達(dá)到91.7%;在此基礎(chǔ)上,即便再增加100個(gè)高質(zhì)量的人類演示樣本來指導(dǎo)合成數(shù)據(jù),最終的準(zhǔn)確率也僅僅微升至92.1%
這種微小的、漸進(jìn)式的改進(jìn)并非孤例,在其他多個(gè)數(shù)據(jù)集上也觀察到了相似的趨勢(shì),例如在MATH、LogiQA、MedQA和MedNLI等任務(wù)上,隨著人類演示樣本的增加,性能也只是略有提高 。
弱者教出強(qiáng)者
另一個(gè)有趣的發(fā)現(xiàn)是,「合成數(shù)據(jù)強(qiáng)化學(xué)習(xí)」框架能夠讓一個(gè)相對(duì)較弱的指導(dǎo)模型(「老師」)訓(xùn)練出一個(gè)在性能上超越其自身的、更強(qiáng)大的模型(「學(xué)生」)。
在相關(guān)的驗(yàn)證實(shí)驗(yàn)中,研究者將原本作為指導(dǎo)模型、性能頂尖的 GPT-4o 替換為能力相對(duì)較弱的Qwen-2.5-7B-Instruct模型,并由這個(gè)「弱老師」來完成生成合成數(shù)據(jù)和調(diào)整難度分布的全部任務(wù)。
從表1的最后一行結(jié)果顯示,最終訓(xùn)練出的基礎(chǔ)模型(即「學(xué)生模型」)在包括GSM8K、GPQA、LogiQA、MedNLI、CQA和CFA在內(nèi)的六個(gè)基準(zhǔn)測(cè)試中,其表現(xiàn)均超越了它的「老師」Qwen-2.5-7B-Instruct模型,并在其余兩個(gè)任務(wù)上達(dá)到了與之相當(dāng)?shù)乃健?/span>
開啟模型適應(yīng)的新范式
Synthetic Data RL框架的提出,為大模型在專業(yè)領(lǐng)域的低成本、高效率適配提供了全新的解決方案。它通過將自動(dòng)化數(shù)據(jù)合成與強(qiáng)化學(xué)習(xí)相結(jié)合,將模型微調(diào)的門檻從昂貴的人工數(shù)據(jù)標(biāo)注,降低到了一個(gè)簡(jiǎn)單的任務(wù)描述,無需任何后續(xù)的人工標(biāo)注或反饋。
這項(xiàng)工作證明了在無需大量人力投入的情況下,依然可以實(shí)現(xiàn)高質(zhì)量、高效率的領(lǐng)域模型定制化,使得強(qiáng)大的AI能力適配變得更加規(guī)模化和成本可控,為未來更廣泛的應(yīng)用(如多模態(tài)任務(wù))奠定了堅(jiān)實(shí)的基礎(chǔ)。