阿里開(kāi)源長(zhǎng)文本深度思考模型!漸進(jìn)式強(qiáng)化學(xué)習(xí)破解長(zhǎng)文本訓(xùn)練難題,登HuggingFace熱榜
推理大模型開(kāi)卷新方向,阿里開(kāi)源長(zhǎng)文本深度思考模型QwenLong-L1,登上HuggingFace今日熱門論文第二。
其32B參數(shù)版本超過(guò)OpenAI-o3-mini、Qwen3-235B-A22B等,取得與Claude-3.7-Sonnet-Thingking相當(dāng)?shù)男阅堋?/span>
除測(cè)評(píng)分?jǐn)?shù)外,論文中還詳細(xì)展示了一個(gè)金融文檔推理的案例。傳統(tǒng)模型容易被無(wú)關(guān)細(xì)節(jié)誤導(dǎo),而QwenLong-L1通過(guò)回溯和驗(yàn)證機(jī)制過(guò)濾干擾信息,正確整合關(guān)鍵數(shù)據(jù)。
任務(wù)要求:根據(jù)文檔回答問(wèn)題“將優(yōu)先票據(jù)的發(fā)行成本與第一年的利息支出合并計(jì)算,總資本成本是多少?”
首先出場(chǎng)的基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導(dǎo),根據(jù)不相關(guān)的時(shí)間和財(cái)務(wù)信息,錯(cuò)誤計(jì)算了第一年的利息支付。
接下來(lái),經(jīng)過(guò)額外SFT的版本仍然未能解決這個(gè)問(wèn)題。
它在對(duì)不相關(guān)文檔進(jìn)行過(guò)度分析的循環(huán)中自我懷疑,最終盡了最大生成限制(10000 tokens),卻沒(méi)有給出最終答案。
相比之下,雖然QwenLong-L1-14B最初也表現(xiàn)出類似的分心,但它很快進(jìn)行了有效的自我反思。通過(guò)及時(shí)驗(yàn)證和回溯,成功過(guò)濾掉了不相關(guān)的細(xì)節(jié),得出了正確答案。
那么,QwenLong-L1是如何做到的?
漸進(jìn)式上下文擴(kuò)展
首先,現(xiàn)有推理模型在面對(duì)長(zhǎng)文本(如幾萬(wàn)字甚至更長(zhǎng))時(shí)遇到什么問(wèn)題?
Qwen團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),長(zhǎng)文本推理的強(qiáng)化學(xué)習(xí)訓(xùn)練存在兩個(gè)“硬傷”:
一是訓(xùn)練效率低,傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)方法在長(zhǎng)文本中容易陷入局部最優(yōu),獎(jiǎng)勵(lì)收斂慢,限制了策略優(yōu)化時(shí)的探索行為。
二是優(yōu)化過(guò)程不穩(wěn)定,長(zhǎng)文本任務(wù)的輸出長(zhǎng)度更高、輸入長(zhǎng)度分布不均勻,導(dǎo)致策略更新時(shí)的方差被放大,訓(xùn)練過(guò)程中參數(shù)更新不穩(wěn)定(如KL散度坐過(guò)山車)。
為此團(tuán)隊(duì)提出QwenLong-L1訓(xùn)練框架,核心是通過(guò)漸進(jìn)式上下文擴(kuò)展讓模型逐步適應(yīng)長(zhǎng)文本推理。訓(xùn)練過(guò)程分為兩階段:
預(yù)熱監(jiān)督微調(diào)(Warm-Up Supervised Fine-Tuning)
在開(kāi)始強(qiáng)化學(xué)習(xí)之前,先用高質(zhì)量的演示數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),讓模型先具備基本的長(zhǎng)文本理解能力、推理鏈生成能力和答案提取能力。
團(tuán)隊(duì)從DeepSeek-R1蒸餾了5.3K個(gè)高質(zhì)量的問(wèn)題-文檔-答案三元組,確保模型有個(gè)穩(wěn)定的起點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,這個(gè)”熱身”階段對(duì)后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練至關(guān)重要。
課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)(Curriculum-Guided Phased Reinforcement Learning)。
從短文本逐步過(guò)渡到長(zhǎng)文本。例如,先訓(xùn)練模型處理2萬(wàn)token的文本,穩(wěn)定后再增加到6萬(wàn)token,最后到128K。每個(gè)階段只關(guān)注對(duì)應(yīng)長(zhǎng)度的文本。
此外還引入了難度感知的回溯采樣機(jī)制。在進(jìn)入下一階段時(shí),會(huì)保留前一階段中最難的樣本(平均準(zhǔn)確率為零的那些),確保模型不會(huì)”忘記”如何處理困難案例。
長(zhǎng)文本問(wèn)答的答案往往比較開(kāi)放,單純的規(guī)則匹配太死板,可能漏掉正確答案。
QwenLong-L1在強(qiáng)化學(xué)習(xí)訓(xùn)練中采用混合獎(jiǎng)勵(lì)函數(shù),結(jié)合了基于規(guī)則的驗(yàn)證和LLM-as-a-Judge。
規(guī)則驗(yàn)證也就是直接檢查答案是否與標(biāo)準(zhǔn)答案完全一致(如數(shù)學(xué)題計(jì)算結(jié)果是否正確),再用另一個(gè)模型判斷答案的語(yǔ)義是否正確(應(yīng)對(duì)答案表述不同但意思一致的情況),兩者結(jié)合避免單一規(guī)則過(guò)于嚴(yán)格或?qū)捤?/span>
在DocMath、Frames、2WikimQA等七個(gè)長(zhǎng)文本基準(zhǔn)測(cè)試中,QwenLong-L1-14B相比基礎(chǔ)模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。
QwenLong-L1的32B版本相比基礎(chǔ)模型提升了5.1分,達(dá)到70.7的平均分。這個(gè)成績(jī)不僅超過(guò)了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。
團(tuán)隊(duì)還針對(duì)Test-time Scaling性能做了評(píng)估。當(dāng)生成16個(gè)候選答案時(shí),QwenLong-L1-14B的表現(xiàn)超過(guò)了DeepSeek-R1和OpenAI-o1-preview。
最后論文中還深入探討了兩個(gè)問(wèn)題:
- 既然SFT相對(duì)簡(jiǎn)單便宜,為什么還要費(fèi)勁搞強(qiáng)化學(xué)習(xí)(RL)?
實(shí)驗(yàn)結(jié)果很有啟發(fā)性。長(zhǎng)文本SFT確實(shí)能帶來(lái)2.6分的提升,比短文本SFT的效果更好。但是,如果在長(zhǎng)文本SFT的基礎(chǔ)上再做RL,提升幅度只有0.3分;而在短文本SFT基礎(chǔ)上做RL,卻能提升3.2分。
對(duì)此團(tuán)隊(duì)提出一個(gè)觀點(diǎn):SFT提供了一種經(jīng)濟(jì)的性能提升方式,而RL則是達(dá)到最優(yōu)性能必不可少的。
通過(guò)跟蹤分析了四種關(guān)鍵推理行為發(fā)現(xiàn)3個(gè)結(jié)論:信息定位(grounding)、子目標(biāo)設(shè)定(subgoal setting)、回溯(backtracking)和驗(yàn)證(verification)。
- 所有模型都展現(xiàn)出明顯的推理行為,尤其是信息定位行為出現(xiàn)頻率最高,這證明了它在處理上下文依賴推理時(shí)的重要性;
- 強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,這些行為會(huì)逐漸增強(qiáng),并與性能提升高度相關(guān),表明強(qiáng)化學(xué)習(xí)能有效調(diào)整輸出空間,優(yōu)先保留有助于得出準(zhǔn)確解答的推理模式
- 雖然SFT模型也能學(xué)會(huì)這些行為,但這些表面上的行為模仿并沒(méi)有帶來(lái)實(shí)質(zhì)性能提升,這揭示了SFT更關(guān)注表面模式匹配,而非實(shí)質(zhì)推理能力的培養(yǎng)。