阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型
LRMs 在通過強(qiáng)化學(xué)習(xí)(RL)提升了推理能力,但,擴(kuò)展到長文本場景(如 120K tokens)仍然是一個未解決的挑戰(zhàn),為此,阿里提出并開源了QwenLong-L1框架,首個通過強(qiáng)化學(xué)習(xí)訓(xùn)練用于長文本情境推理的長文本情境大型推理模型(LRM)。
QwenLong-L1-32B優(yōu)于OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRMs,其性能與Claude-3.7-Sonnet-Thinking相當(dāng),展現(xiàn)出在最先進(jìn)的LRMs中領(lǐng)先的性能。
QwenLong-L1是一個新穎的強(qiáng)化學(xué)習(xí) (RL) 框架,旨在促進(jìn) LRM 從短上下文熟練度向穩(wěn)健的長上下文泛化能力的轉(zhuǎn)變。在初步實(shí)驗(yàn)中,展示了短上下文和長上下文推理 RL 訓(xùn)練動態(tài)之間的差異。
- QWENLONG-L1 框架:該框架通過逐步擴(kuò)展上下文(progressive context scaling)的方式,將短文本情境的 LRMs 適應(yīng)到長文本情境。它包含三個核心組件:
預(yù)熱階段的有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT):通過高質(zhì)量的標(biāo)注數(shù)據(jù)對模型進(jìn)行初始化,以建立穩(wěn)健的初始策略。
基于課程的分階段強(qiáng)化學(xué)習(xí)(Curriculum-Guided Phased RL):通過逐步增加輸入長度的方式,穩(wěn)定地從短文本到長文本進(jìn)行適應(yīng)。
基于難度感知的回顧性采樣策略(Difficulty-Aware Retrospective Sampling):通過優(yōu)先采樣復(fù)雜實(shí)例來激勵策略探索。
- RL 算法:文章采用了GRPO(Group Relative Policy Optimization)和DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)兩種算法,以提高訓(xùn)練的穩(wěn)定性和效率。
- 混合獎勵機(jī)制(Hybrid Reward Mechanisms):結(jié)合基于規(guī)則的驗(yàn)證(rule-based verification)和基于 LLM 的判斷(LLM-as-a-judge),平衡了精確性和召回率。
QwenLong-L1-32B是第一個使用強(qiáng)化學(xué)習(xí)訓(xùn)練的用于長上下文推理的長上下文 LRM。在七個長上下文 DocQA 基準(zhǔn)上的實(shí)驗(yàn)表明,QwenLong-L1-32B 的表現(xiàn)優(yōu)于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦 LRM,達(dá)到了與 Claude-3.7-Sonnet-Thinking 相當(dāng)?shù)男阅埽谧钕冗M(jìn)的 LRM 中表現(xiàn)出色。
https://www.arxiv.org/pdf/2505.17667
QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B
本文轉(zhuǎn)載自??PaperAgent??
