阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型

發(fā)布于 2025-5-30 05:33

瀏覽

0收藏

LRMs 在通過強(qiáng)化學(xué)習(xí)（RL）提升了推理能力，但，擴(kuò)展到長文本場景（如 120K tokens）仍然是一個未解決的挑戰(zhàn)，為此，阿里提出并開源了QwenLong-L1框架，首個通過強(qiáng)化學(xué)習(xí)訓(xùn)練用于長文本情境推理的長文本情境大型推理模型（LRM）。

阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1-32B優(yōu)于OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRMs，其性能與Claude-3.7-Sonnet-Thinking相當(dāng)，展現(xiàn)出在最先進(jìn)的LRMs中領(lǐng)先的性能。

阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1是一個新穎的強(qiáng)化學(xué)習(xí) (RL) 框架，旨在促進(jìn) LRM 從短上下文熟練度向穩(wěn)健的長上下文泛化能力的轉(zhuǎn)變。在初步實(shí)驗(yàn)中，展示了短上下文和長上下文推理 RL 訓(xùn)練動態(tài)之間的差異。

阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QWENLONG-L1 框架：該框架通過逐步擴(kuò)展上下文（progressive context scaling）的方式，將短文本情境的 LRMs 適應(yīng)到長文本情境。它包含三個核心組件：

預(yù)熱階段的有監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）：通過高質(zhì)量的標(biāo)注數(shù)據(jù)對模型進(jìn)行初始化，以建立穩(wěn)健的初始策略。

基于課程的分階段強(qiáng)化學(xué)習(xí)（Curriculum-Guided Phased RL）：通過逐步增加輸入長度的方式，穩(wěn)定地從短文本到長文本進(jìn)行適應(yīng)。

基于難度感知的回顧性采樣策略（Difficulty-Aware Retrospective Sampling）：通過優(yōu)先采樣復(fù)雜實(shí)例來激勵策略探索。

RL 算法：文章采用了GRPO（Group Relative Policy Optimization）和DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）兩種算法，以提高訓(xùn)練的穩(wěn)定性和效率。
混合獎勵機(jī)制（Hybrid Reward Mechanisms）：結(jié)合基于規(guī)則的驗(yàn)證（rule-based verification）和基于 LLM 的判斷（LLM-as-a-judge），平衡了精確性和召回率。

阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1-32B是第一個使用強(qiáng)化學(xué)習(xí)訓(xùn)練的用于長上下文推理的長上下文 LRM。在七個長上下文 DocQA 基準(zhǔn)上的實(shí)驗(yàn)表明，QwenLong-L1-32B 的表現(xiàn)優(yōu)于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦 LRM，達(dá)到了與 Claude-3.7-Sonnet-Thinking 相當(dāng)?shù)男阅埽谧钕冗M(jìn)的 LRM 中表現(xiàn)出色。

阿里開源QwenLong-L1：首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

https://www.arxiv.org/pdf/2505.17667
QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

本文轉(zhuǎn)載自??PaperAgent??

標(biāo)簽

開源

QwenLong-L1

學(xué)習(xí)訓(xùn)練

贊

回復(fù)