成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型

發(fā)布于 2025-5-30 05:33
瀏覽
0收藏

LRMs 在通過強(qiáng)化學(xué)習(xí)(RL)提升了推理能力,但,擴(kuò)展到長文本場景(如 120K tokens)仍然是一個未解決的挑戰(zhàn),為此,阿里提出并開源了QwenLong-L1框架,首個通過強(qiáng)化學(xué)習(xí)訓(xùn)練用于長文本情境推理的長文本情境大型推理模型(LRM)。

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1-32B優(yōu)于OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRMs,其性能與Claude-3.7-Sonnet-Thinking相當(dāng),展現(xiàn)出在最先進(jìn)的LRMs中領(lǐng)先的性能。

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1是一個新穎的強(qiáng)化學(xué)習(xí) (RL) 框架,旨在促進(jìn) LRM 從短上下文熟練度向穩(wěn)健的長上下文泛化能力的轉(zhuǎn)變。在初步實(shí)驗(yàn)中,展示了短上下文和長上下文推理 RL 訓(xùn)練動態(tài)之間的差異。

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

  • QWENLONG-L1 框架:該框架通過逐步擴(kuò)展上下文(progressive context scaling)的方式,將短文本情境的 LRMs 適應(yīng)到長文本情境。它包含三個核心組件:

預(yù)熱階段的有監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT):通過高質(zhì)量的標(biāo)注數(shù)據(jù)對模型進(jìn)行初始化,以建立穩(wěn)健的初始策略。

基于課程的分階段強(qiáng)化學(xué)習(xí)(Curriculum-Guided Phased RL):通過逐步增加輸入長度的方式,穩(wěn)定地從短文本到長文本進(jìn)行適應(yīng)。

基于難度感知的回顧性采樣策略(Difficulty-Aware Retrospective Sampling):通過優(yōu)先采樣復(fù)雜實(shí)例來激勵策略探索。

  • RL 算法:文章采用了GRPO(Group Relative Policy Optimization)DAPO(Decoupled Clip and Dynamic Sampling Policy Optimization)兩種算法,以提高訓(xùn)練的穩(wěn)定性和效率。
  • 混合獎勵機(jī)制(Hybrid Reward Mechanisms):結(jié)合基于規(guī)則的驗(yàn)證(rule-based verification)和基于 LLM 的判斷(LLM-as-a-judge),平衡了精確性和召回率。

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

QwenLong-L1-32B是第一個使用強(qiáng)化學(xué)習(xí)訓(xùn)練的用于長上下文推理的長上下文 LRM。在七個長上下文 DocQA 基準(zhǔn)上的實(shí)驗(yàn)表明,QwenLong-L1-32B 的表現(xiàn)優(yōu)于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦 LRM,達(dá)到了與 Claude-3.7-Sonnet-Thinking 相當(dāng)?shù)男阅埽谧钕冗M(jìn)的 LRM 中表現(xiàn)出色。

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

阿里開源QwenLong-L1:首個以強(qiáng)化學(xué)習(xí)訓(xùn)練的長上下文推理大模型-AI.x社區(qū)

https://www.arxiv.org/pdf/2505.17667
QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

本文轉(zhuǎn)載自??PaperAgent??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久人人网 | 国产精品视频免费 | 99久久精品免费看国产小宝寻花 | 久久99国产精一区二区三区 | 久久久精品视频一区二区三区 | 黄色免费在线观看 | 久久成人一区二区三区 | 国产成人亚洲精品 | 日韩国产在线观看 | 国产美女一区二区 | 男人的天堂视频网站 | 在线成人 | 国产九九精品视频 | 欧美福利一区 | 国产一区二区在线免费 | 精品一区二区av | 偷拍亚洲色图 | 2019中文字幕视频 | 亚洲精品电影网在线观看 | 成人在线观看网址 | 人人草人人干 | 欧美日韩一区二区三区四区五区 | 国产目拍亚洲精品99久久精品 | 嫩草懂你的影院入口 | 色吊丝2288sds中文字幕 | 欧美一级久久精品 | 亚洲精品黄 | 日本网站免费观看 | 日韩欧美在线观看 | 国产精品美女久久久久久免费 | 中文字幕av一区 | 欧美成人精品激情在线观看 | 国产美女一区二区 | 在线区 | 亚洲欧美在线观看 | 国产91av视频 | 亚洲一二三在线观看 | 欧美日韩视频 | 2019天天干天天操 | 国产精品视频久久久久 | 视频1区|