阿里發(fā)布 QwenLong-L1 超長(zhǎng)文本殺器！已開(kāi)源、支持 120k 長(zhǎng)上下文、具備“翻書回溯”能力

2025-06-03 00:00:09

近日，阿里巴巴把一套可閱讀 120 k token 超長(zhǎng)文檔、還能“回頭修正”的訓(xùn)練框架“QwenLong-L1”完整開(kāi)源，給上述瓶頸了一個(gè)清晰的、可行的解決思路。

業(yè)界普遍認(rèn)為AI上下文越長(zhǎng)越好，但這存在一個(gè)核心矛盾：模型能“吞下”海量信息，卻難以真正“消化”。面對(duì)長(zhǎng)文，它們會(huì)忘記要點(diǎn)、無(wú)法深入推理，這已成為一大瓶頸。

例如，AI 能記住第1頁(yè)的內(nèi)容，同時(shí)理解第100頁(yè)的觀點(diǎn)，并將兩者聯(lián)系起來(lái)進(jìn)行推理嗎？多數(shù)情況下，答案是令人失望的。

這就像開(kāi)卷考試，書太厚，你找不到答案在哪，開(kāi)卷也等于零分。研究者把這種瓶頸正式命名為“長(zhǎng)上下文推理 RL”，強(qiáng)調(diào)模型必須先檢索并定位片段，再進(jìn)行多步邏輯鏈生成，而不是直接“憑存貨作答”。

《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。

GitHub地址：https://github.com/Tongyi-Zhiwen/QwenLong-L1

論文地址：https://arxiv.org/abs/2505.17667

QwenLong-L1的解法：一套“三步走”的戰(zhàn)略

QwenLong-L1 并不是一個(gè)新模型，而是一套訓(xùn)練已有大模型的新方法——它采用了三階段訓(xùn)練流程：

第一步有監(jiān)督學(xué)習(xí)（SFT）階段。模型在這一階段接受的是大量經(jīng)過(guò)標(biāo)注的長(zhǎng)文本推理樣本，比如“從一份 20 頁(yè)的財(cái)報(bào)中，找出企業(yè)未來(lái)三年關(guān)鍵成本控制策略”。這一步幫助模型建立對(duì)“長(zhǎng)內(nèi)容”的基礎(chǔ)適應(yīng)力：哪里該找信息？信息之間有什么邏輯鏈？如何根據(jù)內(nèi)容生成回答？這一階段不是靠猜答案，而是靠“看例子學(xué)”。

第二步是“分級(jí)強(qiáng)化”——隨著文檔長(zhǎng)度逐步增加，模型被分階段推進(jìn)強(qiáng)化學(xué)習(xí)過(guò)程。訓(xùn)練初期，輸入文檔較短；模型表現(xiàn)穩(wěn)定后，再逐步拉長(zhǎng)輸入。這就像教孩子寫作業(yè)，從看一頁(yè)材料回答問(wèn)題，慢慢過(guò)渡到處理整本教材。“突然上難度”的方法常常訓(xùn)練崩盤，而這套“課程表”式的推進(jìn)方式，使得模型策略進(jìn)化更可控、更穩(wěn)定。

第三步是“難題反復(fù)訓(xùn)練”——用最難的樣本反復(fù)優(yōu)化模型的策略空間。這一步被稱為“困難感知的回顧采樣”（Difficulty-Aware Retrospective Sampling）：它刻意選擇那些模型曾經(jīng)做錯(cuò)、但又具有代表性的難題進(jìn)行強(qiáng)化學(xué)習(xí)，從而鼓勵(lì)模型嘗試不同思路路徑，并形成反思、回溯、驗(yàn)證的能力。

更妙的是，它還引入了一套混合獎(jiǎng)勵(lì)機(jī)制。不同于傳統(tǒng)解數(shù)學(xué)題那樣“答案對(duì)就給滿分”的死板規(guī)則，QwenLong-L1同時(shí)引入了“規(guī)則裁判”和“LLM裁判”。 “規(guī)則裁判”確保答案的精確性，而“LLM裁判”則從語(yǔ)義上判斷模型生成的內(nèi)容和標(biāo)準(zhǔn)答案是否意思相近。這給了模型更大的靈活性，尤其是在處理那些沒(méi)有唯一標(biāo)準(zhǔn)答案的開(kāi)放性問(wèn)題時(shí)，效果拔群。

效果如何？它學(xué)會(huì)了“自我糾錯(cuò)”

阿里團(tuán)隊(duì)在7個(gè)長(zhǎng)文本問(wèn)答（DocQA）基準(zhǔn)上測(cè)試了QwenLong-L1。結(jié)果非常亮眼。基于DeepSeek-R1-32B訓(xùn)練出的QWENLONG-L1-32B模型，其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美，并且優(yōu)于OpenAI的o3-mini等一眾強(qiáng)手。

但比分?jǐn)?shù)更重要的，是模型在推理過(guò)程中展現(xiàn)出的“行為變化”。論文提到，經(jīng)過(guò)QwenLong-L1訓(xùn)練后，模型明顯更擅長(zhǎng)信息定位（Grounding）、子目標(biāo)設(shè)定（Subgoal Setting）、回溯（Backtracking）和驗(yàn)證（Verification）。

這是什么意思呢？舉個(gè)例子，一個(gè)普通模型在分析一份冗長(zhǎng)的財(cái)報(bào)時(shí)，可能會(huì)被無(wú)關(guān)的細(xì)節(jié)帶跑偏，或者陷入某個(gè)死胡同里出不來(lái)。而QwenLong-L1訓(xùn)練的模型，則表現(xiàn)出了驚人的自我反思和糾錯(cuò)能力。它在推理過(guò)程中如果發(fā)現(xiàn)一條路走不通，會(huì)主動(dòng)“回溯”，退回到上一步，排除干擾信息，然后選擇另一條路繼續(xù)探索，直至找到正確答案。

責(zé)任編輯：姜華來(lái)源：大數(shù)據(jù)文摘

AI 長(zhǎng)上下文推理 RL 大模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里發(fā)布 QwenLong-L1 超長(zhǎng)文本殺器！已開(kāi)源、支持 120k 長(zhǎng)上下文、具備“翻書回溯”能力

QwenLong-L1的解法：一套“三步走”的戰(zhàn)略

效果如何？它學(xué)會(huì)了“自我糾錯(cuò)”