阿里發(fā)布 QwenLong-L1 超長(zhǎng)文本殺器!已開(kāi)源、支持 120k 長(zhǎng)上下文、具備“翻書回溯”能力
業(yè)界普遍認(rèn)為AI上下文越長(zhǎng)越好,但這存在一個(gè)核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對(duì)長(zhǎng)文,它們會(huì)忘記要點(diǎn)、無(wú)法深入推理,這已成為一大瓶頸。
例如,AI 能記住第1頁(yè)的內(nèi)容,同時(shí)理解第100頁(yè)的觀點(diǎn),并將兩者聯(lián)系起來(lái)進(jìn)行推理嗎? 多數(shù)情況下,答案是令人失望的。
這就像開(kāi)卷考試,書太厚,你找不到答案在哪,開(kāi)卷也等于零分。 研究者把這種瓶頸正式命名為“長(zhǎng)上下文推理 RL”,強(qiáng)調(diào)模型必須先檢索并定位片段,再進(jìn)行多步邏輯鏈生成,而不是直接“憑存貨作答”。
近日,阿里巴巴把一套可閱讀 120 k token 超長(zhǎng)文檔、還能“回頭修正”的訓(xùn)練框架“QwenLong-L1”完整開(kāi)源,給上述瓶頸了一個(gè)清晰的、可行的解決思路。
《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。
GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1
論文地址:https://arxiv.org/abs/2505.17667
QwenLong-L1的解法:一套“三步走”的戰(zhàn)略
QwenLong-L1 并不是一個(gè)新模型,而是一套訓(xùn)練已有大模型的新方法——它采用了三階段訓(xùn)練流程:
第一步有監(jiān)督學(xué)習(xí)(SFT)階段。模型在這一階段接受的是大量經(jīng)過(guò)標(biāo)注的長(zhǎng)文本推理樣本,比如“從一份 20 頁(yè)的財(cái)報(bào)中,找出企業(yè)未來(lái)三年關(guān)鍵成本控制策略”。這一步幫助模型建立對(duì)“長(zhǎng)內(nèi)容”的基礎(chǔ)適應(yīng)力:哪里該找信息?信息之間有什么邏輯鏈?如何根據(jù)內(nèi)容生成回答?這一階段不是靠猜答案,而是靠“看例子學(xué)”。
第二步是“分級(jí)強(qiáng)化”——隨著文檔長(zhǎng)度逐步增加,模型被分階段推進(jìn)強(qiáng)化學(xué)習(xí)過(guò)程。訓(xùn)練初期,輸入文檔較短;模型表現(xiàn)穩(wěn)定后,再逐步拉長(zhǎng)輸入。這就像教孩子寫作業(yè),從看一頁(yè)材料回答問(wèn)題,慢慢過(guò)渡到處理整本教材。“突然上難度”的方法常常訓(xùn)練崩盤,而這套“課程表”式的推進(jìn)方式,使得模型策略進(jìn)化更可控、更穩(wěn)定。
第三步是“難題反復(fù)訓(xùn)練”——用最難的樣本反復(fù)優(yōu)化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經(jīng)做錯(cuò)、但又具有代表性的難題進(jìn)行強(qiáng)化學(xué)習(xí),從而鼓勵(lì)模型嘗試不同思路路徑,并形成反思、回溯、驗(yàn)證的能力。
更妙的是,它還引入了一套混合獎(jiǎng)勵(lì)機(jī)制。 不同于傳統(tǒng)解數(shù)學(xué)題那樣“答案對(duì)就給滿分”的死板規(guī)則,QwenLong-L1同時(shí)引入了“規(guī)則裁判”和“LLM裁判”。 “規(guī)則裁判”確保答案的精確性,而“LLM裁判”則從語(yǔ)義上判斷模型生成的內(nèi)容和標(biāo)準(zhǔn)答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒(méi)有唯一標(biāo)準(zhǔn)答案的開(kāi)放性問(wèn)題時(shí),效果拔群。
效果如何?它學(xué)會(huì)了“自我糾錯(cuò)”
阿里團(tuán)隊(duì)在7個(gè)長(zhǎng)文本問(wèn)答(DocQA)基準(zhǔn)上測(cè)試了QwenLong-L1。結(jié)果非常亮眼。 基于DeepSeek-R1-32B訓(xùn)練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優(yōu)于OpenAI的o3-mini等一眾強(qiáng)手。
但比分?jǐn)?shù)更重要的,是模型在推理過(guò)程中展現(xiàn)出的“行為變化”。 論文提到,經(jīng)過(guò)QwenLong-L1訓(xùn)練后,模型明顯更擅長(zhǎng)信息定位(Grounding)、子目標(biāo)設(shè)定(Subgoal Setting)、回溯(Backtracking)和驗(yàn)證(Verification)。
這是什么意思呢? 舉個(gè)例子,一個(gè)普通模型在分析一份冗長(zhǎng)的財(cái)報(bào)時(shí),可能會(huì)被無(wú)關(guān)的細(xì)節(jié)帶跑偏,或者陷入某個(gè)死胡同里出不來(lái)。 而QwenLong-L1訓(xùn)練的模型,則表現(xiàn)出了驚人的自我反思和糾錯(cuò)能力。它在推理過(guò)程中如果發(fā)現(xiàn)一條路走不通,會(huì)主動(dòng)“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續(xù)探索,直至找到正確答案。