成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里發(fā)布 QwenLong-L1 超長(zhǎng)文本殺器!已開(kāi)源、支持 120k 長(zhǎng)上下文、具備“翻書回溯”能力

人工智能
近日,阿里巴巴把一套可閱讀 120 k token 超長(zhǎng)文檔、還能“回頭修正”的訓(xùn)練框架“QwenLong-L1”完整開(kāi)源,給上述瓶頸了一個(gè)清晰的、可行的解決思路。

業(yè)界普遍認(rèn)為AI上下文越長(zhǎng)越好,但這存在一個(gè)核心矛盾:模型能“吞下”海量信息,卻難以真正“消化”。面對(duì)長(zhǎng)文,它們會(huì)忘記要點(diǎn)、無(wú)法深入推理,這已成為一大瓶頸。

例如,AI 能記住第1頁(yè)的內(nèi)容,同時(shí)理解第100頁(yè)的觀點(diǎn),并將兩者聯(lián)系起來(lái)進(jìn)行推理嗎? 多數(shù)情況下,答案是令人失望的。

這就像開(kāi)卷考試,書太厚,你找不到答案在哪,開(kāi)卷也等于零分。 研究者把這種瓶頸正式命名為“長(zhǎng)上下文推理 RL”,強(qiáng)調(diào)模型必須先檢索并定位片段,再進(jìn)行多步邏輯鏈生成,而不是直接“憑存貨作答”。

近日,阿里巴巴把一套可閱讀 120 k token 超長(zhǎng)文檔、還能“回頭修正”的訓(xùn)練框架“QwenLong-L1”完整開(kāi)源,給上述瓶頸了一個(gè)清晰的、可行的解決思路。

《QwenLong-L1: A Framework for Long-Context Reasoning RL》論文。

GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1

論文地址:https://arxiv.org/abs/2505.17667

QwenLong-L1的解法:一套“三步走”的戰(zhàn)略

QwenLong-L1 并不是一個(gè)新模型,而是一套訓(xùn)練已有大模型的新方法——它采用了三階段訓(xùn)練流程:

第一步有監(jiān)督學(xué)習(xí)(SFT)階段。模型在這一階段接受的是大量經(jīng)過(guò)標(biāo)注的長(zhǎng)文本推理樣本,比如“從一份 20 頁(yè)的財(cái)報(bào)中,找出企業(yè)未來(lái)三年關(guān)鍵成本控制策略”。這一步幫助模型建立對(duì)“長(zhǎng)內(nèi)容”的基礎(chǔ)適應(yīng)力:哪里該找信息?信息之間有什么邏輯鏈?如何根據(jù)內(nèi)容生成回答?這一階段不是靠猜答案,而是靠“看例子學(xué)”。

第二步是“分級(jí)強(qiáng)化”——隨著文檔長(zhǎng)度逐步增加,模型被分階段推進(jìn)強(qiáng)化學(xué)習(xí)過(guò)程。訓(xùn)練初期,輸入文檔較短;模型表現(xiàn)穩(wěn)定后,再逐步拉長(zhǎng)輸入。這就像教孩子寫作業(yè),從看一頁(yè)材料回答問(wèn)題,慢慢過(guò)渡到處理整本教材。“突然上難度”的方法常常訓(xùn)練崩盤,而這套“課程表”式的推進(jìn)方式,使得模型策略進(jìn)化更可控、更穩(wěn)定。

第三步是“難題反復(fù)訓(xùn)練”——用最難的樣本反復(fù)優(yōu)化模型的策略空間。這一步被稱為“困難感知的回顧采樣”(Difficulty-Aware Retrospective Sampling):它刻意選擇那些模型曾經(jīng)做錯(cuò)、但又具有代表性的難題進(jìn)行強(qiáng)化學(xué)習(xí),從而鼓勵(lì)模型嘗試不同思路路徑,并形成反思、回溯、驗(yàn)證的能力。

更妙的是,它還引入了一套混合獎(jiǎng)勵(lì)機(jī)制。 不同于傳統(tǒng)解數(shù)學(xué)題那樣“答案對(duì)就給滿分”的死板規(guī)則,QwenLong-L1同時(shí)引入了“規(guī)則裁判”和“LLM裁判”。 “規(guī)則裁判”確保答案的精確性,而“LLM裁判”則從語(yǔ)義上判斷模型生成的內(nèi)容和標(biāo)準(zhǔn)答案是否意思相近。這給了模型更大的靈活性,尤其是在處理那些沒(méi)有唯一標(biāo)準(zhǔn)答案的開(kāi)放性問(wèn)題時(shí),效果拔群。

效果如何?它學(xué)會(huì)了“自我糾錯(cuò)”

阿里團(tuán)隊(duì)在7個(gè)長(zhǎng)文本問(wèn)答(DocQA)基準(zhǔn)上測(cè)試了QwenLong-L1。結(jié)果非常亮眼。 基于DeepSeek-R1-32B訓(xùn)練出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且優(yōu)于OpenAI的o3-mini等一眾強(qiáng)手。

但比分?jǐn)?shù)更重要的,是模型在推理過(guò)程中展現(xiàn)出的“行為變化”。 論文提到,經(jīng)過(guò)QwenLong-L1訓(xùn)練后,模型明顯更擅長(zhǎng)信息定位(Grounding)子目標(biāo)設(shè)定(Subgoal Setting)回溯(Backtracking)驗(yàn)證(Verification)

這是什么意思呢? 舉個(gè)例子,一個(gè)普通模型在分析一份冗長(zhǎng)的財(cái)報(bào)時(shí),可能會(huì)被無(wú)關(guān)的細(xì)節(jié)帶跑偏,或者陷入某個(gè)死胡同里出不來(lái)。 而QwenLong-L1訓(xùn)練的模型,則表現(xiàn)出了驚人的自我反思和糾錯(cuò)能力。它在推理過(guò)程中如果發(fā)現(xiàn)一條路走不通,會(huì)主動(dòng)“回溯”,退回到上一步,排除干擾信息,然后選擇另一條路繼續(xù)探索,直至找到正確答案。

責(zé)任編輯:姜華 來(lái)源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-05-28 11:46:52

強(qiáng)化學(xué)習(xí)模型AI

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2024-03-11 13:20:00

模型AI

2025-03-17 12:55:18

2024-09-30 14:10:00

2024-01-17 13:59:00

AI開(kāi)源

2024-02-06 20:39:21

2025-01-15 13:09:12

2023-10-11 13:21:12

模型數(shù)據(jù)

2025-01-15 12:27:11

2024-07-23 12:32:11

2024-09-05 08:24:09

2024-01-03 13:40:00

AI訓(xùn)練

2023-10-09 14:17:00

AI模型

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-06-06 08:00:00

上下文管理器Python開(kāi)發(fā)

2024-11-20 09:36:00

2023-07-11 10:02:23

2023-09-16 13:47:47

人工智能數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 中文字幕视频三区 | 亚洲精品久久久久久久久久久久久 | 精品一区二区在线观看 | 一级久久久久久 | 国产精品一区一区 | av资源中文在线天堂 | 亚洲成人精 | 韩国毛片一区二区三区 | 91久久精| 日韩精品视频在线观看一区二区三区 | 国产成人网 | 欧美日韩国产精品一区二区 | 欧美中文字幕一区二区 | 成人久久网 | 成人毛片视频免费 | 国产亚洲黄色片 | 91在线看片| 成人片在线看 | 国产伊人久久久 | 在线视频中文字幕 | 国产欧美一区二区三区免费 | 亚洲一区二区中文字幕 | 欧美激情国产精品 | 久热精品在线观看视频 | 一区二区三区在线免费观看视频 | 日韩欧美国产一区二区三区 | 欧美成人一区二区 | 拍真实国产伦偷精品 | av手机免费在线观看 | 日本黄色免费视频 | 岛国av一区二区 | 亚洲www啪成人一区二区麻豆 | 国产精品国产a级 | 国产成人免费视频网站高清观看视频 | 亚洲女人天堂成人av在线 | 四虎影院在线播放 | 色欧美综合 | 久久精品国产久精国产 | 国产成人精品一区二区三区在线观看 | 狠狠影院| 二区欧美 |