成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里開(kāi)源長(zhǎng)文本深度思考模型!漸進(jìn)式強(qiáng)化學(xué)習(xí)破解長(zhǎng)文本訓(xùn)練難題,登HuggingFace熱榜

人工智能 新聞
SFT提供了一種經(jīng)濟(jì)的性能提升方式,而RL則是達(dá)到最優(yōu)性能必不可少的。

推理大模型開(kāi)卷新方向,阿里開(kāi)源長(zhǎng)文本深度思考模型QwenLong-L1,登上HuggingFace今日熱門論文第二。

圖片

其32B參數(shù)版本超過(guò)OpenAI-o3-mini、Qwen3-235B-A22B等,取得與Claude-3.7-Sonnet-Thingking相當(dāng)?shù)男阅堋?/span>

圖片

除測(cè)評(píng)分?jǐn)?shù)外,論文中還詳細(xì)展示了一個(gè)金融文檔推理的案例。傳統(tǒng)模型容易被無(wú)關(guān)細(xì)節(jié)誤導(dǎo),而QwenLong-L1通過(guò)回溯和驗(yàn)證機(jī)制過(guò)濾干擾信息,正確整合關(guān)鍵數(shù)據(jù)。

任務(wù)要求:根據(jù)文檔回答問(wèn)題“將優(yōu)先票據(jù)的發(fā)行成本與第一年的利息支出合并計(jì)算,總資本成本是多少?”

圖片

首先出場(chǎng)的基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-14B被文檔中“自2011年10月15日起每半年支付一次利息”誤導(dǎo),根據(jù)不相關(guān)的時(shí)間和財(cái)務(wù)信息,錯(cuò)誤計(jì)算了第一年的利息支付。

圖片

接下來(lái),經(jīng)過(guò)額外SFT的版本仍然未能解決這個(gè)問(wèn)題。

它在對(duì)不相關(guān)文檔進(jìn)行過(guò)度分析的循環(huán)中自我懷疑,最終盡了最大生成限制(10000 tokens),卻沒(méi)有給出最終答案。

圖片

相比之下,雖然QwenLong-L1-14B最初也表現(xiàn)出類似的分心,但它很快進(jìn)行了有效的自我反思。通過(guò)及時(shí)驗(yàn)證和回溯,成功過(guò)濾掉了不相關(guān)的細(xì)節(jié),得出了正確答案。

圖片

那么,QwenLong-L1是如何做到的?

漸進(jìn)式上下文擴(kuò)展

首先,現(xiàn)有推理模型在面對(duì)長(zhǎng)文本(如幾萬(wàn)字甚至更長(zhǎng))時(shí)遇到什么問(wèn)題?

Qwen團(tuán)隊(duì)通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),長(zhǎng)文本推理的強(qiáng)化學(xué)習(xí)訓(xùn)練存在兩個(gè)“硬傷”:

一是訓(xùn)練效率低,傳統(tǒng)強(qiáng)化學(xué)習(xí)(RL)方法在長(zhǎng)文本中容易陷入局部最優(yōu),獎(jiǎng)勵(lì)收斂慢,限制了策略優(yōu)化時(shí)的探索行為。

二是優(yōu)化過(guò)程不穩(wěn)定,長(zhǎng)文本任務(wù)的輸出長(zhǎng)度更高、輸入長(zhǎng)度分布不均勻,導(dǎo)致策略更新時(shí)的方差被放大,訓(xùn)練過(guò)程中參數(shù)更新不穩(wěn)定(如KL散度坐過(guò)山車)。

圖片

為此團(tuán)隊(duì)提出QwenLong-L1訓(xùn)練框架,核心是通過(guò)漸進(jìn)式上下文擴(kuò)展讓模型逐步適應(yīng)長(zhǎng)文本推理。訓(xùn)練過(guò)程分為兩階段:

圖片

預(yù)熱監(jiān)督微調(diào)(Warm-Up Supervised Fine-Tuning)

在開(kāi)始強(qiáng)化學(xué)習(xí)之前,先用高質(zhì)量的演示數(shù)據(jù)進(jìn)行監(jiān)督微調(diào),讓模型先具備基本的長(zhǎng)文本理解能力、推理鏈生成能力和答案提取能力。

團(tuán)隊(duì)從DeepSeek-R1蒸餾了5.3K個(gè)高質(zhì)量的問(wèn)題-文檔-答案三元組,確保模型有個(gè)穩(wěn)定的起點(diǎn)。實(shí)驗(yàn)結(jié)果顯示,這個(gè)”熱身”階段對(duì)后續(xù)的強(qiáng)化學(xué)習(xí)訓(xùn)練至關(guān)重要。

圖片

課程引導(dǎo)的分階段強(qiáng)化學(xué)習(xí)(Curriculum-Guided Phased Reinforcement Learning)。

從短文本逐步過(guò)渡到長(zhǎng)文本。例如,先訓(xùn)練模型處理2萬(wàn)token的文本,穩(wěn)定后再增加到6萬(wàn)token,最后到128K。每個(gè)階段只關(guān)注對(duì)應(yīng)長(zhǎng)度的文本。

此外還引入了難度感知的回溯采樣機(jī)制。在進(jìn)入下一階段時(shí),會(huì)保留前一階段中最難的樣本(平均準(zhǔn)確率為零的那些),確保模型不會(huì)”忘記”如何處理困難案例。

圖片

長(zhǎng)文本問(wèn)答的答案往往比較開(kāi)放,單純的規(guī)則匹配太死板,可能漏掉正確答案。

QwenLong-L1在強(qiáng)化學(xué)習(xí)訓(xùn)練中采用混合獎(jiǎng)勵(lì)函數(shù),結(jié)合了基于規(guī)則的驗(yàn)證和LLM-as-a-Judge。

圖片

規(guī)則驗(yàn)證也就是直接檢查答案是否與標(biāo)準(zhǔn)答案完全一致(如數(shù)學(xué)題計(jì)算結(jié)果是否正確),再用另一個(gè)模型判斷答案的語(yǔ)義是否正確(應(yīng)對(duì)答案表述不同但意思一致的情況),兩者結(jié)合避免單一規(guī)則過(guò)于嚴(yán)格或?qū)捤?/span>

圖片

在DocMath、Frames、2WikimQA等七個(gè)長(zhǎng)文本基準(zhǔn)測(cè)試中,QwenLong-L1-14B相比基礎(chǔ)模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。

QwenLong-L1的32B版本相比基礎(chǔ)模型提升了5.1分,達(dá)到70.7的平均分。這個(gè)成績(jī)不僅超過(guò)了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。

圖片

團(tuán)隊(duì)還針對(duì)Test-time Scaling性能做了評(píng)估。當(dāng)生成16個(gè)候選答案時(shí),QwenLong-L1-14B的表現(xiàn)超過(guò)了DeepSeek-R1和OpenAI-o1-preview。

圖片

最后論文中還深入探討了兩個(gè)問(wèn)題:

  1. 既然SFT相對(duì)簡(jiǎn)單便宜,為什么還要費(fèi)勁搞強(qiáng)化學(xué)習(xí)(RL)?

實(shí)驗(yàn)結(jié)果很有啟發(fā)性。長(zhǎng)文本SFT確實(shí)能帶來(lái)2.6分的提升,比短文本SFT的效果更好。但是,如果在長(zhǎng)文本SFT的基礎(chǔ)上再做RL,提升幅度只有0.3分;而在短文本SFT基礎(chǔ)上做RL,卻能提升3.2分。

圖片

對(duì)此團(tuán)隊(duì)提出一個(gè)觀點(diǎn):SFT提供了一種經(jīng)濟(jì)的性能提升方式,而RL則是達(dá)到最優(yōu)性能必不可少的。

通過(guò)跟蹤分析了四種關(guān)鍵推理行為發(fā)現(xiàn)3個(gè)結(jié)論:信息定位(grounding)、子目標(biāo)設(shè)定(subgoal setting)、回溯(backtracking)和驗(yàn)證(verification)。

  • 所有模型都展現(xiàn)出明顯的推理行為,尤其是信息定位行為出現(xiàn)頻率最高,這證明了它在處理上下文依賴推理時(shí)的重要性;
  • 強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,這些行為會(huì)逐漸增強(qiáng),并與性能提升高度相關(guān),表明強(qiáng)化學(xué)習(xí)能有效調(diào)整輸出空間,優(yōu)先保留有助于得出準(zhǔn)確解答的推理模式
  • 雖然SFT模型也能學(xué)會(huì)這些行為,但這些表面上的行為模仿并沒(méi)有帶來(lái)實(shí)質(zhì)性能提升,這揭示了SFT更關(guān)注表面模式匹配,而非實(shí)質(zhì)推理能力的培養(yǎng)。

論文地址:
https://arxiv.org/pdf/2505.17667

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-11-01 13:30:56

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2014-12-16 13:51:55

華為eSpace UC統(tǒng)一通信

2025-01-14 13:20:56

2024-09-29 09:32:58

2022-09-04 14:38:00

世界模型建模IRIS

2025-03-10 09:40:00

模型AI研究

2023-10-20 12:45:00

AI數(shù)據(jù)

2014-03-11 10:11:33

Linux命令more命令文本文件

2025-04-18 10:01:41

2024-09-18 08:42:10

2024-11-04 16:04:06

2022-08-22 10:40:40

Kubernete部署分析運(yùn)行

2023-04-11 07:59:56

Kruise漸進(jìn)式交付

2025-06-05 08:40:00

2017-02-24 13:27:37

阿里開(kāi)源

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2010-04-27 13:41:42

云計(jì)算

2023-09-28 07:34:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美不卡一区二区三区 | 国产精品一区二区三区久久久 | 99国产精品久久久久 | 8x国产精品视频一区二区 | 91精品国产777在线观看 | 国产精品99久久久久久久久久久久 | 成人影院午夜 | 欧美 日韩 国产 成人 在线 | 国产精品免费一区二区三区 | 欧美高清一区 | 国产中文原创 | 久久久久久久久久久久久91 | 欧美一级观看 | 91婷婷韩国欧美一区二区 | 99精品视频在线 | 欧美日韩在线播放 | av中文字幕在线观看 | 男女羞羞视频网站 | 午夜日韩 | www.日本在线观看 | 久久精品青青大伊人av | 国产精品久久久久久久久久久久 | 国产免费一区二区 | 国产一区| 国产亚洲精品精品国产亚洲综合 | 午夜国产羞羞视频免费网站 | 久久精品91| 国产精品国产三级国产aⅴ原创 | 日韩福利| 又黑又粗又长的欧美一区 | 精品成人免费一区二区在线播放 | 国产一区二区三区视频 | 婷婷久久综合 | 亚洲国产一区二区三区 | 黄色在线免费观看视频 | 亚洲国产精品人人爽夜夜爽 | 中文字幕 在线观看 | 日韩一区二区三区在线 | 久久久久99 | 在线a视频网站 | 欧美日韩不卡在线 |