成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Qwen&清華團隊顛覆常識:大模型強化學習僅用20%關鍵token,比用全部token訓練還好

人工智能 新聞
在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

近期arxiv最熱門論文,Qwen&清華LeapLab團隊最新成果:

在強化學習訓練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓練效果,甚至比用全部token訓練還要好。

圖片

團隊用這個發現在Qwen3-32B上創造了新的SOTA記錄:AIME’24上達到63.5分,AIME’25上達到56.7分,

這是600B參數以下直接從base模型訓練的最高分。

圖片

最大響應長度從20k延長到29k,AIME’24的分數更是飆升到了68.1分。

經典的二八法則(或帕累托法則)指出,通常80%的結果由20%的關鍵因素驅動,但剩下80%也是不能輕易舍棄的。

但是在大模型強化學習這里,80%低熵token不僅可以舍棄,甚至還可能起副作用,所以這篇論文被命名為“超越二八法則”。

此外,團隊還從token熵的角度探究了RL對LLM的主要影響,并進一步討論了RL與SFT的區別、LLM RL的特殊性與clip-higher相較于entropy bonus的優勢。

圖片

揭開Chain-of-Thought的熵分布密碼

要理解這項研究,需要先從一個有趣的觀察說起:

團隊發現,當大模型進行鏈式思考(Chain-of-Thought)推理時,token的熵分布呈現出一個獨特的模式:大部分token的熵都很低,只有少數token表現出高熵特征

具體來說,超過50%的token熵值低于0.01,而只有20%的token熵值大于0.672。

圖片

更有意思的是,這些高熵token和低熵token在功能上有著本質區別。高熵token通常扮演著“邏輯連接器”的角色,比如“wait”、“however”、“thus”這些詞,它們在推理過程中起到轉折、遞進或因果連接的作用。

在數學推導中,“suppose”、“assume”、“given”這些引入假設或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數學表達式的組成部分,這些內容具有很高的確定性。

團隊形象地把這些高熵token稱為分叉token(forking tokens),如果將思維鏈比做走山路,高熵token就像分叉路口(fork),決定了接下來的方向;低熵token就像一面是山一面是懸崖的小路,只能沿著既定方向走下去。

圖片

為了驗證這些分叉token的重要性,團隊還設計了這樣的實驗:給不同的token設置不同的解碼溫度。

結果發現,適度提高高熵token的溫度能改善推理性能,而降低它們的溫度則會導致性能下降。這進一步證實了保持這些關鍵位置的高熵對推理的重要性。

圖片

只用20%的token,效果反而更好

既然發現了這些分叉token的特殊性,那么如果在強化學習訓練時只關注這些關鍵的少數token會怎樣?

在RLVR(Reinforcement Learning with Verifiable Rewards)訓練中,只保留top 20%高熵token的策略梯度,把剩下80%的梯度全部屏蔽掉。

結果Qwen3-32B上,這種方法不僅沒有降低性能,反而帶來了顯著提升:AIME’24分數提升7.71分,AIME’25分數提升11.04分,平均響應長度增加約1378個token。

在Qwen3-14B上也有類似的提升效果,而在較小的Qwen3-8B上,性能也保持穩定。

圖片

更有趣的是反向實驗的結果:如果只用80%的低熵token訓練,模型性能急劇下降。

這說明低熵token對推理能力的提升貢獻微乎其微,甚至可能起到負面作用。

圖片

團隊分析認為,這可能與路徑探索有關。高熵token由于其不確定性,能夠幫助模型探索不同的推理路徑。而低熵token過于確定,反而限制了模型的探索能力。

從訓練過程中的整體熵變化也能看出端倪:使用20%高熵token訓練時,模型保持了較高的整體熵水平,而使用全部token或只用低熵token時,整體熵水平都會下降。

圖片

另一個重要發現是這種方法存在明顯的規模效應:模型越大,只用高熵token訓練的優勢就越明顯。在32B模型上的提升最大,14B次之,8B模型提升最小。這可能是因為更大的模型有更強的能力利用增強的探索性。

更令人驚喜的是,這種方法訓練出的模型在域外任務上也表現優異。團隊在數學數據集上訓練的模型,在編程任務LiveCodeBench上測試時,僅用20%高熵token訓練的模型依然大幅超越了使用全部token訓練的版本。

這暗示著高熵token可能與模型的泛化能力密切相關。通過聚焦這些關鍵的決策點,模型學到的可能是更本質的推理模式,而不是死記硬背特定領域的知識。

圖片

重新理解大模型強化學習

這項研究的意義不止于提升訓練效率,在深入研究RLVR(Reinforcement Learning with Verifiable Rewards)訓練過程后,團隊發現了一個令人意外的現象:RLVR并不是推倒重來,而是在base model的基礎上做精細調整。

通過追蹤訓練過程中熵模式的演變,發現即使在訓練收斂后(第1360步),模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預訓練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。

圖片

更有意思的是,RLVR的調整策略相當”偏心”。團隊計算了不同熵水平token在訓練前后的變化,發現了一個清晰的規律:

初始熵越高的token,在RLVR訓練后熵的增幅越大。而那些原本就很確定的低熵token,整個訓練過程中幾乎紋絲不動。

從熵的百分位變化圖中可以看到,越是高熵的token(比如90%、95%分位),訓練過程中的波動范圍越大;而低熵token(比如0%、5%分位)的變化微乎其微。

圖片

最后,基于以上所有這些發現,團隊還提出了幾個有趣的討論:

討論1:高熵token可能是解釋為什么強化學習能泛化而監督微調傾向于記憶而過擬合的關鍵。

強化學習傾向于保持甚至增加分叉token的熵,維持推理路徑的靈活性。而監督微調會把輸出logits推向one-hot分布,導致分叉token熵降低,失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務的關鍵因素。

討論2: 與傳統強化學習不同,大模型推理需整合先驗知識,且必須生成可讀性輸出。因此,大模型思維鏈(CoT)包含低熵的多數標記與高熵的少數標記,而傳統強化學習可假設整個過程中動作熵是均勻分布的。

討論3:在強化學習與可驗證獎勵算法(RLVR)中,熵獎勵(entropy bonus)可能并非最優選擇,因為它會增加低熵多數標記的熵值。相比之下,clip-higher方法能有效提升高熵少數標記的熵值。

論文
https://arxiv.org/abs/2506.01939

項目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-12 08:46:00

2024-11-01 13:30:56

2025-03-31 00:33:00

2023-08-28 06:52:29

2023-10-06 20:30:33

大模型LLMtoken

2025-01-17 13:41:24

2025-04-27 09:23:00

模型訓練AI

2025-04-01 09:00:00

模型訓練開源

2023-10-14 13:07:52

訓練模型

2025-06-05 08:40:00

2025-04-02 09:00:00

模型開源AI

2025-05-06 00:45:00

2025-01-14 13:20:56

2025-05-16 11:03:48

2025-06-18 08:51:28

2023-05-05 13:11:16

2022-11-02 14:02:02

強化學習訓練

2025-05-14 09:15:00

2025-06-25 13:44:09

開源訓練模型

2024-09-10 15:10:00

智能強化學習框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 999精品在线 | 亚洲国产高清高潮精品美女 | 日韩精品极品视频在线观看免费 | 成人在线国产 | 欧美日韩在线电影 | 波多野结衣精品在线 | 久久久国 | 日韩精品一区二区三区视频播放 | 色天堂影院 | 日韩欧美精品在线 | 在线观看免费av网 | 国产片侵犯亲女视频播放 | 欧美xxxⅹ性欧美大片 | 99精品欧美一区二区蜜桃免费 | 日韩视频国产 | 亚洲精品九九 | 91久久久精品国产一区二区蜜臀 | 久久欧美精品 | 国产韩国精品一区二区三区 | 伊人焦久影院 | 欧美视频一区 | 国产精品美女久久久久aⅴ国产馆 | www日| 日本视频免费观看 | 黑色丝袜三级在线播放 | 久久国内精品 | 色欧美片视频在线观看 | 久久久久久国产 | 国产亚洲精品一区二区三区 | 亚洲欧美中文日韩在线v日本 | 粉嫩一区二区三区性色av | av中文字幕在线 | 国产欧美日韩久久久 | 天天操天天干天天曰 | 久久久久久av | 奇米av | 欧美日韩在线一区二区三区 | www国产成人免费观看视频 | 国产精品久久国产愉拍 | 欧美一区二区 | 真人毛片|