成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

港科大Apple新研究:Tokens使用量減少,模型推理還更強(qiáng)了

人工智能 新聞
來自港科大、港城、滑鐵盧大學(xué)和Apple的研究人員,最近提出了Laser系列新方法,實(shí)現(xiàn)了更好的模型效率和準(zhǔn)確率平衡,做到了兩者的共同顯著提升。

1+1等于幾?

現(xiàn)在的大推理模型(LRMs)已經(jīng)展現(xiàn)出了非凡的推理能力。但是面對(duì)這樣最簡單的數(shù)學(xué)問題,現(xiàn)有的LRMs仍需要花費(fèi)1400+的tokens來思考。

那么有辦法讓LRMs在推理思考時(shí)更快更強(qiáng)嗎?

來自港科大、港城、滑鐵盧大學(xué)和Apple的研究人員,最近提出了Laser系列新方法,實(shí)現(xiàn)了更好的模型效率和準(zhǔn)確率平衡,做到了兩者的共同顯著提升。

圖片

經(jīng)過Laser和它的進(jìn)階方法Laser-D、Laser-DE訓(xùn)練后的模型,相較于訓(xùn)練前模型或者其他方法訓(xùn)練的模型,在準(zhǔn)確率(Accuracy)和Tokens使用效率(Efficiency)上,同時(shí)取得了顯著的提升。

例如在知名復(fù)雜數(shù)學(xué)推理基準(zhǔn)AIME24上,Laser-D和Laser-DE方法能夠讓模型在減少Tokens使用量63%的情況下,還繼續(xù)提升6.1的性能。

同時(shí),研究人員還發(fā)現(xiàn),經(jīng)過訓(xùn)練的模型的思考過程里,冗余的“self-reflection”的比例大大降低,呈現(xiàn)出了一種更加健康的思考模式。

圖片

這一研究也在??引起了討論:

圖片

那么,Laser是如何讓大模型推理又快又好的呢?

三大創(chuàng)新實(shí)現(xiàn)性能-效率雙贏

Laser的研究人員首先發(fā)現(xiàn),僅僅通過在強(qiáng)化學(xué)習(xí)過程中,對(duì)模型輸出長度進(jìn)行截?cái)啵涂梢宰層?xùn)練后的模型的推理效率大幅提升。

但這種方式,只能帶來效率的提升,對(duì)于模型推理的準(zhǔn)確性仍然有不小的損害。

這意味著,推理的準(zhǔn)確性和效率其實(shí)是一個(gè)平衡問題(Trade-off),用更多的Tokens經(jīng)常能取得更高的準(zhǔn)確率,反之可能準(zhǔn)確率就會(huì)受到損害。

所以不應(yīng)該僅僅關(guān)注某一指標(biāo),而應(yīng)該將兩者一同考慮,將問題的重點(diǎn)放在如何提升它們之間的平衡上面。

圖片

Laser主要通過以下三點(diǎn)創(chuàng)新來平衡效率和準(zhǔn)確率,以做到雙提升:

1、統(tǒng)一視角:提出了一套統(tǒng)一的框架來看待各類基于長度的獎(jiǎng)勵(lì)設(shè)計(jì)(Length-based Reward),并且將訓(xùn)練時(shí)截?cái)噙@一簡單方法也統(tǒng)一進(jìn)了這一套框架內(nèi)。

2、Laser(Length-bAsed StEp Reward):基于這一個(gè)統(tǒng)一框架,研究人員提出一種全新的基于目標(biāo)長度和階躍函數(shù)(Step Function)的獎(jiǎng)勵(lì)設(shè)計(jì),規(guī)避了之前獎(jiǎng)勵(lì)設(shè)計(jì)存在的一些問題。

3、動(dòng)態(tài)且?guī)в须y度感知的Laser-D、Laser-DE方法:進(jìn)一步的,研究人員提出了一套自動(dòng)適配機(jī)制,來匹配不同難度下,不同題目的最優(yōu)目標(biāo)長度,讓Laser達(dá)到最優(yōu)的平衡。

下面分別詳細(xì)展開下。

統(tǒng)一視角看待不同獎(jiǎng)勵(lì)設(shè)計(jì)

研究人員首先將直接截?cái)嘤?xùn)練的方法和先前不同的長度獎(jiǎng)勵(lì)設(shè)計(jì)聯(lián)系起來,統(tǒng)一成了一套統(tǒng)一的獎(jiǎng)勵(lì)設(shè)計(jì)框架。

具體而言,所有的這些方法,都可以看做是正確性的獎(jiǎng)勵(lì)C(x)、基于長度的獎(jiǎng)勵(lì)S(x),以及一個(gè)控制開關(guān)λ(y)的組合。

圖片圖片

表中最右側(cè)的可視化圖片,展示了不同的方法對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)的不同形狀,其中藍(lán)線代表正確的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),紅線代表錯(cuò)誤的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)。

從圖上可以看到,訓(xùn)練時(shí)直接截?cái)嗟姆椒ǎ幸粋€(gè)很大的問題在于,當(dāng)模型產(chǎn)生的回復(fù)很長的時(shí)候,正確回復(fù)和錯(cuò)誤回復(fù)的獎(jiǎng)勵(lì)會(huì)雜糅在一起,使得模型無法正確區(qū)分回復(fù)的正確性,影響對(duì)對(duì)應(yīng)數(shù)據(jù)的學(xué)習(xí)

Laser:基于目標(biāo)長度和階躍函數(shù)的獎(jiǎng)勵(lì)設(shè)計(jì)

為了解決訓(xùn)練截?cái)嘀小盁o法區(qū)分正確但冗長的回答”這一問題,研究人員提出了Laser獎(jiǎng)勵(lì)函數(shù)

Laser不再“懲罰”所有長回答,而是對(duì)在目標(biāo)長度以內(nèi)生成的正確回答給予額外的正向獎(jiǎng)勵(lì)。

這種階躍函數(shù)(Step Function)形式的獎(jiǎng)勵(lì)機(jī)制,既鼓勵(lì)簡潔,也保留了對(duì)準(zhǔn)確推理的認(rèn)可,有效提升了準(zhǔn)確率與效率的整體平衡。

動(dòng)態(tài)且?guī)в须y度感知的LASER-D / LASER-DE方法

在進(jìn)一步提升準(zhǔn)確率與效率的平衡性上,研究人員提出了LASER-D方法:

通過引入動(dòng)態(tài)調(diào)整目標(biāo)長度與題目難度感知機(jī)制,模型在訓(xùn)練過程中可以根據(jù)題目的難易程度,自適應(yīng)設(shè)定更合適的token使用上限。

這一機(jī)制通過監(jiān)控模型在不同難度題目上的生成表現(xiàn),動(dòng)態(tài)評(píng)估不同難度題目的最優(yōu)目標(biāo)長度。

具體來說,這一機(jī)制會(huì)定期使用一個(gè)小規(guī)模的監(jiān)控集,對(duì)不同長度設(shè)定下的“預(yù)期正確回答數(shù)量”進(jìn)行估算,并據(jù)此動(dòng)態(tài)更新易/中/難三類題目的目標(biāo)長度,幾乎不增加訓(xùn)練開銷,卻顯著提升了訓(xùn)練時(shí)獎(jiǎng)勵(lì)函數(shù)的靈活性與適應(yīng)性。

此外,他們還提出了LASER-DE。即在模型答錯(cuò)時(shí),鼓勵(lì)模型在更長長度上進(jìn)行探索,嘗試糾正錯(cuò)誤、發(fā)現(xiàn)更優(yōu)的推理路徑,從而提升在困難題目上的表現(xiàn)。

這一系列改進(jìn)讓LASER系列方法在多個(gè)benchmark上,實(shí)現(xiàn)了更優(yōu)的性能-效率雙贏效果。

實(shí)驗(yàn)效果

研究人員用DeepSeek-R1-Distill-Qwen的1.5B / 7B / 32B三個(gè)不同規(guī)模的模型,在MATH500、AIME24、AMC23、Olympiad Bench上進(jìn)行了廣泛實(shí)驗(yàn)。

首先,他們通過調(diào)整各個(gè)方法在訓(xùn)練中的關(guān)鍵參數(shù),繪制出不同方法在準(zhǔn)確率(Accuracy)與token使用量(Efficiency)上的帕累托(Pareto)前沿。

如圖所示,在AIME2024和所有Benchmarks的平均上,原始模型(藍(lán)色虛線)在token使用上代價(jià)巨大。

而其他baselines方法雖然在效率上有所提升,但準(zhǔn)確率下降明顯。

圖片

相比之下,LASER、LASER-D和LASER-DE(橙紅色)始終位于原模型的準(zhǔn)確率之上——

在顯著減少Tokens使用的同時(shí),準(zhǔn)確率還明顯高于baseline,展現(xiàn)出強(qiáng)大的推理性能和推理效率雙提升。

特別是在AIME2024上,LASER-D在只使用原始模型1/3 Tokens的情況下,就能取得+6.1的準(zhǔn)確率提升,證明其在復(fù)雜數(shù)學(xué)推理任務(wù)中的強(qiáng)大效果。

圖片

在7B和32B模型上,LASER-D和LASER-DE相較于其他方法,在準(zhǔn)確率和token使用效率上都取得了更優(yōu)表現(xiàn)。

DeepSeek-R1-Distill-Qwen-7B模型上,例如對(duì)于AIME24,LASER-D在7B模型上,在提升5.1的準(zhǔn)確率的同時(shí),平均token使用量還能降低60%,再次實(shí)現(xiàn)效率準(zhǔn)確率雙提升。

研究人員還在多個(gè)領(lǐng)域外(OOD)測試集(GPQA、LSAT、MMLU)上對(duì)他們的方法進(jìn)行了驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明,在OOD測試集上,LASER、LASER-D和LASER-DE取得良好的泛化,同樣取得了最優(yōu)的準(zhǔn)確率與效率平衡,實(shí)現(xiàn)了準(zhǔn)確率效率雙提升。

圖片

行為分析

為了進(jìn)一步理解LASER系列方法為何能在保持準(zhǔn)確性的同時(shí)大幅壓縮token使用,研究人員對(duì)模型推理行為的變化進(jìn)行了分析。

結(jié)果顯示,經(jīng)過LASER訓(xùn)練后,模型生成中冗余的Backtracking(反復(fù)自我否定)顯著減少,而Verification(驗(yàn)證)、Subgoal Setting(子目標(biāo)拆解)等關(guān)鍵推理行為得以保留甚至增強(qiáng)。

這表明LASER不僅壓縮了長度,還引導(dǎo)模型學(xué)會(huì)了更簡潔、結(jié)構(gòu)更清晰的思考方式。

這也與文章開頭展示的 “1+1等于幾” 的案例相呼應(yīng)——

訓(xùn)練后的模型不再陷入反復(fù)的self-reflections,而是能直接識(shí)別出問題的關(guān)鍵,做出高效、準(zhǔn)確的回應(yīng)。

圖片

團(tuán)隊(duì)表示,他們相信“能夠準(zhǔn)確且精簡地表達(dá)”是高級(jí)智能的重要體現(xiàn)。

真正強(qiáng)大的模型,應(yīng)在準(zhǔn)確性與簡潔性之間實(shí)現(xiàn)良好平衡,而非只追求其中任何一者。

LASER系列方法正是朝這一目標(biāo)邁出的關(guān)鍵一步,它不僅壓縮了推理長度,更提升了推理質(zhì)量。

團(tuán)隊(duì)也表示,未來將繼續(xù)探索更靈活、更通用的方法,進(jìn)一步推高模型的這一高級(jí)智能的能力。

論文: https://arxiv.org/abs/2505.15612
GitHub倉庫: https://github.com/hkust-nlp/Laser

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-26 08:40:00

2024-06-11 14:30:18

2025-06-10 09:07:00

2024-06-17 13:34:54

2010-11-08 10:07:23

SQL Server內(nèi)

2024-08-22 16:23:05

2024-03-18 09:54:32

開源AI模型

2021-08-17 10:03:34

.NET開發(fā)者使用量

2012-08-06 13:45:38

LTE網(wǎng)絡(luò)LTE

2023-04-13 15:40:59

模型論文

2022-06-30 18:05:51

訓(xùn)練模型圖像

2013-10-30 17:23:01

Chrome瀏覽器

2024-10-14 14:45:00

數(shù)據(jù)模型

2022-03-28 18:38:00

SD-WANMPLS

2023-06-20 13:38:22

2024-03-04 13:36:00

模型訓(xùn)練

2021-04-02 09:40:06

量子計(jì)算芯片超算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产高清精品在线 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 国产精品色 | 成人在线小视频 | 尤物在线 | 日韩高清一区二区 | 天天干天天爱天天爽 | 国产日韩一区二区 | 日日干日日操 | 久久久国产一区二区三区 | 在线观看你懂的网站 | 久久久久成人精品免费播放动漫 | 国产成人精品一区二区三区四区 | 亚洲国产成人精品女人久久久野战 | 亚洲精品色 | 欧美成人激情 | 色欧美片视频在线观看 | 国产精品久久久久久久久免费桃花 | 日韩一区二区三区视频在线观看 | 亚洲一区二区久久久 | 亚洲国产一区二区三区在线观看 | 亚洲欧美在线一区 | 欧美精品在线一区二区三区 | 日韩1区| 午夜成人免费视频 | 国产精品揄拍一区二区久久国内亚洲精 | 韩日av片| 国产中文字幕在线 | 亚洲欧美一区二区三区在线 | 欧美一区二区三区在线观看 | 国内精品久久久久久久影视简单 | 夜夜骑首页 | 拍真实国产伦偷精品 | 欧美在线观看一区 | 日韩午夜影院 | 国产精品美女 | 黄色片视频免费 | 国产免费a | 一区二区精品 | 精品国产女人 | 色综合一区二区三区 |