港科大Apple新研究:Tokens使用量減少,模型推理還更強(qiáng)了
1+1等于幾?
現(xiàn)在的大推理模型(LRMs)已經(jīng)展現(xiàn)出了非凡的推理能力。但是面對(duì)這樣最簡單的數(shù)學(xué)問題,現(xiàn)有的LRMs仍需要花費(fèi)1400+的tokens來思考。
那么有辦法讓LRMs在推理思考時(shí)更快更強(qiáng)嗎?
來自港科大、港城、滑鐵盧大學(xué)和Apple的研究人員,最近提出了Laser系列新方法,實(shí)現(xiàn)了更好的模型效率和準(zhǔn)確率平衡,做到了兩者的共同顯著提升。
經(jīng)過Laser和它的進(jìn)階方法Laser-D、Laser-DE訓(xùn)練后的模型,相較于訓(xùn)練前模型或者其他方法訓(xùn)練的模型,在準(zhǔn)確率(Accuracy)和Tokens使用效率(Efficiency)上,同時(shí)取得了顯著的提升。
例如在知名復(fù)雜數(shù)學(xué)推理基準(zhǔn)AIME24上,Laser-D和Laser-DE方法能夠讓模型在減少Tokens使用量63%的情況下,還繼續(xù)提升6.1的性能。
同時(shí),研究人員還發(fā)現(xiàn),經(jīng)過訓(xùn)練的模型的思考過程里,冗余的“self-reflection”的比例大大降低,呈現(xiàn)出了一種更加健康的思考模式。
這一研究也在??引起了討論:
那么,Laser是如何讓大模型推理又快又好的呢?
三大創(chuàng)新實(shí)現(xiàn)性能-效率雙贏
Laser的研究人員首先發(fā)現(xiàn),僅僅通過在強(qiáng)化學(xué)習(xí)過程中,對(duì)模型輸出長度進(jìn)行截?cái)啵涂梢宰層?xùn)練后的模型的推理效率大幅提升。
但這種方式,只能帶來效率的提升,對(duì)于模型推理的準(zhǔn)確性仍然有不小的損害。
這意味著,推理的準(zhǔn)確性和效率其實(shí)是一個(gè)平衡問題(Trade-off),用更多的Tokens經(jīng)常能取得更高的準(zhǔn)確率,反之可能準(zhǔn)確率就會(huì)受到損害。
所以不應(yīng)該僅僅關(guān)注某一指標(biāo),而應(yīng)該將兩者一同考慮,將問題的重點(diǎn)放在如何提升它們之間的平衡上面。
Laser主要通過以下三點(diǎn)創(chuàng)新來平衡效率和準(zhǔn)確率,以做到雙提升:
1、統(tǒng)一視角:提出了一套統(tǒng)一的框架來看待各類基于長度的獎(jiǎng)勵(lì)設(shè)計(jì)(Length-based Reward),并且將訓(xùn)練時(shí)截?cái)噙@一簡單方法也統(tǒng)一進(jìn)了這一套框架內(nèi)。
2、Laser(Length-bAsed StEp Reward):基于這一個(gè)統(tǒng)一框架,研究人員提出一種全新的基于目標(biāo)長度和階躍函數(shù)(Step Function)的獎(jiǎng)勵(lì)設(shè)計(jì),規(guī)避了之前獎(jiǎng)勵(lì)設(shè)計(jì)存在的一些問題。
3、動(dòng)態(tài)且?guī)в须y度感知的Laser-D、Laser-DE方法:進(jìn)一步的,研究人員提出了一套自動(dòng)適配機(jī)制,來匹配不同難度下,不同題目的最優(yōu)目標(biāo)長度,讓Laser達(dá)到最優(yōu)的平衡。
下面分別詳細(xì)展開下。
統(tǒng)一視角看待不同獎(jiǎng)勵(lì)設(shè)計(jì)
研究人員首先將直接截?cái)嘤?xùn)練的方法和先前不同的長度獎(jiǎng)勵(lì)設(shè)計(jì)聯(lián)系起來,統(tǒng)一成了一套統(tǒng)一的獎(jiǎng)勵(lì)設(shè)計(jì)框架。
具體而言,所有的這些方法,都可以看做是正確性的獎(jiǎng)勵(lì)C(x)、基于長度的獎(jiǎng)勵(lì)S(x),以及一個(gè)控制開關(guān)λ(y)的組合。
表中最右側(cè)的可視化圖片,展示了不同的方法對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)的不同形狀,其中藍(lán)線代表正確的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù),紅線代表錯(cuò)誤的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)。
從圖上可以看到,訓(xùn)練時(shí)直接截?cái)嗟姆椒ǎ幸粋€(gè)很大的問題在于,當(dāng)模型產(chǎn)生的回復(fù)很長的時(shí)候,正確回復(fù)和錯(cuò)誤回復(fù)的獎(jiǎng)勵(lì)會(huì)雜糅在一起,使得模型無法正確區(qū)分回復(fù)的正確性,影響對(duì)對(duì)應(yīng)數(shù)據(jù)的學(xué)習(xí)。
Laser:基于目標(biāo)長度和階躍函數(shù)的獎(jiǎng)勵(lì)設(shè)計(jì)
為了解決訓(xùn)練截?cái)嘀小盁o法區(qū)分正確但冗長的回答”這一問題,研究人員提出了Laser獎(jiǎng)勵(lì)函數(shù)。
Laser不再“懲罰”所有長回答,而是對(duì)在目標(biāo)長度以內(nèi)生成的正確回答給予額外的正向獎(jiǎng)勵(lì)。
這種階躍函數(shù)(Step Function)形式的獎(jiǎng)勵(lì)機(jī)制,既鼓勵(lì)簡潔,也保留了對(duì)準(zhǔn)確推理的認(rèn)可,有效提升了準(zhǔn)確率與效率的整體平衡。
動(dòng)態(tài)且?guī)в须y度感知的LASER-D / LASER-DE方法
在進(jìn)一步提升準(zhǔn)確率與效率的平衡性上,研究人員提出了LASER-D方法:
通過引入動(dòng)態(tài)調(diào)整目標(biāo)長度與題目難度感知機(jī)制,模型在訓(xùn)練過程中可以根據(jù)題目的難易程度,自適應(yīng)設(shè)定更合適的token使用上限。
這一機(jī)制通過監(jiān)控模型在不同難度題目上的生成表現(xiàn),動(dòng)態(tài)評(píng)估不同難度題目的最優(yōu)目標(biāo)長度。
具體來說,這一機(jī)制會(huì)定期使用一個(gè)小規(guī)模的監(jiān)控集,對(duì)不同長度設(shè)定下的“預(yù)期正確回答數(shù)量”進(jìn)行估算,并據(jù)此動(dòng)態(tài)更新易/中/難三類題目的目標(biāo)長度,幾乎不增加訓(xùn)練開銷,卻顯著提升了訓(xùn)練時(shí)獎(jiǎng)勵(lì)函數(shù)的靈活性與適應(yīng)性。
此外,他們還提出了LASER-DE。即在模型答錯(cuò)時(shí),鼓勵(lì)模型在更長長度上進(jìn)行探索,嘗試糾正錯(cuò)誤、發(fā)現(xiàn)更優(yōu)的推理路徑,從而提升在困難題目上的表現(xiàn)。
這一系列改進(jìn)讓LASER系列方法在多個(gè)benchmark上,實(shí)現(xiàn)了更優(yōu)的性能-效率雙贏效果。
實(shí)驗(yàn)效果
研究人員用DeepSeek-R1-Distill-Qwen的1.5B / 7B / 32B三個(gè)不同規(guī)模的模型,在MATH500、AIME24、AMC23、Olympiad Bench上進(jìn)行了廣泛實(shí)驗(yàn)。
首先,他們通過調(diào)整各個(gè)方法在訓(xùn)練中的關(guān)鍵參數(shù),繪制出不同方法在準(zhǔn)確率(Accuracy)與token使用量(Efficiency)上的帕累托(Pareto)前沿。
如圖所示,在AIME2024和所有Benchmarks的平均上,原始模型(藍(lán)色虛線)在token使用上代價(jià)巨大。
而其他baselines方法雖然在效率上有所提升,但準(zhǔn)確率下降明顯。
相比之下,LASER、LASER-D和LASER-DE(橙紅色)始終位于原模型的準(zhǔn)確率之上——
在顯著減少Tokens使用的同時(shí),準(zhǔn)確率還明顯高于baseline,展現(xiàn)出強(qiáng)大的推理性能和推理效率雙提升。
特別是在AIME2024上,LASER-D在只使用原始模型1/3 Tokens的情況下,就能取得+6.1的準(zhǔn)確率提升,證明其在復(fù)雜數(shù)學(xué)推理任務(wù)中的強(qiáng)大效果。
在7B和32B模型上,LASER-D和LASER-DE相較于其他方法,在準(zhǔn)確率和token使用效率上都取得了更優(yōu)表現(xiàn)。
DeepSeek-R1-Distill-Qwen-7B模型上,例如對(duì)于AIME24,LASER-D在7B模型上,在提升5.1的準(zhǔn)確率的同時(shí),平均token使用量還能降低60%,再次實(shí)現(xiàn)效率準(zhǔn)確率雙提升。
研究人員還在多個(gè)領(lǐng)域外(OOD)測試集(GPQA、LSAT、MMLU)上對(duì)他們的方法進(jìn)行了驗(yàn)證。
實(shí)驗(yàn)結(jié)果表明,在OOD測試集上,LASER、LASER-D和LASER-DE取得良好的泛化,同樣取得了最優(yōu)的準(zhǔn)確率與效率平衡,實(shí)現(xiàn)了準(zhǔn)確率效率雙提升。
行為分析
為了進(jìn)一步理解LASER系列方法為何能在保持準(zhǔn)確性的同時(shí)大幅壓縮token使用,研究人員對(duì)模型推理行為的變化進(jìn)行了分析。
結(jié)果顯示,經(jīng)過LASER訓(xùn)練后,模型生成中冗余的Backtracking(反復(fù)自我否定)顯著減少,而Verification(驗(yàn)證)、Subgoal Setting(子目標(biāo)拆解)等關(guān)鍵推理行為得以保留甚至增強(qiáng)。
這表明LASER不僅壓縮了長度,還引導(dǎo)模型學(xué)會(huì)了更簡潔、結(jié)構(gòu)更清晰的思考方式。
這也與文章開頭展示的 “1+1等于幾” 的案例相呼應(yīng)——
訓(xùn)練后的模型不再陷入反復(fù)的self-reflections,而是能直接識(shí)別出問題的關(guān)鍵,做出高效、準(zhǔn)確的回應(yīng)。
團(tuán)隊(duì)表示,他們相信“能夠準(zhǔn)確且精簡地表達(dá)”是高級(jí)智能的重要體現(xiàn)。
真正強(qiáng)大的模型,應(yīng)在準(zhǔn)確性與簡潔性之間實(shí)現(xiàn)良好平衡,而非只追求其中任何一者。
LASER系列方法正是朝這一目標(biāo)邁出的關(guān)鍵一步,它不僅壓縮了推理長度,更提升了推理質(zhì)量。
團(tuán)隊(duì)也表示,未來將繼續(xù)探索更靈活、更通用的方法,進(jìn)一步推高模型的這一高級(jí)智能的能力。
論文: https://arxiv.org/abs/2505.15612
GitHub倉庫: https://github.com/hkust-nlp/Laser