港科大Apple新研究：Tokens使用量減少，模型推理還更強(qiáng)了

2025-05-29 09:20:00

來自港科大、港城、滑鐵盧大學(xué)和Apple的研究人員，最近提出了Laser系列新方法，實(shí)現(xiàn)了更好的模型效率和準(zhǔn)確率平衡，做到了兩者的共同顯著提升。

1+1等于幾？

現(xiàn)在的大推理模型（LRMs）已經(jīng)展現(xiàn)出了非凡的推理能力。但是面對(duì)這樣最簡單的數(shù)學(xué)問題，現(xiàn)有的LRMs仍需要花費(fèi)1400+的tokens來思考。

那么有辦法讓LRMs在推理思考時(shí)更快更強(qiáng)嗎？

來自港科大、港城、滑鐵盧大學(xué)和Apple的研究人員，最近提出了Laser系列新方法，實(shí)現(xiàn)了更好的模型效率和準(zhǔn)確率平衡，做到了兩者的共同顯著提升。

經(jīng)過Laser和它的進(jìn)階方法Laser-D、Laser-DE訓(xùn)練后的模型，相較于訓(xùn)練前模型或者其他方法訓(xùn)練的模型，在準(zhǔn)確率（Accuracy）和Tokens使用效率（Efficiency）上，同時(shí)取得了顯著的提升。

例如在知名復(fù)雜數(shù)學(xué)推理基準(zhǔn)AIME24上，Laser-D和Laser-DE方法能夠讓模型在減少Tokens使用量63%的情況下，還繼續(xù)提升6.1的性能。

同時(shí)，研究人員還發(fā)現(xiàn)，經(jīng)過訓(xùn)練的模型的思考過程里，冗余的“self-reflection”的比例大大降低，呈現(xiàn)出了一種更加健康的思考模式。

這一研究也在??引起了討論：

那么，Laser是如何讓大模型推理又快又好的呢？

三大創(chuàng)新實(shí)現(xiàn)性能-效率雙贏

Laser的研究人員首先發(fā)現(xiàn)，僅僅通過在強(qiáng)化學(xué)習(xí)過程中，對(duì)模型輸出長度進(jìn)行截?cái)啵涂梢宰層?xùn)練后的模型的推理效率大幅提升。

但這種方式，只能帶來效率的提升，對(duì)于模型推理的準(zhǔn)確性仍然有不小的損害。

這意味著，推理的準(zhǔn)確性和效率其實(shí)是一個(gè)平衡問題（Trade-off)，用更多的Tokens經(jīng)常能取得更高的準(zhǔn)確率，反之可能準(zhǔn)確率就會(huì)受到損害。

所以不應(yīng)該僅僅關(guān)注某一指標(biāo)，而應(yīng)該將兩者一同考慮，將問題的重點(diǎn)放在如何提升它們之間的平衡上面。

Laser主要通過以下三點(diǎn)創(chuàng)新來平衡效率和準(zhǔn)確率，以做到雙提升：

1、統(tǒng)一視角：提出了一套統(tǒng)一的框架來看待各類基于長度的獎(jiǎng)勵(lì)設(shè)計(jì)（Length-based Reward），并且將訓(xùn)練時(shí)截?cái)噙@一簡單方法也統(tǒng)一進(jìn)了這一套框架內(nèi)。

2、Laser（Length-bAsed StEp Reward）：基于這一個(gè)統(tǒng)一框架，研究人員提出一種全新的基于目標(biāo)長度和階躍函數(shù)（Step Function）的獎(jiǎng)勵(lì)設(shè)計(jì)，規(guī)避了之前獎(jiǎng)勵(lì)設(shè)計(jì)存在的一些問題。

3、動(dòng)態(tài)且?guī)в须y度感知的Laser-D、Laser-DE方法：進(jìn)一步的，研究人員提出了一套自動(dòng)適配機(jī)制，來匹配不同難度下，不同題目的最優(yōu)目標(biāo)長度，讓Laser達(dá)到最優(yōu)的平衡。

下面分別詳細(xì)展開下。

統(tǒng)一視角看待不同獎(jiǎng)勵(lì)設(shè)計(jì)

研究人員首先將直接截?cái)嘤?xùn)練的方法和先前不同的長度獎(jiǎng)勵(lì)設(shè)計(jì)聯(lián)系起來，統(tǒng)一成了一套統(tǒng)一的獎(jiǎng)勵(lì)設(shè)計(jì)框架。

具體而言，所有的這些方法，都可以看做是正確性的獎(jiǎng)勵(lì)C_(x)、基于長度的獎(jiǎng)勵(lì)S_(x)，以及一個(gè)控制開關(guān)λ_(y)的組合。

表中最右側(cè)的可視化圖片，展示了不同的方法對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)的不同形狀，其中藍(lán)線代表正確的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)，紅線代表錯(cuò)誤的回復(fù)對(duì)應(yīng)的獎(jiǎng)勵(lì)函數(shù)。

從圖上可以看到，訓(xùn)練時(shí)直接截?cái)嗟姆椒ǎ幸粋€(gè)很大的問題在于，當(dāng)模型產(chǎn)生的回復(fù)很長的時(shí)候，正確回復(fù)和錯(cuò)誤回復(fù)的獎(jiǎng)勵(lì)會(huì)雜糅在一起，使得模型無法正確區(qū)分回復(fù)的正確性，影響對(duì)對(duì)應(yīng)數(shù)據(jù)的學(xué)習(xí)。

Laser：基于目標(biāo)長度和階躍函數(shù)的獎(jiǎng)勵(lì)設(shè)計(jì)

為了解決訓(xùn)練截?cái)嘀小盁o法區(qū)分正確但冗長的回答”這一問題，研究人員提出了Laser獎(jiǎng)勵(lì)函數(shù)。

Laser不再“懲罰”所有長回答，而是對(duì)在目標(biāo)長度以內(nèi)生成的正確回答給予額外的正向獎(jiǎng)勵(lì)。

這種階躍函數(shù)（Step Function）形式的獎(jiǎng)勵(lì)機(jī)制，既鼓勵(lì)簡潔，也保留了對(duì)準(zhǔn)確推理的認(rèn)可，有效提升了準(zhǔn)確率與效率的整體平衡。

動(dòng)態(tài)且?guī)в须y度感知的LASER-D / LASER-DE方法

在進(jìn)一步提升準(zhǔn)確率與效率的平衡性上，研究人員提出了LASER-D方法：

通過引入動(dòng)態(tài)調(diào)整目標(biāo)長度與題目難度感知機(jī)制，模型在訓(xùn)練過程中可以根據(jù)題目的難易程度，自適應(yīng)設(shè)定更合適的token使用上限。

這一機(jī)制通過監(jiān)控模型在不同難度題目上的生成表現(xiàn)，動(dòng)態(tài)評(píng)估不同難度題目的最優(yōu)目標(biāo)長度。

具體來說，這一機(jī)制會(huì)定期使用一個(gè)小規(guī)模的監(jiān)控集，對(duì)不同長度設(shè)定下的“預(yù)期正確回答數(shù)量”進(jìn)行估算，并據(jù)此動(dòng)態(tài)更新易/中/難三類題目的目標(biāo)長度，幾乎不增加訓(xùn)練開銷，卻顯著提升了訓(xùn)練時(shí)獎(jiǎng)勵(lì)函數(shù)的靈活性與適應(yīng)性。

此外，他們還提出了LASER-DE。即在模型答錯(cuò)時(shí)，鼓勵(lì)模型在更長長度上進(jìn)行探索，嘗試糾正錯(cuò)誤、發(fā)現(xiàn)更優(yōu)的推理路徑，從而提升在困難題目上的表現(xiàn)。

這一系列改進(jìn)讓LASER系列方法在多個(gè)benchmark上，實(shí)現(xiàn)了更優(yōu)的性能-效率雙贏效果。

實(shí)驗(yàn)效果

研究人員用DeepSeek-R1-Distill-Qwen的1.5B / 7B / 32B三個(gè)不同規(guī)模的模型，在MATH500、AIME24、AMC23、Olympiad Bench上進(jìn)行了廣泛實(shí)驗(yàn)。

首先，他們通過調(diào)整各個(gè)方法在訓(xùn)練中的關(guān)鍵參數(shù)，繪制出不同方法在準(zhǔn)確率（Accuracy）與token使用量（Efficiency）上的帕累托（Pareto）前沿。

如圖所示，在AIME2024和所有Benchmarks的平均上，原始模型（藍(lán)色虛線）在token使用上代價(jià)巨大。

而其他baselines方法雖然在效率上有所提升，但準(zhǔn)確率下降明顯。

相比之下，LASER、LASER-D和LASER-DE（橙紅色）始終位于原模型的準(zhǔn)確率之上——

在顯著減少Tokens使用的同時(shí)，準(zhǔn)確率還明顯高于baseline，展現(xiàn)出強(qiáng)大的推理性能和推理效率雙提升。

特別是在AIME2024上，LASER-D在只使用原始模型1/3 Tokens的情況下，就能取得+6.1的準(zhǔn)確率提升，證明其在復(fù)雜數(shù)學(xué)推理任務(wù)中的強(qiáng)大效果。

在7B和32B模型上，LASER-D和LASER-DE相較于其他方法，在準(zhǔn)確率和token使用效率上都取得了更優(yōu)表現(xiàn)。

DeepSeek-R1-Distill-Qwen-7B模型上，例如對(duì)于AIME24，LASER-D在7B模型上，在提升5.1的準(zhǔn)確率的同時(shí)，平均token使用量還能降低60%，再次實(shí)現(xiàn)效率準(zhǔn)確率雙提升。

研究人員還在多個(gè)領(lǐng)域外（OOD）測試集（GPQA、LSAT、MMLU）上對(duì)他們的方法進(jìn)行了驗(yàn)證。

實(shí)驗(yàn)結(jié)果表明，在OOD測試集上，LASER、LASER-D和LASER-DE取得良好的泛化，同樣取得了最優(yōu)的準(zhǔn)確率與效率平衡，實(shí)現(xiàn)了準(zhǔn)確率效率雙提升。

行為分析

為了進(jìn)一步理解LASER系列方法為何能在保持準(zhǔn)確性的同時(shí)大幅壓縮token使用，研究人員對(duì)模型推理行為的變化進(jìn)行了分析。

結(jié)果顯示，經(jīng)過LASER訓(xùn)練后，模型生成中冗余的Backtracking（反復(fù)自我否定）顯著減少，而Verification（驗(yàn)證）、Subgoal Setting（子目標(biāo)拆解）等關(guān)鍵推理行為得以保留甚至增強(qiáng)。

這表明LASER不僅壓縮了長度，還引導(dǎo)模型學(xué)會(huì)了更簡潔、結(jié)構(gòu)更清晰的思考方式。

這也與文章開頭展示的 “1+1等于幾” 的案例相呼應(yīng)——

訓(xùn)練后的模型不再陷入反復(fù)的self-reflections，而是能直接識(shí)別出問題的關(guān)鍵，做出高效、準(zhǔn)確的回應(yīng)。

團(tuán)隊(duì)表示，他們相信“能夠準(zhǔn)確且精簡地表達(dá)”是高級(jí)智能的重要體現(xiàn)。

真正強(qiáng)大的模型，應(yīng)在準(zhǔn)確性與簡潔性之間實(shí)現(xiàn)良好平衡，而非只追求其中任何一者。

LASER系列方法正是朝這一目標(biāo)邁出的關(guān)鍵一步，它不僅壓縮了推理長度，更提升了推理質(zhì)量。

團(tuán)隊(duì)也表示，未來將繼續(xù)探索更靈活、更通用的方法，進(jìn)一步推高模型的這一高級(jí)智能的能力。

論文： https://arxiv.org/abs/2505.15612
GitHub倉庫： https://github.com/hkust-nlp/Laser

責(zé)任編輯：張燕妮來源：量子位

模型研究推理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看