推理“剎不住車”？新框架讓DeepSeek-R1們告別過(guò)度思考，已開(kāi)源

2025-06-03 17:38:24

人工智能新聞

來(lái)自浙江大學(xué)、天津大學(xué)和MSRA的研究團(tuán)隊(duì)提出了一個(gè)新方法，Self-Braking Tuning（SBT）。

DeepSeek-R1、OpenAI o1等推理模型大放異彩。但隨著能力增強(qiáng)，一個(gè)副作用越來(lái)越明顯——

它們開(kāi)始想太多了。

從奧數(shù)題到程序邏輯，能解的題越來(lái)越多、推理鏈條越來(lái)越長(zhǎng)。

也就是說(shuō)，模型在完成推理任務(wù)時(shí)，常常出現(xiàn)過(guò)度思考：

步驟繁冗：明明兩步能解完，非要繞七八步，搞得邏輯鏈又長(zhǎng)又亂；
表述拖沓：簡(jiǎn)單結(jié)論非要用復(fù)雜語(yǔ)言兜圈子，說(shuō)了一堆才到點(diǎn)子上；
輸出冗長(zhǎng)：生成了大量無(wú)效tokens，既浪費(fèi)算力，又拖慢推理速度。

這不光影響效率，更可能導(dǎo)致錯(cuò)誤——在長(zhǎng)鏈?zhǔn)剿伎贾校恳徊降男≌`差都會(huì)累積放大，最后可能想著想著就跑偏了。

于是，一個(gè)關(guān)鍵問(wèn)題擺在了現(xiàn)實(shí)面前：

如何讓模型既然會(huì)思考推理，也懂得“適可而止”，知道什么時(shí)候該停下來(lái)？

針對(duì)于此，來(lái)自浙江大學(xué)、天津大學(xué)和MSRA的研究團(tuán)隊(duì)提出了一個(gè)新方法，Self-Braking Tuning（SBT）。

它是一種輕量級(jí)、通用的調(diào)優(yōu)機(jī)制，可無(wú)縫集成到現(xiàn)有大模型中。其主要目的是讓模型不再一味求“多想”，而是在最短路徑上到達(dá)正確答案。

其核心設(shè)計(jì)包括剎車信號(hào)機(jī)制、多任務(wù)微調(diào)，且無(wú)需外部模塊或改動(dòng)推理流程。

其中，剎車信號(hào)機(jī)制是在訓(xùn)練階段引入一類特殊的信號(hào)，指示“當(dāng)前信息已經(jīng)足夠完成任務(wù)”，模型據(jù)此學(xué)習(xí)何時(shí)應(yīng)終止推理。

多任務(wù)微調(diào)則指揮模型同時(shí)學(xué)習(xí)如何解題&何時(shí)停步，兼顧準(zhǔn)確性與效率。

總結(jié)成一句話，SBT就像在大模型頭腦里裝了個(gè)“限速器”，讓它不再無(wú)休止地輸出，更聰明，也更節(jié)能。

讓模型知道自己“是否想太多”

SBT框架的核心目標(biāo)，是讓模型具備自我判斷是否“想得太多”的能力，能夠在無(wú)需外部干預(yù)的情況下，適時(shí)終止推理過(guò)程。

它的特別之處在于，不依賴外部規(guī)則或指令，而是從模型內(nèi)部出發(fā)，重塑模型對(duì)自身思考狀態(tài)的理解與掌控力。

簡(jiǎn)單來(lái)說(shuō)，就是讓模型像人一樣，在覺(jué)得“想得差不多了”時(shí)，能夠自然地停下來(lái)，而不是無(wú)休止地繼續(xù)推理。

構(gòu)建過(guò)度推理識(shí)別指標(biāo)體系

為了更有效地識(shí)別推理過(guò)程中可能出現(xiàn)的冗余部分，研究團(tuán)隊(duì)構(gòu)建了一套參考標(biāo)準(zhǔn)答案的評(píng)估體系。

他們將推理劃分為兩個(gè)主要階段：基礎(chǔ)方案（Foundation Solution）和進(jìn)化方案（Evolution Solution）。

前者是模型在初步理解問(wèn)題后給出的第一輪解答，而后者則是大模型后續(xù)對(duì)這一初始方案的進(jìn)一步思考、補(bǔ)充和驗(yàn)證。

基于此，團(tuán)隊(duì)提出了兩個(gè)核心指標(biāo)：推理效率比和過(guò)度推理標(biāo)記比。

推理效率比衡量表示的是模型在達(dá)到第一個(gè)正確答案所需的推理步驟與整個(gè)推理過(guò)程總步驟的比例。

比例越接近1，表示模型的推理效率越高，過(guò)度推理的可能性越低。

而過(guò)度推理標(biāo)記比則通過(guò)分析推理過(guò)程中的語(yǔ)言模式，識(shí)別與過(guò)度推理行為相關(guān)的特定詞匯，如 “Wait”“But”“However” 等，來(lái)量化過(guò)度推理的嚴(yán)重程度。

這兩種指標(biāo)相互補(bǔ)充，從結(jié)構(gòu)和語(yǔ)言兩個(gè)維度全面評(píng)估推理過(guò)程中的冗余程度。

創(chuàng)新性數(shù)據(jù)構(gòu)建策略

研究團(tuán)隊(duì)基于上述指標(biāo)體系，開(kāi)發(fā)了Self-Braking Tuning Exact（SBT-E）和Self-Braking Tuning Dynamic（SBT-D）兩種互補(bǔ)的數(shù)據(jù)構(gòu)建策略。

SBT-E采用了一種統(tǒng)一的截?cái)嗖呗裕瑢?duì)每條推理路徑進(jìn)行結(jié)構(gòu)化處理。

在存在過(guò)度推理的案例中，保留模型生成的基礎(chǔ)解決方案以及一個(gè)進(jìn)化方案，并補(bǔ)充一小段被掩碼的后續(xù)內(nèi)容。

這樣的設(shè)計(jì)有助于模型在訓(xùn)練時(shí)明確區(qū)分哪些推理是必要的，哪些則是多余的，從而逐步學(xué)會(huì)控制推理的深度，避免無(wú)效延展。

SBT-D則采用逐步適應(yīng)的策略，根據(jù)不同問(wèn)題的特點(diǎn)動(dòng)態(tài)調(diào)整推理長(zhǎng)度。

從完整保留基礎(chǔ)解決方案開(kāi)始，逐步添加后續(xù)推理步驟，并在每一步重新計(jì)算過(guò)度推理分?jǐn)?shù)。當(dāng)分?jǐn)?shù)超過(guò)預(yù)設(shè)的閾值時(shí)，停止添加推理步驟，并將超出部分進(jìn)行掩碼處理。

這種方法使得模型能夠在不同復(fù)雜度的問(wèn)題上自適應(yīng)地終止推理，避免過(guò)度推理的發(fā)生。

自我調(diào)節(jié)制動(dòng)策略

除了數(shù)據(jù)構(gòu)建策略外，研究團(tuán)隊(duì)還引入了自我調(diào)節(jié)制動(dòng)策略，進(jìn)一步增強(qiáng)模型對(duì)推理過(guò)程的自我控制能力。

在SBT-E和SBT-D構(gòu)建的數(shù)據(jù)樣本里，研究團(tuán)隊(duì)對(duì)推理過(guò)程的后期冗余部分進(jìn)行了掩碼處理。

這就像給模型的推理之路設(shè)置關(guān)卡，擋住那些非必要的重復(fù)思考。

模型能看見(jiàn)這些被掩碼的內(nèi)容，但在訓(xùn)練時(shí)，這些部分不會(huì)計(jì)入損失函數(shù)，仿佛是“只展示不考核”。

通過(guò)這種方式，模型逐漸學(xué)會(huì)聚焦關(guān)鍵推理步驟，不再深陷無(wú)意義的冗余思考，從而提升推理效率。

除了對(duì)冗余推理部分進(jìn)行掩碼處理，SBT框架還引入了自然語(yǔ)言提示機(jī)制，作為引導(dǎo)模型停步的輔助方式。

這些提示以簡(jiǎn)潔的語(yǔ)言表達(dá)模型當(dāng)前的判斷，例如：”Wait, my answer is too verbose. Let me answer it more concisely”。

借助語(yǔ)言模型對(duì)語(yǔ)義的理解能力，這種方式能夠在推理過(guò)程中起到提醒作用，幫助模型識(shí)別信息已足夠、無(wú)需繼續(xù)展開(kāi)，從而減少無(wú)謂生成，提升整體推理的效率與簡(jiǎn)潔性。

實(shí)現(xiàn)“少思考但不失準(zhǔn)確”的效果

在數(shù)學(xué)推理基準(zhǔn)測(cè)試（AIME、AMC、MATH500、GSM8K）上，研究團(tuán)隊(duì)對(duì)SBT框架進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。

從實(shí)驗(yàn)結(jié)果來(lái)看，SBT框架在多個(gè)數(shù)學(xué)推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升，尤其是在推理效率方面，取得了前所未有的進(jìn)展。

相比于傳統(tǒng)的完整推理過(guò)程，SBT通過(guò)識(shí)別并主動(dòng)規(guī)避冗余推理步驟，實(shí)現(xiàn)了“少思考但不失準(zhǔn)確”的效果。

以Llama-3.1-8B-Instruct模型為例，應(yīng)用SBT-E策略后，模型在推理過(guò)程中生成的token數(shù)量減少了62.8%，但最終的準(zhǔn)確率仍穩(wěn)定維持在94.1%。

更為重要的是，這一方法在多個(gè)模型架構(gòu)和規(guī)模下均表現(xiàn)出高度的穩(wěn)定性和通用性，充分證明了其方法論的魯棒性和推廣價(jià)值。

它不僅證明了大量推理內(nèi)容在實(shí)際任務(wù)中是冗余的，而且表明這些冗余部分的剔除不會(huì)損害模型對(duì)復(fù)雜數(shù)學(xué)問(wèn)題的理解與解答能力。

論文地址：https://arxiv.org/pdf/2505.14604

項(xiàng)目主頁(yè)：https://ZJU-REAL.github.io/SBT

GitHub：https://github.com/ZJU-REAL/Self-Braking-Tuning

責(zé)任編輯：張燕妮來(lái)源：量子位

模型 AI DeepSeek

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看