推理“剎不住車”?新框架讓DeepSeek-R1們告別過(guò)度思考,已開(kāi)源
DeepSeek-R1、OpenAI o1等推理模型大放異彩。但隨著能力增強(qiáng),一個(gè)副作用越來(lái)越明顯——
它們開(kāi)始想太多了。
從奧數(shù)題到程序邏輯,能解的題越來(lái)越多、推理鏈條越來(lái)越長(zhǎng)。
也就是說(shuō),模型在完成推理任務(wù)時(shí),常常出現(xiàn)過(guò)度思考:
- 步驟繁冗:明明兩步能解完,非要繞七八步,搞得邏輯鏈又長(zhǎng)又亂;
- 表述拖沓:簡(jiǎn)單結(jié)論非要用復(fù)雜語(yǔ)言兜圈子,說(shuō)了一堆才到點(diǎn)子上;
- 輸出冗長(zhǎng):生成了大量無(wú)效tokens,既浪費(fèi)算力,又拖慢推理速度。
這不光影響效率,更可能導(dǎo)致錯(cuò)誤——在長(zhǎng)鏈?zhǔn)剿伎贾校恳徊降男≌`差都會(huì)累積放大,最后可能想著想著就跑偏了。
于是,一個(gè)關(guān)鍵問(wèn)題擺在了現(xiàn)實(shí)面前:
如何讓模型既然會(huì)思考推理,也懂得“適可而止”,知道什么時(shí)候該停下來(lái)?
針對(duì)于此,來(lái)自浙江大學(xué)、天津大學(xué)和MSRA的研究團(tuán)隊(duì)提出了一個(gè)新方法,Self-Braking Tuning(SBT)。
它是一種輕量級(jí)、通用的調(diào)優(yōu)機(jī)制,可無(wú)縫集成到現(xiàn)有大模型中。其主要目的是讓模型不再一味求“多想”,而是在最短路徑上到達(dá)正確答案。
其核心設(shè)計(jì)包括剎車信號(hào)機(jī)制、多任務(wù)微調(diào),且無(wú)需外部模塊或改動(dòng)推理流程。
其中,剎車信號(hào)機(jī)制是在訓(xùn)練階段引入一類特殊的信號(hào),指示“當(dāng)前信息已經(jīng)足夠完成任務(wù)”,模型據(jù)此學(xué)習(xí)何時(shí)應(yīng)終止推理。
多任務(wù)微調(diào)則指揮模型同時(shí)學(xué)習(xí)如何解題&何時(shí)停步,兼顧準(zhǔn)確性與效率。
總結(jié)成一句話,SBT就像在大模型頭腦里裝了個(gè)“限速器”,讓它不再無(wú)休止地輸出,更聰明,也更節(jié)能。
讓模型知道自己“是否想太多”
SBT框架的核心目標(biāo),是讓模型具備自我判斷是否“想得太多”的能力,能夠在無(wú)需外部干預(yù)的情況下,適時(shí)終止推理過(guò)程。
它的特別之處在于,不依賴外部規(guī)則或指令,而是從模型內(nèi)部出發(fā),重塑模型對(duì)自身思考狀態(tài)的理解與掌控力。
簡(jiǎn)單來(lái)說(shuō),就是讓模型像人一樣,在覺(jué)得“想得差不多了”時(shí),能夠自然地停下來(lái),而不是無(wú)休止地繼續(xù)推理。
構(gòu)建過(guò)度推理識(shí)別指標(biāo)體系
為了更有效地識(shí)別推理過(guò)程中可能出現(xiàn)的冗余部分,研究團(tuán)隊(duì)構(gòu)建了一套參考標(biāo)準(zhǔn)答案的評(píng)估體系。
他們將推理劃分為兩個(gè)主要階段:基礎(chǔ)方案(Foundation Solution)和進(jìn)化方案(Evolution Solution)。
前者是模型在初步理解問(wèn)題后給出的第一輪解答,而后者則是大模型后續(xù)對(duì)這一初始方案的進(jìn)一步思考、補(bǔ)充和驗(yàn)證。
基于此,團(tuán)隊(duì)提出了兩個(gè)核心指標(biāo):推理效率比和過(guò)度推理標(biāo)記比。
推理效率比衡量表示的是模型在達(dá)到第一個(gè)正確答案所需的推理步驟與整個(gè)推理過(guò)程總步驟的比例。
比例越接近1,表示模型的推理效率越高,過(guò)度推理的可能性越低。
而過(guò)度推理標(biāo)記比則通過(guò)分析推理過(guò)程中的語(yǔ)言模式,識(shí)別與過(guò)度推理行為相關(guān)的特定詞匯,如 “Wait”“But”“However” 等,來(lái)量化過(guò)度推理的嚴(yán)重程度。
這兩種指標(biāo)相互補(bǔ)充,從結(jié)構(gòu)和語(yǔ)言兩個(gè)維度全面評(píng)估推理過(guò)程中的冗余程度。
創(chuàng)新性數(shù)據(jù)構(gòu)建策略
研究團(tuán)隊(duì)基于上述指標(biāo)體系,開(kāi)發(fā)了Self-Braking Tuning Exact(SBT-E)和Self-Braking Tuning Dynamic(SBT-D)兩種互補(bǔ)的數(shù)據(jù)構(gòu)建策略。
SBT-E采用了一種統(tǒng)一的截?cái)嗖呗裕瑢?duì)每條推理路徑進(jìn)行結(jié)構(gòu)化處理。
在存在過(guò)度推理的案例中,保留模型生成的基礎(chǔ)解決方案以及一個(gè)進(jìn)化方案,并補(bǔ)充一小段被掩碼的后續(xù)內(nèi)容。
這樣的設(shè)計(jì)有助于模型在訓(xùn)練時(shí)明確區(qū)分哪些推理是必要的,哪些則是多余的,從而逐步學(xué)會(huì)控制推理的深度,避免無(wú)效延展。
SBT-D則采用逐步適應(yīng)的策略,根據(jù)不同問(wèn)題的特點(diǎn)動(dòng)態(tài)調(diào)整推理長(zhǎng)度。
從完整保留基礎(chǔ)解決方案開(kāi)始,逐步添加后續(xù)推理步驟,并在每一步重新計(jì)算過(guò)度推理分?jǐn)?shù)。當(dāng)分?jǐn)?shù)超過(guò)預(yù)設(shè)的閾值時(shí),停止添加推理步驟,并將超出部分進(jìn)行掩碼處理。
這種方法使得模型能夠在不同復(fù)雜度的問(wèn)題上自適應(yīng)地終止推理,避免過(guò)度推理的發(fā)生。
自我調(diào)節(jié)制動(dòng)策略
除了數(shù)據(jù)構(gòu)建策略外,研究團(tuán)隊(duì)還引入了自我調(diào)節(jié)制動(dòng)策略,進(jìn)一步增強(qiáng)模型對(duì)推理過(guò)程的自我控制能力。
在SBT-E和SBT-D構(gòu)建的數(shù)據(jù)樣本里,研究團(tuán)隊(duì)對(duì)推理過(guò)程的后期冗余部分進(jìn)行了掩碼處理。
這就像給模型的推理之路設(shè)置關(guān)卡,擋住那些非必要的重復(fù)思考。
模型能看見(jiàn)這些被掩碼的內(nèi)容,但在訓(xùn)練時(shí),這些部分不會(huì)計(jì)入損失函數(shù),仿佛是“只展示不考核”。
通過(guò)這種方式,模型逐漸學(xué)會(huì)聚焦關(guān)鍵推理步驟,不再深陷無(wú)意義的冗余思考,從而提升推理效率。
除了對(duì)冗余推理部分進(jìn)行掩碼處理,SBT框架還引入了自然語(yǔ)言提示機(jī)制,作為引導(dǎo)模型停步的輔助方式。
這些提示以簡(jiǎn)潔的語(yǔ)言表達(dá)模型當(dāng)前的判斷,例如:”Wait, my answer is too verbose. Let me answer it more concisely”。
借助語(yǔ)言模型對(duì)語(yǔ)義的理解能力,這種方式能夠在推理過(guò)程中起到提醒作用,幫助模型識(shí)別信息已足夠、無(wú)需繼續(xù)展開(kāi),從而減少無(wú)謂生成,提升整體推理的效率與簡(jiǎn)潔性。
實(shí)現(xiàn)“少思考但不失準(zhǔn)確”的效果
在數(shù)學(xué)推理基準(zhǔn)測(cè)試(AIME、AMC、MATH500、GSM8K)上,研究團(tuán)隊(duì)對(duì)SBT框架進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。
從實(shí)驗(yàn)結(jié)果來(lái)看,SBT框架在多個(gè)數(shù)學(xué)推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,尤其是在推理效率方面,取得了前所未有的進(jìn)展。
相比于傳統(tǒng)的完整推理過(guò)程,SBT通過(guò)識(shí)別并主動(dòng)規(guī)避冗余推理步驟,實(shí)現(xiàn)了“少思考但不失準(zhǔn)確”的效果。
以Llama-3.1-8B-Instruct模型為例,應(yīng)用SBT-E策略后,模型在推理過(guò)程中生成的token數(shù)量減少了62.8%,但最終的準(zhǔn)確率仍穩(wěn)定維持在94.1%。
更為重要的是,這一方法在多個(gè)模型架構(gòu)和規(guī)模下均表現(xiàn)出高度的穩(wěn)定性和通用性,充分證明了其方法論的魯棒性和推廣價(jià)值。
它不僅證明了大量推理內(nèi)容在實(shí)際任務(wù)中是冗余的,而且表明這些冗余部分的剔除不會(huì)損害模型對(duì)復(fù)雜數(shù)學(xué)問(wèn)題的理解與解答能力。
論文地址:https://arxiv.org/pdf/2505.14604
項(xiàng)目主頁(yè):https://ZJU-REAL.github.io/SBT