成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理“剎不住車”?新框架讓DeepSeek-R1們告別過(guò)度思考,已開(kāi)源

人工智能 新聞
來(lái)自浙江大學(xué)、天津大學(xué)和MSRA的研究團(tuán)隊(duì)提出了一個(gè)新方法,Self-Braking Tuning(SBT)。

DeepSeek-R1、OpenAI o1等推理模型大放異彩。但隨著能力增強(qiáng),一個(gè)副作用越來(lái)越明顯——

它們開(kāi)始想太多了

從奧數(shù)題到程序邏輯,能解的題越來(lái)越多、推理鏈條越來(lái)越長(zhǎng)。

也就是說(shuō),模型在完成推理任務(wù)時(shí),常常出現(xiàn)過(guò)度思考

  • 步驟繁冗:明明兩步能解完,非要繞七八步,搞得邏輯鏈又長(zhǎng)又亂;
  • 表述拖沓:簡(jiǎn)單結(jié)論非要用復(fù)雜語(yǔ)言兜圈子,說(shuō)了一堆才到點(diǎn)子上;
  • 輸出冗長(zhǎng):生成了大量無(wú)效tokens,既浪費(fèi)算力,又拖慢推理速度。

這不光影響效率,更可能導(dǎo)致錯(cuò)誤——在長(zhǎng)鏈?zhǔn)剿伎贾校恳徊降男≌`差都會(huì)累積放大,最后可能想著想著就跑偏了。

于是,一個(gè)關(guān)鍵問(wèn)題擺在了現(xiàn)實(shí)面前:

如何讓模型既然會(huì)思考推理,也懂得“適可而止”,知道什么時(shí)候該停下來(lái)?

針對(duì)于此,來(lái)自浙江大學(xué)、天津大學(xué)和MSRA的研究團(tuán)隊(duì)提出了一個(gè)新方法,Self-Braking Tuning(SBT)。

它是一種輕量級(jí)、通用的調(diào)優(yōu)機(jī)制,可無(wú)縫集成到現(xiàn)有大模型中。其主要目的是讓模型不再一味求“多想”,而是在最短路徑上到達(dá)正確答案。

其核心設(shè)計(jì)包括剎車信號(hào)機(jī)制、多任務(wù)微調(diào),且無(wú)需外部模塊或改動(dòng)推理流程。

其中,剎車信號(hào)機(jī)制是在訓(xùn)練階段引入一類特殊的信號(hào),指示“當(dāng)前信息已經(jīng)足夠完成任務(wù)”,模型據(jù)此學(xué)習(xí)何時(shí)應(yīng)終止推理。

多任務(wù)微調(diào)則指揮模型同時(shí)學(xué)習(xí)如何解題&何時(shí)停步,兼顧準(zhǔn)確性與效率。

總結(jié)成一句話,SBT就像在大模型頭腦里裝了個(gè)“限速器”,讓它不再無(wú)休止地輸出,更聰明,也更節(jié)能。

圖片

讓模型知道自己“是否想太多”

SBT框架的核心目標(biāo),是讓模型具備自我判斷是否“想得太多”的能力,能夠在無(wú)需外部干預(yù)的情況下,適時(shí)終止推理過(guò)程。

圖片

它的特別之處在于,不依賴外部規(guī)則或指令,而是從模型內(nèi)部出發(fā),重塑模型對(duì)自身思考狀態(tài)的理解與掌控力。

簡(jiǎn)單來(lái)說(shuō),就是讓模型像人一樣,在覺(jué)得“想得差不多了”時(shí),能夠自然地停下來(lái),而不是無(wú)休止地繼續(xù)推理。

圖片

構(gòu)建過(guò)度推理識(shí)別指標(biāo)體系

為了更有效地識(shí)別推理過(guò)程中可能出現(xiàn)的冗余部分,研究團(tuán)隊(duì)構(gòu)建了一套參考標(biāo)準(zhǔn)答案的評(píng)估體系。

他們將推理劃分為兩個(gè)主要階段:基礎(chǔ)方案(Foundation Solution)和進(jìn)化方案(Evolution Solution)。

前者是模型在初步理解問(wèn)題后給出的第一輪解答,而后者則是大模型后續(xù)對(duì)這一初始方案的進(jìn)一步思考、補(bǔ)充和驗(yàn)證。

基于此,團(tuán)隊(duì)提出了兩個(gè)核心指標(biāo):推理效率比和過(guò)度推理標(biāo)記比。

推理效率比衡量表示的是模型在達(dá)到第一個(gè)正確答案所需的推理步驟與整個(gè)推理過(guò)程總步驟的比例。

比例越接近1,表示模型的推理效率越高,過(guò)度推理的可能性越低。

過(guò)度推理標(biāo)記比則通過(guò)分析推理過(guò)程中的語(yǔ)言模式,識(shí)別與過(guò)度推理行為相關(guān)的特定詞匯,如 “Wait”“But”“However” 等,來(lái)量化過(guò)度推理的嚴(yán)重程度。

這兩種指標(biāo)相互補(bǔ)充,從結(jié)構(gòu)和語(yǔ)言兩個(gè)維度全面評(píng)估推理過(guò)程中的冗余程度。

創(chuàng)新性數(shù)據(jù)構(gòu)建策略

研究團(tuán)隊(duì)基于上述指標(biāo)體系,開(kāi)發(fā)了Self-Braking Tuning Exact(SBT-E)和Self-Braking Tuning Dynamic(SBT-D)兩種互補(bǔ)的數(shù)據(jù)構(gòu)建策略。

SBT-E采用了一種統(tǒng)一的截?cái)嗖呗裕瑢?duì)每條推理路徑進(jìn)行結(jié)構(gòu)化處理。

在存在過(guò)度推理的案例中,保留模型生成的基礎(chǔ)解決方案以及一個(gè)進(jìn)化方案,并補(bǔ)充一小段被掩碼的后續(xù)內(nèi)容。

這樣的設(shè)計(jì)有助于模型在訓(xùn)練時(shí)明確區(qū)分哪些推理是必要的,哪些則是多余的,從而逐步學(xué)會(huì)控制推理的深度,避免無(wú)效延展。

SBT-D則采用逐步適應(yīng)的策略,根據(jù)不同問(wèn)題的特點(diǎn)動(dòng)態(tài)調(diào)整推理長(zhǎng)度。

從完整保留基礎(chǔ)解決方案開(kāi)始,逐步添加后續(xù)推理步驟,并在每一步重新計(jì)算過(guò)度推理分?jǐn)?shù)。當(dāng)分?jǐn)?shù)超過(guò)預(yù)設(shè)的閾值時(shí),停止添加推理步驟,并將超出部分進(jìn)行掩碼處理。

這種方法使得模型能夠在不同復(fù)雜度的問(wèn)題上自適應(yīng)地終止推理,避免過(guò)度推理的發(fā)生。

自我調(diào)節(jié)制動(dòng)策略

除了數(shù)據(jù)構(gòu)建策略外,研究團(tuán)隊(duì)還引入了自我調(diào)節(jié)制動(dòng)策略,進(jìn)一步增強(qiáng)模型對(duì)推理過(guò)程的自我控制能力。

在SBT-E和SBT-D構(gòu)建的數(shù)據(jù)樣本里,研究團(tuán)隊(duì)對(duì)推理過(guò)程的后期冗余部分進(jìn)行了掩碼處理。

這就像給模型的推理之路設(shè)置關(guān)卡,擋住那些非必要的重復(fù)思考。

模型能看見(jiàn)這些被掩碼的內(nèi)容,但在訓(xùn)練時(shí),這些部分不會(huì)計(jì)入損失函數(shù),仿佛是“只展示不考核”。

通過(guò)這種方式,模型逐漸學(xué)會(huì)聚焦關(guān)鍵推理步驟,不再深陷無(wú)意義的冗余思考,從而提升推理效率。

除了對(duì)冗余推理部分進(jìn)行掩碼處理,SBT框架還引入了自然語(yǔ)言提示機(jī)制,作為引導(dǎo)模型停步的輔助方式。

這些提示以簡(jiǎn)潔的語(yǔ)言表達(dá)模型當(dāng)前的判斷,例如:”Wait, my answer is too verbose. Let me answer it more concisely”。

借助語(yǔ)言模型對(duì)語(yǔ)義的理解能力,這種方式能夠在推理過(guò)程中起到提醒作用,幫助模型識(shí)別信息已足夠、無(wú)需繼續(xù)展開(kāi),從而減少無(wú)謂生成,提升整體推理的效率與簡(jiǎn)潔性。

實(shí)現(xiàn)“少思考但不失準(zhǔn)確”的效果

在數(shù)學(xué)推理基準(zhǔn)測(cè)試(AIME、AMC、MATH500、GSM8K)上,研究團(tuán)隊(duì)對(duì)SBT框架進(jìn)行了廣泛的實(shí)驗(yàn)評(píng)估。

從實(shí)驗(yàn)結(jié)果來(lái)看,SBT框架在多個(gè)數(shù)學(xué)推理數(shù)據(jù)集上展現(xiàn)出了顯著的性能提升,尤其是在推理效率方面,取得了前所未有的進(jìn)展。

圖片

相比于傳統(tǒng)的完整推理過(guò)程,SBT通過(guò)識(shí)別并主動(dòng)規(guī)避冗余推理步驟,實(shí)現(xiàn)了“少思考但不失準(zhǔn)確”的效果。

以Llama-3.1-8B-Instruct模型為例,應(yīng)用SBT-E策略后,模型在推理過(guò)程中生成的token數(shù)量減少了62.8%,但最終的準(zhǔn)確率仍穩(wěn)定維持在94.1%。

更為重要的是,這一方法在多個(gè)模型架構(gòu)和規(guī)模下均表現(xiàn)出高度的穩(wěn)定性和通用性,充分證明了其方法論的魯棒性和推廣價(jià)值。

它不僅證明了大量推理內(nèi)容在實(shí)際任務(wù)中是冗余的,而且表明這些冗余部分的剔除不會(huì)損害模型對(duì)復(fù)雜數(shù)學(xué)問(wèn)題的理解與解答能力。

論文地址:https://arxiv.org/pdf/2505.14604

項(xiàng)目主頁(yè):https://ZJU-REAL.github.io/SBT

GitHub:https://github.com/ZJU-REAL/Self-Braking-Tuning

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-11 14:54:44

2025-02-08 09:44:11

DeepSeekAI模型

2025-05-06 09:09:37

2025-02-19 08:00:00

2025-03-19 09:52:50

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-03-10 07:00:00

阿里開(kāi)源QwQ-32B

2025-02-17 08:43:00

模型推理訓(xùn)練

2025-03-06 17:29:21

2025-02-13 08:51:23

DeepSeek大模型

2025-02-07 13:10:06

2023-05-05 10:16:39

2025-02-12 12:45:59

2025-02-19 08:33:18

2025-04-09 10:40:32

2025-02-06 09:11:54

2025-01-21 11:53:53

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-02-03 14:17:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产黄色大片在线观看 | 亚洲日本一区二区三区四区 | 最新日韩在线视频 | 丁香久久 | 91精品国产综合久久久久 | 在线高清免费观看视频 | 中文字幕一区在线 | 国产精品 欧美精品 | 青青草综合网 | 日韩欧美一区二区三区四区 | 色欧美片视频在线观看 | 国产精品视频入口 | 久久爆操| 欧美综合色 | 嫩草视频入口 | 日屁视频 | 国产精品99精品久久免费 | 日韩快播电影 | 国产精品精品视频一区二区三区 | 久久99精品久久久久久 | 国产精品乱码一区二三区小蝌蚪 | 亚洲一区二区三区四区五区中文 | 欧美日韩在线成人 | 国产不卡在线观看 | 亚洲一区二区三区在线视频 | 国产精品视频网 | 久久99精品视频 | 精品福利在线 | 亚洲欧美激情精品一区二区 | 一区二区三区在线播放视频 | 国产日本精品视频 | 国产精品久久久久久久白浊 | 一区二区福利视频 | 日韩免费视频一区二区 | 免费一区二区三区 | 特级做a爰片毛片免费看108 | 亚洲精品日韩在线 | 精品视频一区二区 | 亚洲一区二区三区高清 | 日韩欧美亚洲一区 | 激情久久久久 |