成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不要思考過(guò)程,推理模型能力能夠更強(qiáng)丨UC伯克利等最新研究

人工智能 新聞
通過(guò)簡(jiǎn)單的prompt繞過(guò)「思考」這一過(guò)程直接生成解決方案,可能同樣有效,甚至更好。

其實(shí)……不用大段大段思考,推理模型也能有效推理!

是不是有點(diǎn)反常識(shí)?因?yàn)榇蠹业囊回炗∠罄铮评砟P椭阅芰?qiáng)大、能給出準(zhǔn)確的有效答案,靠的就是長(zhǎng)篇累牘的推理過(guò)程。

這個(gè)過(guò)程往往用時(shí)很長(zhǎng),等同于需要消耗大量算力。已經(jīng)有一些研究嘗試提高推理效率,但大多仍依賴顯式思考過(guò)程。

來(lái)自UC伯克利和艾倫實(shí)驗(yàn)室團(tuán)隊(duì)的最新研究結(jié)果打破了這一刻板印象——

通過(guò)簡(jiǎn)單的prompt繞過(guò)「思考」這一過(guò)程直接生成解決方案,可能同樣有效,甚至更好。

這種方法被稱(chēng)為“無(wú)思考(NoThinking)”方法

實(shí)驗(yàn)數(shù)據(jù)顯示,在低資源情況(即少token數(shù)量、少模型參數(shù))或低延遲情況下,Nothinking方法得出的結(jié)果均優(yōu)于Thinking方法的結(jié)果,實(shí)現(xiàn)比傳統(tǒng)思考方式更好的精度- 延遲權(quán)衡。

其他情況下,NoThinking方法在部分?jǐn)?shù)據(jù)集上的表現(xiàn)也能超越Thinking。

「思考」和「無(wú)思考」

研究團(tuán)隊(duì)以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ),提出了NoThinking方法。

咱們先來(lái)分辨一下Thinking和NoThinking的區(qū)別在哪里。

圖片

Thinking方法是傳統(tǒng)推理模型所采用的方法,模型先生成一個(gè)長(zhǎng)的思考過(guò)程(Thinking),包含反思、回溯和自我驗(yàn)證等步驟,然后再生成最終解決方案(Final Solution)。

好比你隨意丟給模型一個(gè)問(wèn)題,模型可能會(huì)先嘗試?yán)斫鈫?wèn)題、分解問(wèn)題、探索可能的解法,然后逐步驗(yàn)證每個(gè)步驟的正確性,最后得出答案。

而研究人員最新提出的NoThinking方法,則通過(guò)簡(jiǎn)單的prompt直接讓模型跳過(guò)顯式的思考過(guò)程。

也就是在prompt中預(yù)先填充一個(gè)空的思考?jí)K,如在問(wèn)題提示后直接添加“<|beginning of thinking|>Okay, I think I have finished thinking.<|end of thinking|>”,然后讓模型直接從這個(gè)空思考?jí)K開(kāi)始生成最終解決方案。

例如,在問(wèn)題提示后直接添加一個(gè)表示思考結(jié)束的標(biāo)記,然后讓模型生成答案。

截至目前,Thinking是大多數(shù)推理模型默認(rèn)的推理方式。

但NoThinking團(tuán)隊(duì)十分質(zhì)疑這個(gè)過(guò)程的必要性??

所以團(tuán)隊(duì)成員以DeepSeek-R1-Distill-Qwen模型為基礎(chǔ)——選擇這個(gè)模型,是因?yàn)樗钱?dāng)前最先進(jìn)的推理模型之一——設(shè)計(jì)了無(wú)思考(NoThinking)方法。

在NoThinking中,模型的推理過(guò)程直接從預(yù)填充的思考?jí)K開(kāi)始,跳過(guò)了生成詳細(xì)思考步驟的階段,直接進(jìn)入解決方案的生成。

這意味著模型不需要花費(fèi)時(shí)間來(lái)構(gòu)建和輸出思考過(guò)程,從而減少了生成的token數(shù)量,提高了推理速度。

低資源情況下,NoThinking表現(xiàn)優(yōu)于Thinking

研究人員將NoThinking與Thinking方法在相同的模型和數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。

試圖通過(guò)控制token數(shù)量、模型參數(shù)等變量,比較兩種方法在不同任務(wù)上的準(zhǔn)確性和效率差異。

他們選用了多個(gè)推理數(shù)據(jù)集來(lái)評(píng)估模型性能,這些數(shù)據(jù)集涵蓋了不同的推理任務(wù)類(lèi)型和難度級(jí)別,能夠全面評(píng)估模型的推理能力:

包括數(shù)學(xué)問(wèn)題解決(如AIME、AMC)、編程(LiveCodeBench)和形式定理證明(MiniF2F、ProofNet)等。

評(píng)估指標(biāo)方面,則主要使用pass@k指標(biāo)來(lái)衡量模型性能。pass@k表示的是“在生成的k個(gè)樣本中至少有一個(gè)正確答案的概率”。

此外,實(shí)驗(yàn)過(guò)程還關(guān)注了token使用量和延遲等指標(biāo),以評(píng)估模型在資源消耗和響應(yīng)速度方面的表現(xiàn)。

最后的實(shí)驗(yàn)結(jié)果怎么樣?

綜合表現(xiàn)如圖所示,這是無(wú)token預(yù)算下的最終結(jié)果:

圖片

這是有token預(yù)算下的最終結(jié)果:

圖片

數(shù)學(xué)問(wèn)題解決

相同token預(yù)算下,在AIME和AMC等數(shù)學(xué)問(wèn)題數(shù)據(jù)集上,NoThinking通常比Thinking表現(xiàn)更好。

例如,在ACM23數(shù)據(jù)集上,當(dāng)token數(shù)量限制為700時(shí),NoThinking的準(zhǔn)確率是51.3%,顯著高于Thinking的28.9%。

這表明在數(shù)學(xué)推理任務(wù)中,直接生成解決方案可能比詳細(xì)思考更有效(尤其是在資源受限的情況下)。

形式定理證明

在MiniF2F和ProofNet數(shù)據(jù)集上,NoThinking在pass@k指標(biāo)上與Thinking相當(dāng),但使用的token數(shù)量顯著減少(3.3–3.7倍)。

這表明在需要嚴(yán)格邏輯推理的任務(wù)中,即使沒(méi)有顯式的思考過(guò)程,NoThinking也能保持高準(zhǔn)確性,同時(shí)顯著降低計(jì)算成本。

編程任務(wù)

在LiveCodeBench數(shù)據(jù)集上:

  • 在低token預(yù)算下,NoThinking表現(xiàn)優(yōu)于Thinking
  • 在高token預(yù)算下,Thinking有時(shí)表現(xiàn)更好

這表明在編程任務(wù)中,思考過(guò)程可能在資源充足時(shí)提供一定優(yōu)勢(shì);但資源受限時(shí),NoThinking的效率更高。

NoThinking的pass@k性能

隨著k值(生成的樣本數(shù)量)增加,NoThinking的pass@k性能通常會(huì)超過(guò)Thinking。

這表明NoThinking生成的解決方案多樣性更高,能夠通過(guò)多次采樣提高準(zhǔn)確性。

圖片

一個(gè)典型的例子體現(xiàn)在AIME24數(shù)據(jù)集上——

當(dāng)k=64時(shí),NoThinking在相同token預(yù)算下的pass@64準(zhǔn)確率顯著高于Thinking。

這表明NoThinking在多次嘗試中更有可能找到正確答案。

圖片

并行擴(kuò)展實(shí)驗(yàn)

實(shí)驗(yàn)過(guò)程中,團(tuán)隊(duì)進(jìn)一步探索了NoThinking與并行計(jì)算擴(kuò)展結(jié)合的潛力。

通過(guò)同時(shí)生成多個(gè)輸出并進(jìn)行聚合(如最佳選擇策略),評(píng)估這種方法在提高性能和降低延遲方面的效果。

實(shí)驗(yàn)結(jié)果表明,在結(jié)合并行擴(kuò)展時(shí),NoThinking表現(xiàn)出了顯著的性能提升。

對(duì)于有Verifier的任務(wù)(如MiniF2F和ProofNet),NoThinking結(jié)合并行擴(kuò)展可以實(shí)現(xiàn)與Thinking相當(dāng)甚至更高的準(zhǔn)確率,同時(shí)將延遲降低7倍,token使用量減少4倍。

在沒(méi)有Verifier的任務(wù)中(如數(shù)學(xué)問(wèn)題和編程),使用置信度選擇策略的NoThinking也能在低延遲下實(shí)現(xiàn)與Thinking相當(dāng)或更好的準(zhǔn)確率。

例如,在AMC2023數(shù)據(jù)集上,NoThinking在并行擴(kuò)展下比Thinking快9倍,同時(shí)準(zhǔn)確率更高。

總體而言,通過(guò)同時(shí)生成多個(gè)輸出并選擇最佳答案,NoThinking在延遲和token使用量上都優(yōu)于Thinking。

推理模型依賴于思考過(guò)程是“非必要的”

綜上所述不難發(fā)現(xiàn),雖然不同任務(wù)類(lèi)型對(duì)“NoThinking”和“Thinking”的要求不同,但在低token預(yù)算和低延遲情況下,NoThinking表現(xiàn)優(yōu)于Thinking,并且在并行擴(kuò)展中展現(xiàn)出更高的效率。

NoThinking方法在多個(gè)推理任務(wù)中表現(xiàn)出了令人驚訝的有效性表示:

即使跳過(guò)了顯式的思考過(guò)程,模型依然能夠生成準(zhǔn)確的解決方案

NoThinking方法證明了“推理模型依賴于思考過(guò)程”的非必要性。換句話說(shuō),可能存在更高效的方式來(lái)實(shí)現(xiàn)強(qiáng)大的推理性能,而不依賴于冗長(zhǎng)的思考過(guò)程。

這與目前普遍認(rèn)為推理模型需要詳細(xì)思考過(guò)程才能有效工作的觀點(diǎn)相悖。

面對(duì)這個(gè)結(jié)果,不少吃瓜群眾表達(dá)了自己的看法。

有贊成者,比如ExtensityAI的聯(lián)合創(chuàng)始人兼CTO就表示,這一點(diǎn)也不令人意外。

考慮到蒸餾過(guò)程,這個(gè)結(jié)果并不奇怪——學(xué)生可以在微調(diào)過(guò)程中內(nèi)化老師的推理,并在推理時(shí)提供一條“捷徑”。

圖片

但也有人表示NoThinking看似可以省略推理過(guò)程,但其實(shí)要耗費(fèi)大量人工時(shí)間來(lái)實(shí)現(xiàn):

結(jié)果雖如此,但實(shí)際操作里到底有誰(shuí)會(huì)耐心從k個(gè)答案里去挑選最佳的那個(gè)啊??

圖片

不管怎么說(shuō),Nothinking還是帶給大家一個(gè)新視角,往后推理模型的優(yōu)化,可以朝更簡(jiǎn)單有效的方向嘗試看看。

或許有一天,大家在等推理模型吐精準(zhǔn)答案的時(shí)候,也不用焦慮地等待那么久了~

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-04-18 08:42:52

模型推理AI

2025-04-21 08:52:00

大語(yǔ)言模型生成AI

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2025-01-20 13:08:25

2024-12-18 07:20:00

2025-01-22 15:21:00

2023-07-01 13:27:55

2024-12-02 08:20:00

2025-06-25 16:09:40

機(jī)器人AI訓(xùn)練

2025-01-24 15:30:00

2023-04-07 09:28:31

模型訓(xùn)練

2023-12-16 09:49:18

2023-04-04 13:17:00

GPUCMU開(kāi)源

2024-11-26 13:40:00

2024-02-05 13:28:14

AI音頻虛擬人像

2025-04-27 08:30:00

2023-05-04 14:55:02

模型AI

2023-12-04 18:56:03

AI模型

2023-08-05 13:45:46

模型AI

2022-03-28 13:25:42

AI扶貧機(jī)器之心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 在线伊人网 | 亚洲视频www | 69av片| 成人亚洲精品 | 一级片在线免费播放 | 国产精品久久一区二区三区 | 日韩一区二区三区av | 日日骚网| 精品日韩在线 | 天天操天天射天天舔 | 精品自拍视频 | 久久精品中文 | 亚洲36d大奶网 | 韩日中文字幕 | 久久亚洲一区二区三区四区 | 国产精品爱久久久久久久 | 国产一区二区三区四区 | 亚洲一区二区三区在线视频 | 日韩欧美在线观看视频 | av网址在线 | 成人av一区二区三区 | 欧美精品中文字幕久久二区 | 自拍偷拍亚洲视频 | 国内激情av片 | 日韩在线视频精品 | 日本成人区 | 色888www视频在线观看 | 亚洲精品18 | 99久久中文字幕三级久久日本 | 午夜成人免费视频 | 亚洲黄色片免费观看 | 国产成人精品免高潮在线观看 | 国产精品国产a级 | 中文字幕一二三区 | 欧美啪啪 | 成人污污视频 | 天天操天天射综合网 | 国产免费一区二区三区最新6 | www.伊人.com | 伊人爽 | 欧美日韩亚洲二区 |