成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

別讓大模型想太多了,過度思考會影響性能

發(fā)布于 2025-3-26 10:58
瀏覽
0收藏

加州大學(xué)伯克利分校、蘇黎世聯(lián)邦理工學(xué)院等多所高校的研究人員,深入剖析了大模型在執(zhí)行Agent任務(wù)時(shí)面臨的困境 ——過度思考。


為了量化這種行為,研究人員開發(fā)了一套系統(tǒng)評估框架,并通過4018條軌跡分析發(fā)現(xiàn),高推理努力配置的模型雖然解決了29.1%的問題,但成本高達(dá)1400美元;而低推理努力配置則以3.5倍更低的成本達(dá)到了21.0%的成功率。


此外,生成兩個(gè)低推理解決方案并選擇其中一個(gè)具有較低過度思考得分的方法,實(shí)現(xiàn)了27.3%的解決率,同時(shí)減少了43%的計(jì)算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

開源地址:https://github.com/AlexCuadron/ThinkingAgent


過度思考是指,大模型過度依賴內(nèi)部推理,而忽視了從環(huán)境中獲取或整合關(guān)鍵反饋的傾向。即使在資源不受限制的情況下,這種過度依賴內(nèi)部推理的模型仍然會受到其不完整或不準(zhǔn)確的世界模型的限制,從而導(dǎo)致錯(cuò)誤的累積和決策能力的下降。


為了深入研究這種現(xiàn)象,研究人員通過分析智能體與環(huán)境之間的交互過程,識別出三種過度思考的典型表現(xiàn)模式。


首先是“分析癱瘓”(Analysis Paralysis),在這種情況下,模型過度專注于未來的規(guī)劃,而忽視了當(dāng)前環(huán)境中的實(shí)際進(jìn)展。它們會生成越來越復(fù)雜的行動(dòng)序列,但卻難以系統(tǒng)地執(zhí)行這些計(jì)劃,從而陷入無休止的規(guī)劃循環(huán)中。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

其次是“魯莽行動(dòng)”(Rogue Actions),在這種模式下,模型在面對錯(cuò)誤時(shí)會嘗試同時(shí)執(zhí)行多個(gè)相互依賴的行動(dòng),而沒有等待環(huán)境對前一個(gè)行動(dòng)的反饋,模型試圖用內(nèi)部模擬來替代真實(shí)的環(huán)境反饋。


最后是“過早脫離”(Premature Disengagement),在這種情況下,模型基于內(nèi)部對問題空間的模擬而終止任務(wù),而不是根據(jù)環(huán)境反饋來驗(yàn)證解決方案的有效性。這種過度依賴內(nèi)部推理的行為可能導(dǎo)致模型在沒有驗(yàn)證的情況下就放棄任務(wù),或者錯(cuò)誤地認(rèn)為問題無法解決。


為了量化過度思考行為,研究團(tuán)隊(duì)開發(fā)了一種系統(tǒng)化的評分方法,使用大模型作為評判標(biāo)準(zhǔn)。該方法通過分析模型軌跡,識別出上述三種過度思考模式,并給出0到10分的評分,分?jǐn)?shù)越高表示過度思考越嚴(yán)重。每個(gè)評分都附有詳細(xì)的理由,解釋所識別的模式及其嚴(yán)重程度。完整的評估提示和評分標(biāo)準(zhǔn)可以在附錄A中找到。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

為了驗(yàn)證自動(dòng)化評估方法的可靠性,研究人員邀請了四位專家手動(dòng)評定了20個(gè)隨機(jī)選擇的模型軌跡。通過標(biāo)準(zhǔn)化評分,研究團(tuán)隊(duì)進(jìn)行了全面的統(tǒng)計(jì)分析,探究過度思考行為與模型性能的關(guān)系,以及過度思考對推理模型和非推理模型的不同影響。


結(jié)果顯示,推理模型的過度思考得分顯著高于非推理模型,且兩者之間的相關(guān)性非常強(qiáng),證實(shí)了自動(dòng)評估方法的可靠性。


此外,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng)化評估軌跡的提示,避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現(xiàn)形式展開,即分析癱瘓、魯莽行為和過早脫離,并強(qiáng)調(diào)偏好內(nèi)部推理鏈而非環(huán)境互動(dòng)。

別讓大模型想太多了,過度思考會影響性能-AI.x社區(qū)

評分系統(tǒng)分為三檔:0-3分表示適當(dāng)?shù)沫h(huán)境互動(dòng),4-7分表示偶爾過度依賴內(nèi)部推理,8-10分則表示完全脫離環(huán)境反饋。


通過提供具體的例子,如模型得0分時(shí)會持續(xù)重試類似配置并在每次嘗試間等待反饋,而得10分時(shí)會生成多個(gè)互依動(dòng)作而不等待環(huán)境響應(yīng),或基于內(nèi)部推理提前結(jié)束任務(wù),確保評分標(biāo)準(zhǔn)的透明和一致。


實(shí)驗(yàn)結(jié)果表明,過度思考評分與任務(wù)解決率呈現(xiàn)出顯著的負(fù)相關(guān)性。推理模型的過度思考評分越高,其在軟件工程任務(wù)中的表現(xiàn)越差。這一趨勢在非推理模型中也得到了體現(xiàn),但其下降速度更快。例如,推理模型的趨勢線斜率為-7.894,而非推理模型的趨勢線斜率達(dá)到了-15.938。


在模型類型與過度思考的關(guān)系方面,作者們發(fā)現(xiàn)推理模型的過度思考傾向明顯高于非推理模型。實(shí)驗(yàn)數(shù)據(jù)顯示,推理模型的平均過度思考評分為3.505,而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓(xùn)練過程中被優(yōu)化為生成更長的推理鏈,從而在面對需要頻繁與環(huán)境互動(dòng)的任務(wù)時(shí),表現(xiàn)出更高的過度思考傾向。


此外,還研究了模型規(guī)模對過度思考的影響。實(shí)驗(yàn)結(jié)果表明,模型規(guī)模與過度思考評分之間存在負(fù)相關(guān)性。較小的模型,如7B和14B參數(shù)的模型在交互式任務(wù)中表現(xiàn)出更高的過度思考傾向,而較大的模型如671B參數(shù)的模型則相對較低。這一現(xiàn)象可能與模型的復(fù)雜性和對環(huán)境反饋的處理能力有關(guān)。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲播放一区 | 黄色大片视频 | 超碰一区二区 | 国产黑丝av | 国产视频二区在线观看 | 国产精品久久久久久久久久 | 国产乱码精品一区二区三区中文 | 爱操av| 色啪网| 99成人| 一区二区三区在线电影 | 国产99热在线 | www狠狠爱com | 自拍第一页 | 狠狠干美女 | 日韩伦理电影免费在线观看 | 毛片日韩 | 毛片a| 天堂视频一区 | 九色www| 欧美片网站免费 | 91精品国产色综合久久不卡98口 | 亚洲一区在线日韩在线深爱 | 欧美成年网站 | 男插女下体视频 | 天堂综合| 久久久国产一区二区三区四区小说 | 久久男人天堂 | 国产午夜精品一区二区三区嫩草 | 黄色在线播放视频 | 国产精品一二三区 | 亚洲国产一区二区三区在线观看 | 久久精品日产第一区二区三区 | 欧洲视频一区二区 | 久视频在线观看 | 一区二区在线看 | 老外几下就让我高潮了 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 国产精品久久久久久久岛一牛影视 | 一二区成人影院电影网 | 97avcc |