別讓大模型想太多了，過度思考會影響性能

發(fā)布于 2025-3-26 10:58

瀏覽

0收藏

加州大學(xué)伯克利分校、蘇黎世聯(lián)邦理工學(xué)院等多所高校的研究人員，深入剖析了大模型在執(zhí)行Agent任務(wù)時(shí)面臨的困境 ——過度思考。

為了量化這種行為，研究人員開發(fā)了一套系統(tǒng)評估框架，并通過4018條軌跡分析發(fā)現(xiàn)，高推理努力配置的模型雖然解決了29.1%的問題，但成本高達(dá)1400美元；而低推理努力配置則以3.5倍更低的成本達(dá)到了21.0%的成功率。

此外，生成兩個(gè)低推理解決方案并選擇其中一個(gè)具有較低過度思考得分的方法，實(shí)現(xiàn)了27.3%的解決率，同時(shí)減少了43%的計(jì)算成本。這表明減輕過度思考不僅提高了推理效率，還顯著降低了成本。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

開源地址：https://github.com/AlexCuadron/ThinkingAgent

過度思考是指，大模型過度依賴內(nèi)部推理，而忽視了從環(huán)境中獲取或整合關(guān)鍵反饋的傾向。即使在資源不受限制的情況下，這種過度依賴內(nèi)部推理的模型仍然會受到其不完整或不準(zhǔn)確的世界模型的限制，從而導(dǎo)致錯(cuò)誤的累積和決策能力的下降。

為了深入研究這種現(xiàn)象，研究人員通過分析智能體與環(huán)境之間的交互過程，識別出三種過度思考的典型表現(xiàn)模式。

首先是“分析癱瘓”（Analysis Paralysis），在這種情況下，模型過度專注于未來的規(guī)劃，而忽視了當(dāng)前環(huán)境中的實(shí)際進(jìn)展。它們會生成越來越復(fù)雜的行動(dòng)序列，但卻難以系統(tǒng)地執(zhí)行這些計(jì)劃，從而陷入無休止的規(guī)劃循環(huán)中。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

其次是“魯莽行動(dòng)”（Rogue Actions），在這種模式下，模型在面對錯(cuò)誤時(shí)會嘗試同時(shí)執(zhí)行多個(gè)相互依賴的行動(dòng)，而沒有等待環(huán)境對前一個(gè)行動(dòng)的反饋，模型試圖用內(nèi)部模擬來替代真實(shí)的環(huán)境反饋。

最后是“過早脫離”（Premature Disengagement），在這種情況下，模型基于內(nèi)部對問題空間的模擬而終止任務(wù)，而不是根據(jù)環(huán)境反饋來驗(yàn)證解決方案的有效性。這種過度依賴內(nèi)部推理的行為可能導(dǎo)致模型在沒有驗(yàn)證的情況下就放棄任務(wù)，或者錯(cuò)誤地認(rèn)為問題無法解決。

為了量化過度思考行為，研究團(tuán)隊(duì)開發(fā)了一種系統(tǒng)化的評分方法，使用大模型作為評判標(biāo)準(zhǔn)。該方法通過分析模型軌跡，識別出上述三種過度思考模式，并給出0到10分的評分，分?jǐn)?shù)越高表示過度思考越嚴(yán)重。每個(gè)評分都附有詳細(xì)的理由，解釋所識別的模式及其嚴(yán)重程度。完整的評估提示和評分標(biāo)準(zhǔn)可以在附錄A中找到。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

為了驗(yàn)證自動(dòng)化評估方法的可靠性，研究人員邀請了四位專家手動(dòng)評定了20個(gè)隨機(jī)選擇的模型軌跡。通過標(biāo)準(zhǔn)化評分，研究團(tuán)隊(duì)進(jìn)行了全面的統(tǒng)計(jì)分析，探究過度思考行為與模型性能的關(guān)系，以及過度思考對推理模型和非推理模型的不同影響。

結(jié)果顯示，推理模型的過度思考得分顯著高于非推理模型，且兩者之間的相關(guān)性非常強(qiáng)，證實(shí)了自動(dòng)評估方法的可靠性。

此外，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)系統(tǒng)化評估軌跡的提示，避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現(xiàn)形式展開，即分析癱瘓、魯莽行為和過早脫離，并強(qiáng)調(diào)偏好內(nèi)部推理鏈而非環(huán)境互動(dòng)。

別讓大模型想太多了，過度思考會影響性能-AI.x社區(qū)

評分系統(tǒng)分為三檔：0-3分表示適當(dāng)?shù)沫h(huán)境互動(dòng)，4-7分表示偶爾過度依賴內(nèi)部推理，8-10分則表示完全脫離環(huán)境反饋。

通過提供具體的例子，如模型得0分時(shí)會持續(xù)重試類似配置并在每次嘗試間等待反饋，而得10分時(shí)會生成多個(gè)互依動(dòng)作而不等待環(huán)境響應(yīng)，或基于內(nèi)部推理提前結(jié)束任務(wù)，確保評分標(biāo)準(zhǔn)的透明和一致。

實(shí)驗(yàn)結(jié)果表明，過度思考評分與任務(wù)解決率呈現(xiàn)出顯著的負(fù)相關(guān)性。推理模型的過度思考評分越高，其在軟件工程任務(wù)中的表現(xiàn)越差。這一趨勢在非推理模型中也得到了體現(xiàn)，但其下降速度更快。例如，推理模型的趨勢線斜率為-7.894，而非推理模型的趨勢線斜率達(dá)到了-15.938。

在模型類型與過度思考的關(guān)系方面，作者們發(fā)現(xiàn)推理模型的過度思考傾向明顯高于非推理模型。實(shí)驗(yàn)數(shù)據(jù)顯示，推理模型的平均過度思考評分為3.505，而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓(xùn)練過程中被優(yōu)化為生成更長的推理鏈，從而在面對需要頻繁與環(huán)境互動(dòng)的任務(wù)時(shí)，表現(xiàn)出更高的過度思考傾向。

此外，還研究了模型規(guī)模對過度思考的影響。實(shí)驗(yàn)結(jié)果表明，模型規(guī)模與過度思考評分之間存在負(fù)相關(guān)性。較小的模型，如7B和14B參數(shù)的模型在交互式任務(wù)中表現(xiàn)出更高的過度思考傾向，而較大的模型如671B參數(shù)的模型則相對較低。這一現(xiàn)象可能與模型的復(fù)雜性和對環(huán)境反饋的處理能力有關(guān)。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??

標(biāo)簽

模型

生成

贊

回復(fù)