UC伯克利：讓推理模型少思考，準確率反而更高了！

作者：量子位 2025-04-18 08:42:52

人工智能新聞

UC伯克利新研究發現，強制要求模型跳過思考過程，推理能力卻比正常思考還好。

讓推理模型不要思考，得到的結果反而更準確？

UC伯克利新研究發現，強制要求模型跳過思考過程，推理能力卻比正常思考還好。

例如在定理證明任務當中，“不思考”模式僅使用30%的Token，就能實現和完整思考一樣的準確率。

特別是施加Token限制之后，“不思考”模式的效果變得更加明顯。

這究竟是怎么一回事呢？來看下UC伯克利發表的論文。

跳過思考，推理模型反而更強了

論文的研究目的，是比較顯式思考過程（Thinking）和跳過思考過程（NoThinking）的效果差異，并在不同約束條件下評估這兩種方法的表現。

研究使用DeepSeek-R1-Distill-Qwen-32B作為主要實驗模型，該模型通過在Qwen-32B基礎上使用DeepSeek-R1生成的數據進行蒸餾得到。

為了確保結果的可靠性，研究同時選擇了Qwen-32B-Instruct作為基線模型，并在7B和14B規模的相同架構模型上進行了驗證實驗。

在數據集的選擇上，研究力求全面覆蓋不同類型的推理任務：

在數學問題方面，既包含了AIME 2024、AIME 2025、AMC 2023等標準難度的測試集，也包含了更具挑戰性的OlympiadBench數學子集；
在編程能力評估方面，使用了持續更新的LiveCodeBench v2版本；
在定理證明領域，則通過MiniF2F測試形式化數學推理能力，通過ProofNet評估邏輯和定理證明能力。

實驗首先進行了基礎性能評估，也就是在不限制token的情況下比較三種方法的表現。研究團隊詳細記錄了每種方法在不同k值下的pass@k性能表現和token使用量。

結果顯示，在無預算限制的情況下，NoThinking在定理證明任務上能夠以30%的token用量達到與Thinking相似的性能，兩種方法都明顯優于基線模型。

在其他任務上，雖然NoThinking的初始pass@1性能較低，但隨著k值增加會逐漸追平Thinking的表現，同時token使用量減少

隨后，實驗引入了預算強制，通過設置token限制來進行對照實驗。

具體來說，當模型達到預設的token預算時，系統會強制其生成最終答案，如果此時模型仍在思考框內，則會在最終答案標簽前添加結束思考標記。

研究分別在低預算（約3000tokens以下）和高預算（約3500tokens）兩種場景下進行了詳細測試。

在預算受限的場景下，NoThinking在低預算情況下（<3000 tokens）完全優于Thinking，這種優勢會隨著k值的增加而擴大。

在高預算場景下（~3500 tokens），盡管Thinking在pass@1上略有優勢，NoThinking從k=2開始就展現出更好的性能。

在并行擴展測試中，研究根據任務特性采用了不同的評估方法。

對于有完美驗證器的任務（如形式定理證明），可以直接使用驗證器選擇最佳答案，并詳細記錄延遲和token使用量；

對于沒有驗證器的任務，研究實現了多數投票機制和基于置信度的選擇策略，通過實驗比較了不同選擇策略的效果。

對于具有驗證器的任務，NoThinking可以在將延遲降低至1/7、token使用量減少至1/4的同時，保持與傳統方法相似的準確率。

在沒有驗證器的任務中，比如AMC 2023和OlympiadBench，NoThinking甚至超越了完整版Thinking的表現，同時可將延遲降低至1/9。

為了避免實驗結果受到數據污染的影響，研究團隊專門使用了新發布的AIME 2025數據集進行驗證。

結果作者發現。相同的性能模式在新舊數據集上都能穩定重現，這證實了研究發現反映了模型的真實行為特征。

大模型“思考過程”引熱議

Hacker News上，有人表示這項研究讓其對大模型的思考有了新的認識：

過去我認為大模型“思考”很有用，是因為它可以把更多的概念帶到上下文當中，但現在看似乎不是？

還有人想到了Claude廠商Anthropic前些天發表的報告，其中指出大模型輸出的“思考過程”不一定代表其真實想法。

這份報告的實驗發現，Claude 3.7 Sonnet僅在25%的情況下在其思維鏈中提及收到的提示信息，DeepSeek R1則為39%，意味著大多數情況下模型不會忠實反映其真實決策過程。

Anthropic的這份報告，引起了針對大模型“思考過程”的熱烈討論。

有人表示，思維鏈有效的關鍵是產生了更多用于“思考”的計算，但如果用它來展示模型工作過程，那只不過是額外的上下文。

但也有人認為Anthropic的研究并沒有切中問題要害，因為模型的訓練過程就是為了獲得正確答案而優化，不能指望這樣的訓練方式能夠讓模型準確說出推理過程。

作者簡介

本論文第一作者是UC伯克利博士生馬文潔，導師是Matei Zaharia副教授和Sewon Min助理教授研究重點是理解和提升語言模型的推理能力，以及測試時計算。

馬文潔本科畢業于南京大學計算機學院，期間曾參加該學院的PASCAL（編程語言與統計分析）研究組。

另一名華人作者何靜軒，目前在UC伯克利從事博士后研究，研究興趣為機器學習和計算機安全，合作導師是宋曉冬（Dawn Song）教授。

何靜軒博士和本科分別畢業于蘇黎世聯邦理工學院和浙江大學。

另外，UC伯克利博士生Charlie Snell、Tyler Griggs，以及一作馬文潔的兩名導師也參與了此項研究。

論文地址：
https://arxiv.org/abs/2504.09858

責任編輯：張燕妮來源：量子位

模型推理 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

UC伯克利：讓推理模型少思考，準確率反而更高了！

跳過思考，推理模型反而更強了

大模型“思考過程”引熱議

作者簡介