成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從想太多到想不透?DeepSeek-R1等長推理模型也存在「思考不足」問題

人工智能 新聞
騰訊 AI Lab 與蘇州大學、上海交通大學聯合團隊最新發現,長推理模型也存在思考不足問題。

本文將介紹首個關于長推理模型 “思考不足” 現象的工作。該工作由騰訊 AI Lab 與蘇州大學、上海交通大學團隊共同完成。本文的通訊作者為涂兆鵬,騰訊專家研究員,研究方向為深度學習和大模型,在國際頂級期刊和會議上發表學術論文一百余篇,引用超過 9000 次。擔任 SCI 期刊 NeuroComputing 副主編,多次擔任 ACL、EMNLP、ICLR 等國際頂級會議領域主席。第一作者為蘇州大學博士生王越,騰訊 AI Lab 高級研究員劉秋志、徐嘉豪、梁添,以及上海交通大學博士生陳星宇、何志威。

圖片

  • 論文題目:Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
  • 論文地址:https://arxiv.org/pdf/2501.18585

背景與動機

長推理模型(Long Reasoning Models),如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等,因其展現出類似人類的深度思考能力而備受關注。這些模型通過長時間推理(Inference-Time Scaling),能夠在解碼階段不斷思考并嘗試新的思路來優化自身的答案質量。然而,長推理模型在推理過程中所有的思考是否高效,這一問題仍未得到充分探索。

此前,騰訊 AI Lab 的研究團隊發現,長推理模型在面對簡單問題時,其思考行為會出現大量重復,從而浪費大量計算資源 [5](o1 也會「想太多」?騰訊 AI Lab 與上海交大揭秘 o1 模型過度思考問題)。而在面對難題時,長推理模型的思考模式是否高效依然是一個疑問。基于此,該研究團隊進一步深入研究,試圖揭示長推理模型在復雜問題上的表現及其潛在問題。

思考不足是長推理模型的 “注意力缺陷多動障礙”

研究團隊的最新研究顯示,長推理模型在推理過程中往往頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊首先將 “思路(thought)” 定義為模型在推理策略中產生的中間認知步驟。長推理模型常常通過使用 “alternatively” 等術語來切換推理思路。例如,在下圖所示的例子中,模型可能會從代數操作轉向幾何解釋,再到優化策略。這種思路切換使得長推理模型能夠更廣泛地探索潛在的解決方案,展示了其在解決復雜問題時的靈活性。

圖片

研究人員統計了在 MATH500 測試集的不同難度級別下,生成回答時的平均思路和 token 數量:

圖片

顯然,隨著難度增加,所有模型產生的推理思路也有所增多,并且這一趨勢與生成 token 數量的增長一致。這表明,隨著問題復雜性的增加,模型更傾向于頻繁切換思路,從而能夠動態調整推理過程,以應對更具挑戰性的問題。

那么,長推理模型是否會在思路切換的過程中提升其準確率呢?圍繞這一問題,研究團隊在 AIME24、Math500-Hard 和 GPQA Diamond 等測試集上,對正確回答和錯誤回答的平均思路數量以及 token 數量進行了深入分析,結果如下圖所示:

圖片

圖片

相較于正確答案,長推理模型在錯誤回答中往往會出現更多的推理思路切換。這導致了回答長度顯著增長,但準確性卻未能相應提升。平均而言,長推理模型在 AIME24 上的錯誤回答中因頻繁思路切換,生成的 token 數量比正確回答多出 225%,思路數量增加了 418%。相比之下,傳統的 LLM(如 Qwen-Math-72B 和 Llama3.3-79B)在正確與錯誤回答之間的回答長度沒有顯著差異。

這一趨勢表明,盡管模型被設計為動態調整其認知過程來解決問題,但更頻繁的思路切換并不一定能提升準確性。換句話說,在處理難題時,長推理模型也存在 “注意力缺陷多動障礙” 的問題。研究團隊將這種現象命名為 “思考不足”(Underthinking),即長推理模型在推理過程中頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。實際上,模型可能在消耗額外計算資源(通過增加生成的 token 體現)時,未能提供更精確的解決方案。這些發現表明,在面對復雜問題時,除了探索額外的認知途徑外,更需要以更有針對性和高效的方式進行操作,才能在推理復雜的問題時提升準確性。

量化 “思考不足”

研究團隊認為,頻繁切換思路而得出錯誤答案的行為,可能源于以下兩個原因:一是真正的思考不足,即模型雖然找到了一條有希望的思路,但未能持續深入地堅持下去;二是對問題缺乏深入理解,從而盲目探索各種無效的方法。

為了進一步厘清這些可能性,研究團隊提出了一個評估框架,用于評估一條被放棄的推理路徑是否足以得出正確的答案。通過關注模型是否能夠持續遵循和深化一條 “看起來有希望的思路”,可以識別思考不足的情況。具體而言,研究團隊使用 DeepSeek-R1-Distill-Llama-70B 和 DeepSeek-R1-Distill-Qwen-32B 來判斷一個思路是否能得到正確答案。

為了驗證模型回答中的初步想法是否正確,下圖展示了在錯誤回答中不同位置思路的正確比例。

圖片

結果顯示,在各種模型的初步想法中,相當一部分的解題思路是正確的,但遺憾的是,模型并沒有深入思考這些解題思路,而是過早地放棄了。這一現象表明,模型需要增強持續深入且準確地探索特定推理路徑的能力,而不是輕易轉向其他思路。

此外,研究團隊還分析了不同模型的錯誤回答中正確思路比例的分布情況,如下圖所示:

圖片

觀察發現,超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在這些回答中,有超過 50% 的回答其正確思路的比例達到 10% 以上。這表明,雖然長推理模型能夠成功找到正確的推理思路,但它們往往難以沿著這些路徑持續深入,進而得出正確的結論。這一現象凸顯了鼓勵模型保持并拓展其最初正確思路的重要性,以便將這些正確思路整合為準確的最終答案。

基于上述觀察結果,研究團隊提出了第一個針對長推理模型思考不足的指標(Underthinking Score),表示為圖片。該指標的計算公式為:

圖片

其中,N 是測試集中的錯題數量,圖片是第 i 個錯題的回答 token 數量,圖片是從該回答開始到第一個正確想法為止的 token 數量(包括第一個正確想法)。如果第 i 個回答中沒有正確的思路,則 圖片 ,表示模型對該問題缺乏理解,因此無法認為是 “思考不足”。直觀地說,如果一個模型在回答過程中最初產生了正確的思路,但隨后轉向其他思路并最終未能得出正確答案,那么此后生成的 token 對于最終達到正確答案并無實質性貢獻。這種情況下,由于缺乏足夠的思考深度,模型的推理過程被認為是低效的。具體而言,圖片值低表示更高的推理效率,這意味著在錯誤回答中,有更大比例的 token 能夠為正確思路的形成提供支持;圖片值高表示較低的推理效率,意味著有更大比例的 token 未能有效助力于正確思路的生成,即模型可能因頻繁切換思路而生成大量冗余或不相關的 token。

借助這一指標,研究人員能夠定量地評估模型在錯誤回答中的推理效率。下表展示了不同模型的準確率(越高性能越強)和思考不足得分圖片(越小越能充分思考):

圖片

結果表明,單純增大模型尺寸并不能避免思考不足,模型準確率的提升也不一定會減少該現象。由此可見,我們需要深入探索思考不足這一復雜現象,從而在訓練模型的過程中,不僅使其能夠給出正確的答案,還能具備高效的推理能力。

緩解思考不足:引入思路轉換懲罰

為了緩解長推理模型的思考不足現象,研究團隊提出了一種懲罰思路轉換的解碼策略,稱為 “Thought Switching Penalty”(TIP)。該策略通過在生成過程中對思路切換施加懲罰,鼓勵模型在深入探索每個推理路徑后再考慮其他替代方案。

在標準的解碼過程中,在位置 t 生成 token v 的概率是通過對輸出層的 logits 使用 softmax 函數計算的:

圖片

其中 圖片是位置 t 關于 token v 的 logit(未歸一化的分數)。為了鼓勵模型在切換思路之前更深入地探索當前思路,研究團隊引入了一個對與思路轉換相關的表達懲罰。具體而言,設圖片 是與思路切換相關的詞匯集合(例如,“alternatively”),作者們修改了 logits 如下:

圖片

其中:圖片(懲罰強度)是一個控制對思路切換標記施加懲罰強度的參數。較大的圖片會導致這些詞語的 logits 減少更多,使它們被選中的可能性降低;圖片(懲罰持續時間)指定了從思路開始位置 圖片起的懲罰生效的位置數。較大的圖片會延長懲罰的范圍,進一步阻止過早的思路切換;當圖片時,懲罰被禁用,解碼過程退化為標準解碼算法。

調整后的 logits圖片減少了在指定窗口內生成思路切換標記的概率,從而鼓勵模型在繼續擴展當前思路之前不進行切換。新的概率分布變為:

圖片

TIP 策略通過懲罰機制抑制模型生成思路轉換相關的詞語,從而鼓勵模型在生成文本時保持其原始的推理路徑,并進行更深入的思考,避免頻繁的策略切換和表面化的推理模式。下圖展示了 QwQ-32B-Preview 在加入了 TIP 策略之后的結果:

圖片

結果顯示,通過引入 TIP 策略,即使不進行模型微調也能在 MATH500-Hard、GPQA Diamond 和 AIME2024 上獲得準確率提升并減少思考不足

總結

騰訊 AI Lab 與蘇州大學、上海交通大學聯合團隊最新發現,長推理模型也存在思考不足問題。具體體現為長推理模型在推理過程中頻繁地進行思路跳轉,無法將注意力集中在一個正確的思路上并深入思考,從而得到正確答案。研究團隊將這種現象命名為 “思考不足”(Underthinking)。

研究團隊首先觀察到長推理模型頻繁切換思路的現象,并進一步發現這一現象由思考不足導致。為了定量評估思路切換的問題,研究團隊引入了一種新穎的思考不足指標,為推理效率低下提供了量化評估框架。同時,研究團隊提出了一種緩解思考不足的簡單有效方案 —— 帶有思路切換懲罰(Thought Switching Penalty,TIP)的解碼方法。該方法鼓勵模型在考慮替代方案之前,徹底探索每一條推理思路,從而無需額外的微調就能提高模型的準確性。

這項研究不僅揭示了長推理模型在推理過程中的不足之處,還提供了一種實用的解決方案,有助于顯著提升模型在處理復雜問題時的表現。展望未來,研究者將繼續探索模型中的自適應機制,以實現對思路轉變的自我調節,進一步提高長推理模型的推理效率。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-03-06 17:29:21

2025-04-07 09:23:00

大模型LLM推理

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-02-24 14:05:00

LLM模型AI

2025-03-05 03:00:00

DeepSeek大模型調優

2025-02-13 08:51:23

DeepSeek大模型

2025-02-21 10:34:49

2025-03-06 10:14:39

2025-01-08 13:08:55

2025-04-11 14:54:44

2025-02-19 08:00:00

2025-03-06 09:55:49

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-04-11 12:04:58

2025-06-03 17:38:24

模型AIDeepSeek

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-03-19 09:20:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天久久 | 欧美一级二级视频 | h视频免费观看 | 天天av天天好逼 | 国产91丝袜在线播放 | 免费一级淫片aaa片毛片a级 | 在线观看中文字幕 | 国产精品毛片一区二区三区 | 91高清在线视频 | 亚洲91精品 | 免费爱爱视频 | 自拍偷拍亚洲欧美 | 啪啪毛片| 国产成人免费视频网站视频社区 | 欧美日韩电影免费观看 | 欧美成人一区二区三区 | 久久人人网| 日日骚网 | 男人天堂久久久 | 久久国产精品色av免费观看 | 国产一区二区在线播放 | 欧美精品成人影院 | 国产精品视频久久 | 午夜网 | 男女在线免费观看 | 国产毛片久久久 | 精品日韩一区 | 一区二区三区国产好的精 | 国内精品久久久久 | 好姑娘影视在线观看高清 | 国产精品日韩欧美一区二区 | 国产粉嫩尤物极品99综合精品 | 精品欧美一区二区三区久久久 | 国产小视频在线观看 | 久久精品视频在线播放 | 精品成人av | www.操.com | 一区二区视频在线 | 91中文视频 | 亚洲第一在线 | 亚洲人人舔人人 |