成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新研究揭示DeepSeek/o3弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的!

人工智能 新聞
研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學,主要研究對象是開源的DeepSeek-R1和Qwen QwQ系列模型。

DeepSeek和o1/o3一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了

最新研究揭示:

在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗——這種現象被研究者稱為Underthinking(欠思考)。

圖片

研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學,主要研究對象是開源的DeepSeek-R1和Qwen QwQ系列模型。

圖片

通過分析AI的錯誤答案,他們發現當前的推理大模型經常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開始探索別的思路,導致后續生成的數千個tokens對解題毫無貢獻。

這種“無效努力”不僅浪費計算資源,還顯著降低了答案的正確率。

“三心二意”是罪魁禍首

這一現象在解決數學競賽題等更為復雜任務時尤為明顯。

為了系統分析,團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上,對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。

下圖比較了正確和錯誤回答中的token使用量和思維切換次數。平均來看,類o1模型在錯誤回答中比正確回答多消耗了225%的token,原因是思維切換頻率增加了418%。

圖片

為了深入分析這一現象,研究團隊開發了一套評估框架,用于判斷被放棄的推理路徑是否實際上足以推導出正確答案。

結果觀察到,許多模型在回答開頭階段的思路是正確的,但并未繼續深入完成推理。

圖片

超過70%的錯誤回答中至少包含一個正確的思路。此外,在超過50%的錯誤回答中,有10%以上的思路是正確的。

圖片

如下圖所示的例子,例如,Thought 1通過識別給定方程類似于以(0,0)和(20,11)為中心的橢圓方程,啟動了正確的解釋。將兩個表達式設為相等,是尋找滿足這兩個方程的公共點(x, y)的有效方法。

然而,模型并未專注于深入探索這一合理思路,使用進一步的代數操作和優化技術進行分析,而是頻繁切換思路,額外消耗了約7270個token,卻依然未能得出正確答案。

最終,它得出一個缺乏擴展COT過程支持的猜測答案。

圖片

基于這些觀察,研究人員提出了一個用于量化Underthinking程度的指標(Underthinking Metric)

圖片

這個指標通過測量錯誤答案中的token使用效率來評估推理效率,計算從回答開始到第一個正確思路出現所需的token數量與總token數量的比值。

實驗結果表明,所有測試的類o1模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關系在不同數據集上表現各異。

在MATH500-Hard和GPQA Diamond數據集上,性能更優的DeepSeek-R1-671B模型在取得更高準確率的同時,其UT得分也更高,表明錯誤回答中存在更多思維不足。

這意味著,盡管模型整體能力更強,但在不確定時可能生成更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。

相反,在AIME2024測試集中,DeepSeek-R1-671B模型不僅取得了更高的準確率,還表現出較低的UT得分,反映出較少的思維不足和更高的token效率。

這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與 AIME2024所要求的問題類型和推理過程更好地對齊。

圖片

理解思維不足現象對于開發能夠提供正確答案并具備有效推理過程的模型至關重要。

如何讓AI學會“一心一意”

如何讓模型像優秀學生一樣“沉下心來鉆研”?

研究者借鑒了人類考試策略,提出了一種“思路切換懲罰機制” (Thought Switching Penalty,TIP)

其原理類似于考試時給自己定規矩:“先專注當前方法,至少嘗試10分鐘再換思路”。

技術細節上,TIP會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。

例如,當模型開始寫“Alternatively, we can consider…”時,TIP會通過調整參數(懲罰強度α和持續時間β),抑制這種過早的切換傾向。

圖片

實驗結果顯示,加入TIP能讓模型在數學測試上的準確率上升,同時UT Score下降,說明既減少了無效切換,又提高了答案質量。

例如在AIME2024數學競賽測試上,加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至45.8%,同時UT Score從72.4降至68.2。

圖片

并且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。

One More Thing

UC Berkeley教授Alex Dimakis幾乎同時分享了類似的觀察,

對于DeepSeek-R1和所有推理模型,錯誤的答案更長,而正確的答案要短得多。

基于此,他們提出一個簡單的解決辦法,稱為“簡潔解碼” (Laconic decoding)。

并行運行5次模型,從答案中選擇tokens最少的。

初步實驗結果表示,簡潔解碼在AIME2024測試上能提高6%-7%的準確率,比Consensus Decoding更好也更快。

圖片

論文地址:https://arxiv.org/abs/2501.18585

責任編輯:張燕妮 來源: 量子位
相關推薦

2018-11-28 10:16:17

AI人工智能偏見

2025-02-18 08:15:03

2025-02-07 09:05:36

2013-01-05 02:33:01

JavaJava語言Java發展方向

2025-02-06 09:23:07

2025-01-03 11:16:38

2025-04-22 09:12:00

AI模型數據

2025-03-10 08:10:00

AI研究安全

2025-01-23 14:53:15

2025-04-07 07:18:48

2024-12-24 16:15:04

2025-01-16 14:35:34

2025-05-29 09:07:37

2025-05-30 00:00:00

2012-03-13 16:55:02

2025-03-21 14:11:19

2025-04-17 06:36:29

2024-09-05 11:26:08

人工智能

2025-05-13 08:24:14

2025-06-08 14:15:42

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品色视频 | 狠狠色综合久久丁香婷婷 | 免费a v网站 | 一二区视频 | 免费观看a级毛片在线播放 黄网站免费入口 | 亚洲aⅴ精品 | 精品伊人久久 | 九九久久精品视频 | 欧美视频在线看 | 亚洲国产高清高潮精品美女 | 成人久久18免费网站 | 亚洲人成一区二区三区性色 | 九九久久久 | 亚洲免费在线 | 日韩三级一区 | 在线观看中文字幕 | 亚欧洲精品在线视频免费观看 | 中文字幕乱码亚洲精品一区 | 毛片免费在线观看 | 国产成人免费视频网站视频社区 | 午夜精品一区 | 精品日韩在线 | 欧美视频一区二区三区 | 成人一区二区在线 | 天天躁日日躁狠狠躁白人 | 亚洲在线一区二区 | 久久视频免费观看 | 国产精品一区二区福利视频 | 国产日韩一区二区 | 国产精品成人国产乱一区 | 一区二区三区免费网站 | av先锋资源 | 日本韩国电影免费观看 | 国产精品美女久久久久aⅴ国产馆 | 午夜欧美 | 久草久草久草 | 一级做a爰片性色毛片16美国 | 欧美精品一区二区三区在线播放 | 国产成人免费观看 | 成人网视频 | 日本精品一区二区三区在线观看 |