成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

???7B的DeepSeek反超R1滿血版,上海AI Lab周伯文團隊新成果:計算最優的Test-Time Scaling

人工智能 新聞
團隊提出研究真正的 “從弱到強” 方法而不是當前 “從強到弱” 的策略優化監督機制的重要性。

倒反天罡了,新方法讓DeepSeek蒸餾的Qwen數學能力反超R1滿血版,7B反超671B

除此之外,0.5B模型超過GPT-4o,1.5B的DeepSeek蒸餾Qwen超過o1-mini和o1-preview,3B的Llama超過405B的Llama……

這是上海AI Lab/清華哈工大/北郵團隊最新研究成果,通訊作者為齊弼卿周伯文

重新思考計算最優的Test-Time Scaling(TTS)

圖片

團隊認為,盡管TTS在提升語言模型推理能力上取得進展,但目前的研究還缺乏對策略模型、過程獎勵模型(PRM)和問題難度等因素影響的系統分析。

因此,該研究聚焦兩個核心問題:

  • 跨不同策略模型、PRM和問題難度,最優的TTS方式是什么?
  • TTS能在多大程度上提升語言模型在復雜任務上的表現?小模型能否超越大模型?

圖片

重新思考Test-Time Scaling

為探究這些問題,團隊在MATH-500和AIME24數學推理數據集上,使用多個不同規模的策略模型和PRM,進行了全面的實驗評估。

他們將推理問題建模為馬爾可夫決策過程,定義了狀態空間、動作空間、轉移函數、獎勵函數和折扣因子等元素。

圖片

對于TTS,考慮了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三種方法。

圖片

實驗發現,最優的TTS方法高度依賴于具體的策略模型、過程獎勵模型(PRM)和問題難度。

對于小型策略模型,基于搜索的方法優于BoN,而對于大型策略模型相反。

團隊認為之所以出現這種差異,是因為較大的模型具有更強的推理能力,并且不需要驗證器來執行逐步選擇。相比之下,較小的模型依靠驗證器來選擇每個步驟,確保每個中間步驟的正確性。

圖片

對于過程獎勵模型,對Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM時效果拔群,在MATH-500數據集上搜索方法的性能隨計算預算增加顯著提升。

而使用Math-Shepherd和RLHFlow的PRMs時效果不佳甚至不如多數投票。

圖片

對于問題難度,參數少于7B的小型策略模型,BoN更適合于簡單的問題,而Beam Search更適合于更難的問題。

參數在7B-32B的策略模型,DVTS在簡單和中等問題上表現良好,而Beam Search對于困難問題更有效。

另外在72B參數的策略模型上,BoN是所有難度級別的最佳方法。

圖片

圖片

因此,團隊提出了一個更通用的獎勵感知型最優計算TTS框架,確保TTS計算能適應特定的策略模型、提示和獎勵函數。

圖片

利用獎勵感知型最優TTS框架,在MATH-500和AIME24上取得了如下結果:

3B的Llama3.2超越135倍大的Llama3.1-405B,與之前的TTS研究(超越23倍大的模型)相比,改善了487%。

DeepSeek-R1-Distill-Qwen-7B超過了OpenAI-o1(參數量未知)和DeepSeek-R1(671B)。

甚至0.5B和1.5B的小模型也展現出了與GPT-4o、o1-preview等專門的推理模型媲美的表現。

圖片

研究還比較了最優TTS和目前流行的基于長CoT的方法。

結果表明,TTS在MATH-500和AIME2024上優于多數長CoT方法。

然而,雖然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上卻顯示出顯著的下降。
這說明TTS在相對簡單任務上優勢明顯,但在更復雜的任務上則遜色于從超大規模模型蒸餾得到模型,還有提升空間。

圖片

最后,團隊提出研究真正的 “從弱到強” 方法而不是當前 “從強到弱” 的策略優化監督機制的重要性。

未來的工作應側重于開發更具適應性和通用性的監督機制,以提高小語言模型在復雜任務上的性能,并為開發有效的推理策略提供新方法。

目前的工作對數學任務上的TTS做了全面評估,但仍有一些局限性和未來方向需要探索:比如將TTS擴展到更多任務,例如代碼和化學,以及探索更高效的計算最優TTS方法。

論文地址:https://arxiv.org/abs/2502.06703

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-25 08:20:50

AI程序員DeepSeek

2025-03-27 10:28:32

2025-02-27 00:00:05

2025-03-07 08:50:03

2025-06-12 01:00:00

2025-02-17 09:33:00

AI算法模型

2025-03-10 08:30:00

AI模型訓練

2025-05-20 09:02:00

2025-02-05 23:21:32

2025-06-23 08:56:00

2025-04-16 15:28:31

模型AI數據

2025-03-11 02:00:00

AI工具Token-AI

2025-02-17 09:20:00

AI微信模型

2024-09-11 12:31:59

2025-01-27 12:30:07

2025-06-06 09:07:00

模型LLMAI

2025-02-28 08:30:00

2025-02-12 12:12:59

2025-05-13 15:13:28

AI模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品毛片 | 91精品国产手机 | 91久久精品一区二区二区 | 欧产日产国产精品视频 | 成人av免费 | 91精品国产99 | 国产精品久久久久久久午夜片 | 特黄av| 亚洲精品区 | 国产精品国产三级国产aⅴ中文 | 亚洲精品一区二三区不卡 | 北条麻妃国产九九九精品小说 | 欧美日韩视频在线 | 91亚洲精选| 欧美精品一区二区在线观看 | 国产99视频精品免费视频7 | 成人一区二区三区在线观看 | 羞羞视频网站免费观看 | 日韩精品免费在线观看 | 夜夜操天天艹 | 亚洲国产精品久久久 | 精品国产免费一区二区三区演员表 | 国产福利免费视频 | 日本欧美黄色片 | 国产一区二区久久久 | 91视频在线观看 | 欧美成年人网站 | 久草视频在线看 | 久草成人| 国产精品久久国产精品 | 玖玖国产| 在线啊v | 久久久精品影院 | 亚洲精品乱码久久久久久按摩观 | 一区二区影视 | 精品久久久精品 | www.国产| 成人免费小视频 | 天天色天天射天天干 | 激情小说综合网 | 免费一级黄色电影 |