成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="caiuo"></abbr>

<s id="caiuo"><dd id="caiuo"></dd></s>

<bdo id="caiuo"></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

??？7B的DeepSeek反超R1滿血版，上海AI Lab周伯文團隊新成果：計算最優的Test-Time Scaling

2025-02-12 11:53:18

人工智能新聞

團隊提出研究真正的 “從弱到強” 方法而不是當前 “從強到弱” 的策略優化監督機制的重要性。

倒反天罡了，新方法讓DeepSeek蒸餾的Qwen數學能力反超R1滿血版，7B反超671B。

除此之外，0.5B模型超過GPT-4o，1.5B的DeepSeek蒸餾Qwen超過o1-mini和o1-preview，3B的Llama超過405B的Llama……

這是上海AI Lab/清華哈工大/北郵團隊最新研究成果，通訊作者為齊弼卿和周伯文：

重新思考計算最優的Test-Time Scaling（TTS）

團隊認為，盡管TTS在提升語言模型推理能力上取得進展，但目前的研究還缺乏對策略模型、過程獎勵模型(PRM)和問題難度等因素影響的系統分析。

因此，該研究聚焦兩個核心問題：

跨不同策略模型、PRM和問題難度，最優的TTS方式是什么？
TTS能在多大程度上提升語言模型在復雜任務上的表現？小模型能否超越大模型？

重新思考Test-Time Scaling

為探究這些問題，團隊在MATH-500和AIME24數學推理數據集上，使用多個不同規模的策略模型和PRM，進行了全面的實驗評估。

他們將推理問題建模為馬爾可夫決策過程，定義了狀態空間、動作空間、轉移函數、獎勵函數和折扣因子等元素。

對于TTS，考慮了Best-of-N、Beam Search和Diverse Verifier Tree Search（DVTS）三種方法。

實驗發現，最優的TTS方法高度依賴于具體的策略模型、過程獎勵模型（PRM）和問題難度。

對于小型策略模型，基于搜索的方法優于BoN，而對于大型策略模型相反。

團隊認為之所以出現這種差異，是因為較大的模型具有更強的推理能力，并且不需要驗證器來執行逐步選擇。相比之下，較小的模型依靠驗證器來選擇每個步驟，確保每個中間步驟的正確性。

對于過程獎勵模型，對Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM時效果拔群，在MATH-500數據集上搜索方法的性能隨計算預算增加顯著提升。

而使用Math-Shepherd和RLHFlow的PRMs時效果不佳甚至不如多數投票。

對于問題難度，參數少于7B的小型策略模型，BoN更適合于簡單的問題，而Beam Search更適合于更難的問題。

參數在7B-32B的策略模型，DVTS在簡單和中等問題上表現良好，而Beam Search對于困難問題更有效。

另外在72B參數的策略模型上，BoN是所有難度級別的最佳方法。

因此，團隊提出了一個更通用的獎勵感知型最優計算TTS框架，確保TTS計算能適應特定的策略模型、提示和獎勵函數。

利用獎勵感知型最優TTS框架，在MATH-500和AIME24上取得了如下結果：

3B的Llama3.2超越135倍大的Llama3.1-405B，與之前的TTS研究（超越23倍大的模型）相比，改善了487%。

DeepSeek-R1-Distill-Qwen-7B超過了OpenAI-o1（參數量未知）和DeepSeek-R1（671B）。

甚至0.5B和1.5B的小模型也展現出了與GPT-4o、o1-preview等專門的推理模型媲美的表現。

研究還比較了最優TTS和目前流行的基于長CoT的方法。

結果表明，TTS在MATH-500和AIME2024上優于多數長CoT方法。

然而，雖然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B，但在AIME24上卻顯示出顯著的下降。
這說明TTS在相對簡單任務上優勢明顯，但在更復雜的任務上則遜色于從超大規模模型蒸餾得到模型，還有提升空間。

最后，團隊提出研究真正的 “從弱到強” 方法而不是當前 “從強到弱” 的策略優化監督機制的重要性。

未來的工作應側重于開發更具適應性和通用性的監督機制，以提高小語言模型在復雜任務上的性能，并為開發有效的推理策略提供新方法。

目前的工作對數學任務上的TTS做了全面評估，但仍有一些局限性和未來方向需要探索：比如將TTS擴展到更多任務，例如代碼和化學，以及探索更高效的計算最優TTS方法。

論文地址：https://arxiv.org/abs/2502.06703

責任編輯：張燕妮來源：量子位

AI 模型訓練

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：精品毛片 | 91精品国产手机 | 91久久精品一区二区二区 | 欧产日产国产精品视频 | 成人av免费 | 91精品国产99 | 国产精品久久久久久久午夜片 | 特黄av| 亚洲精品区 | 国产精品国产三级国产aⅴ中文 | 亚洲精品一区二三区不卡 | 北条麻妃国产九九九精品小说 | 欧美日韩视频在线 | 91亚洲精选| 欧美精品一区二区在线观看 | 国产99视频精品免费视频7 | 成人一区二区三区在线观看 | 羞羞视频网站免费观看 | 日韩精品免费在线观看 | 夜夜操天天艹 | 亚洲国产精品久久久 | 精品国产免费一区二区三区演员表 | 国产福利免费视频 | 日本欧美黄色片 | 国产一区二区久久久 | 91视频在线观看 | 欧美成年人网站 | 久草视频在线看 | 久草成人| 国产精品久久国产精品 | 玖玖国产| 在线啊v | 久久久精品影院 | 亚洲精品乱码久久久久久按摩观 | 一区二区影视 | 精品久久久精品 | www.国产| 成人免费小视频 | 天天色天天射天天干 | 激情小说综合网 | 免费一级黄色电影 |

<bdo id="mw2wc"></bdo>

<abbr id="mw2wc"></abbr>

<s id="mw2wc"><dd id="mw2wc"></dd></s>

<input id="mw2wc"><dd id="mw2wc"></dd></input><strike id="mw2wc"><dd id="mw2wc"></dd></strike><bdo id="mw2wc"></bdo>

<kbd id="mw2wc"></kbd>

<input id="mw2wc"><pre id="mw2wc"></pre></input>

<del id="mw2wc"></del>

<abbr id="mw2wc"><menu id="mw2wc"></menu></abbr>