???7B的DeepSeek反超R1滿血版,上海AI Lab周伯文團隊新成果:計算最優的Test-Time Scaling
倒反天罡了,新方法讓DeepSeek蒸餾的Qwen數學能力反超R1滿血版,7B反超671B。
除此之外,0.5B模型超過GPT-4o,1.5B的DeepSeek蒸餾Qwen超過o1-mini和o1-preview,3B的Llama超過405B的Llama……
這是上海AI Lab/清華哈工大/北郵團隊最新研究成果,通訊作者為齊弼卿和周伯文:
重新思考計算最優的Test-Time Scaling(TTS)
團隊認為,盡管TTS在提升語言模型推理能力上取得進展,但目前的研究還缺乏對策略模型、過程獎勵模型(PRM)和問題難度等因素影響的系統分析。
因此,該研究聚焦兩個核心問題:
- 跨不同策略模型、PRM和問題難度,最優的TTS方式是什么?
- TTS能在多大程度上提升語言模型在復雜任務上的表現?小模型能否超越大模型?
重新思考Test-Time Scaling
為探究這些問題,團隊在MATH-500和AIME24數學推理數據集上,使用多個不同規模的策略模型和PRM,進行了全面的實驗評估。
他們將推理問題建模為馬爾可夫決策過程,定義了狀態空間、動作空間、轉移函數、獎勵函數和折扣因子等元素。
對于TTS,考慮了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三種方法。
實驗發現,最優的TTS方法高度依賴于具體的策略模型、過程獎勵模型(PRM)和問題難度。
對于小型策略模型,基于搜索的方法優于BoN,而對于大型策略模型相反。
團隊認為之所以出現這種差異,是因為較大的模型具有更強的推理能力,并且不需要驗證器來執行逐步選擇。相比之下,較小的模型依靠驗證器來選擇每個步驟,確保每個中間步驟的正確性。
對于過程獎勵模型,對Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM時效果拔群,在MATH-500數據集上搜索方法的性能隨計算預算增加顯著提升。
而使用Math-Shepherd和RLHFlow的PRMs時效果不佳甚至不如多數投票。
對于問題難度,參數少于7B的小型策略模型,BoN更適合于簡單的問題,而Beam Search更適合于更難的問題。
參數在7B-32B的策略模型,DVTS在簡單和中等問題上表現良好,而Beam Search對于困難問題更有效。
另外在72B參數的策略模型上,BoN是所有難度級別的最佳方法。
因此,團隊提出了一個更通用的獎勵感知型最優計算TTS框架,確保TTS計算能適應特定的策略模型、提示和獎勵函數。
利用獎勵感知型最優TTS框架,在MATH-500和AIME24上取得了如下結果:
3B的Llama3.2超越135倍大的Llama3.1-405B,與之前的TTS研究(超越23倍大的模型)相比,改善了487%。
DeepSeek-R1-Distill-Qwen-7B超過了OpenAI-o1(參數量未知)和DeepSeek-R1(671B)。
甚至0.5B和1.5B的小模型也展現出了與GPT-4o、o1-preview等專門的推理模型媲美的表現。
研究還比較了最優TTS和目前流行的基于長CoT的方法。
結果表明,TTS在MATH-500和AIME2024上優于多數長CoT方法。
然而,雖然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上卻顯示出顯著的下降。
這說明TTS在相對簡單任務上優勢明顯,但在更復雜的任務上則遜色于從超大規模模型蒸餾得到模型,還有提升空間。
最后,團隊提出研究真正的 “從弱到強” 方法而不是當前 “從強到弱” 的策略優化監督機制的重要性。
未來的工作應側重于開發更具適應性和通用性的監督機制,以提高小語言模型在復雜任務上的性能,并為開發有效的推理策略提供新方法。
目前的工作對數學任務上的TTS做了全面評估,但仍有一些局限性和未來方向需要探索:比如將TTS擴展到更多任務,例如代碼和化學,以及探索更高效的計算最優TTS方法。