小而美!1B模型如何通過測試時優化逆襲405B LLM?
今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業大學和北京郵電大學聯合的一篇文章,標題是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考計算最優的測試時縮放)。
這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(Test-Time Scaling, TTS)方法。作者們「系統地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何影響 TTS」,并提出了兩個核心問題:「(1) 在不同的策略模型、PRMs 和問題難度水平下,擴展測試時計算的最佳方法是什么?(2) 擴展計算能在多大程度上提高 LLMs 在復雜任務上的性能,以及較小的語言模型是否能通過這種方法超越較大的模型?」
該方法的主要特點包括:
- 「全面評估」:對不同的 TTS 方法進行了全面的評估,使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰性的任務。
- 「獎勵感知」:強調了在 TTS 過程中考慮獎勵的必要性,并引入了獎勵感知的計算最優 TTS。
- 「小模型潛力」:實證結果表明,較小的語言模型通過 TTS 有可能超越較大的模型。
一、概述
- 「Title:」Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
- 「URL:」??https://arxiv.org/abs/2502.06703v1??
- 「Authors:」Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
- 「Code:」??https://ryanliu112.github.io/compute-optimal-tts??
1 Motivation
- 當前測試時間縮放(TTS)的研究缺乏對策略模型、過程獎勵模型(PRM)和問題難度如何影響TTS的系統分析,限制了對TTS方法理解和實際應用。
- 如何在不同的策略模型、PRM和問題難度級別上優化測試時間計算的縮放方法?
- 擴展計算能在多大程度上提高LLM在復雜任務上的性能,以及小模型是否可以通過這種方法超越大模型?
2 Methods
「省流版總結:」
本文提出了一種計算最佳的TTS策略,通過綜合實驗分析了策略模型、PRM和問題難度對TTS的影響。實驗使用了MATH-500和AIME24數據集,以及不同大小的Llama 3和Qwen2.5模型。研究發現,計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。
- 「問題建模」: 將推理問題建模為馬爾可夫決策過程 (MDP)。
- 「測試時縮放方法」: 考慮了三種 TTS 方法:Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
- 「計算最優的測試時縮放」: 選擇超參數以最大化給定測試時策略的性能。
- 「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優的 TTS 策略中,形成更通用的框架。
「詳細方法和步驟:」
論文通過以下步驟詳細闡述了其方法:
- 「問題形式化」:
將推理問題定義為馬爾可夫決策過程(MDP),包括狀態空間、動作空間、轉移函數、獎勵函數和折扣因子。
策略根據當前狀態生成動作,狀態根據動作進行轉移,并獲得獎勵。
目標是找到最優策略,最大化累積獎勵。
- 「測試時縮放方法」:
特征 | Best-of-N (BoN) | Beam Search | Diverse Verifier Tree Search (DVTS) |
核心思想 | 生成多個獨立響應,選擇最優 | 逐步擴展候選序列,擇優保留 | 多樣性搜索,并行探索多個子樹 |
生成方式 | 一次性生成N個完整響應 | 逐步生成,每步選擇Top N個擴展 | 分成多個子樹并行Beam Search |
選擇標準 | PRM評分、投票等 | 驗證器(PRM)評分 | 驗證器(PRM)評分 |
計算量 | 與N成正比 | 每步計算量與Beam Width成正比 | 計算量較大,與子樹數量和Beam Width相關 |
優點 | 實現簡單,易于并行 | 逐步優化,效果通常優于BoN | 探索多樣性,避免局部最優 |
缺點 | 缺乏探索性,易受初始生成質量影響 | 容易陷入局部最優 | 計算量大,實現復雜 |
適用場景 | 簡單任務,計算資源有限 | 中等復雜度任務 | 復雜任務,需要多樣性探索 |
- 「Best-of-N (BoN)」:策略模型生成 N 個響應,然后應用評分和投票方法選擇最終答案。
- 「Beam Search」:給定束寬 N 和束大小 M,策略模型首先生成 N 個步驟。驗證器選擇最佳的 N/M 個步驟進行后續搜索。下一步,策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復,直到達到最大深度或生成標記。
- 「Diverse Verifier Tree Search (DVTS)」:通過將搜索過程劃分為 N 個子樹來擴展 Beam Search,每個子樹使用 Beam Search 獨立探索。
「目標:」 這個公式旨在找到一個最優的測試時計算縮放策略(compute-optimal test-time scaling strategy),簡單來說就是「怎么用最合理的計算資源,讓模型在推理的時候表現最好」。
「符號說明:」
「公式含義:」
提出了一個測試時計算最優縮放策略,該策略選擇超參數以最大化給定測試時策略在特定提示上的性能收益。
「符號說明 (與公式2對比):」
「公式含義:」
「公式3與公式2的區別:」
- 提出應將獎勵整合到計算最優 TTS 策略中。
- 「絕對問題難度標準」:
- 使用絕對閾值而不是分位數來衡量問題難度。
- 基于 Pass@1 準確率定義了三個難度級別:easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。
3 Conclusion
- 計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇。」
- 通過「計算最佳的TTS策略,極小的策略模型可以勝過更大的模型。例如,一個1B的LLM可以在MATH-500上超過一個405B的LLM。」
- 實驗結果表明,「與CoT和多數投票相比,計算最佳的TTS可以提高LLM的推理性能。」
4 Limitation
- 將TTS擴展到更多任務,如編碼和化學任務。
- 探索更有效的計算最佳TTS方法。
二、詳細內容
1 獎勵會顯著影響生成的過程和結果
image-20250216224908584
說明:
- RLHFlow-PRM-Mistral-8B對短響應給予高獎勵,卻產生了錯誤的答案;
- 使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產生正確答案,但使用了更多token。
結論:獎勵應該被整合到計算最優的TTS策略中。
2 PRM的過程監督能力是決定其在TTS中性能的關鍵因素
image-20250216225517615
說明:PRM的過程監督能力越強,其在TTS中通常能帶來更好的性能。
結論:應該注重提高PRM的過程監督能力,而不僅僅是增加參數量。
3 策略模型大小對TTS參數的影響
image-20250216225948348
說明:使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進行實驗,分析最優TTS參數。
結論:
- 小型策略模型:基于搜索的方法優于BoN3。對于大型策略模型,BoN比基于搜索的方法更有效。
- 最優的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。
4 題目難度對TTS參數的影響
image-20250216230308416
結論:
- 「小規模策略模型(參數少于7B)」:BoN在簡單問題上表現更好,而束搜索更適合解決較難問題。
- 「中等規模策略模型(參數7B至32B)」:DVTS在簡單和中等問題上表現優異,束搜索則在困難問題上更具優勢。
- 「大規模策略模型(參數72B)」:BoN在所有難度級別上均為最佳選擇。
5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型
結論:
- 1B模型在TTS加持下能超過405B的模型。
- TTS加持下,DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。
6 TTS最優相對COT能顯著提升推理能力同時提高效率
結論:
- 對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進;
- 而對于推理能力較強的模型,提升效果則較為有限。
7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型
三、總結
本文對計算最優的測試時縮放進行了深入的實證分析,從不同的策略模型、PRMs 和更具挑戰性的評估任務的角度出發。研究結果「驗證了較小的語言模型在應用計算最優 TTS 時可以表現得比更大的模型更好。」 結果表明,一個 1B 模型可以通過 TTS 實現比 405B 模型更好的性能。此外,還證明了一個 7B PRM 可以通過監督一個更有能力的 72B 策略模型來實現強大的 TTS 結果,這表明了研究真正的“弱到強”方法的重要性,而不是目前用于策略優化的“強到弱”監督。為了實現這一目標,需要開發更有效的監督方法,因為基于 PRM 和基于 RL 的方法由于依賴于高質量的監督而存在局限性。未來的工作應側重于開發更具適應性和通用性的監督機制,以提高小型語言模型在復雜任務上的性能,并提供開發高效推理策略的新方法。
「結論1:」 通過自適應地調整測試時計算量,「小規模語言模型在特定任務上可以達到甚至超過大規模模型的性能,實現了更高的效率。」
「結論2:」 最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型(PRM)以及問題的難度。」 這意味著沒有一種通用的TTS策略適用于所有情況,需要根據具體任務和模型進行調整。
「結論3:」 本文通過實證分析揭示了「計算最佳TTS策略的依賴性,強調了在實際應用中考慮獎勵信息的重要性」,并為未來的研究方向提供了指導。
本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly
