突破大模型推理瓶頸!首篇「Test-Time Scaling」全景綜述,深入剖析AI深思之道
本文由來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者共同完成。第一作者為來自香港城市大學的博士生張啟源和來自蒙特利爾人工智能實驗室(MILA)的博士生呂福源。
當訓練成本飆升、數據枯竭,如何繼續激發大模型潛能?
在追求通用人工智能(AGI)的道路上,大模型訓練階段的「暴力堆算力」已經逐漸觸及天花板。隨著大模型訓練成本急劇攀升、優質數據逐漸枯竭,推理階段擴展(Test-Time Scaling, TTS) 迅速成為后預訓練時代的關鍵突破口。與傳統的「堆數據、堆參數」不同,TTS 通過在推理階段動態分配算力,使同一模型變得更高效、更智能 —— 這一技術路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已初顯威力。
圖 1:預訓練擴展和推理階段擴展的示意。
在數學、編程等硬核任務上,TTS 表現亮眼;而在開放問答、多模態理解乃至復雜規劃等場景中,它同樣展現出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領域仍缺乏統一的研究視角與評估框架。
最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者聯合發布了首篇系統性的 Test-Time Scaling 領域綜述。該文首次提出「What-How-Where-How Well」四維分類框架,系統拆解推理優化技術,為 AI「深思」繪制全景路線圖。
- 論文標題:A Survey on Test-Time Scaling in Large Language Models:What, How, Where, and How Well
- 論文鏈接:https://arxiv.org/pdf/2503.24235
- 項目主頁:https://testtimescaling.github.io/
- GitHub 倉庫:https://github.com/testtimescaling/testtimescaling.github.io/
論文亮點概覽:
本篇 Survey 首次提出了一個覆蓋全面、多層次、可擴展的四維正交分析框架:
- What to scale:擴什么?CoT 長度、樣本數、路徑深度還是內在狀態?
- How to scale:怎么擴?Prompt、Search、RL,還是 Mixture-of-Models?
- Where to scale:在哪擴?數學、代碼、開放問答、多模態……
- How well to scale:擴得怎樣?準確率、效率、控制性、可擴展性……
在這個框架下,作者系統梳理了當前的主流 TTS 技術路線,包括:
- 并行策略:即同時生成多個答案,并選出最優解(如 Self-Consistency / Best-of-N)
- 逐步演化:即通過迭代修正逐步優化答案(如 STaR / Self-Refine)
- 搜索推理:結合并行與序列策略,探索樹狀推理路徑(如 Tree-of-Thought / MCTS)
- 內在優化:模型自主控制推理步長(如 DeepSeek-R1 / OpenAI-o1)
基于這一框架,作者系統性地梳理了現有文獻,實現了四大核心貢獻:
- 文獻解析:通過結構化分析方法,清晰界定各項研究的創新邊界與價值定位;
- 路徑提煉:總結出推理階段擴展技術的三大發展方向:計算資源動態優化、推理過程增強和多模態任務適配;
- 實踐指導:針對數學推理、開放問答等典型場景,提供具體可操作的技術選型建議;
- 開放社區:拋棄傳統調研自說自話的特點,通過結合主頁希望營造一個專門為 TTS 討論的開放社區,集所有研究者的智慧,不斷與時俱進更新更加實踐的指導。
與同類綜述相比,本文特別注重實用價值和開放討論,不僅系統評估了不同 TTS 策略的性價比,還前瞻性地探討了該技術的未來演進方向,包括輕量化部署、持續學習融合等潛在突破點。
作者表示,Test-time Scaling 不僅是大模型推理的「第二引擎」,更是邁向 AGI 的關鍵拼圖。教會模型「三思而后行」,是我們邁向通用人工智能的重要旅程。
框架介紹
作者提出的框架從四個正交維度系統解構 TTS 技術:
1. What to Scale(擴展什么)- 界定推理過程中需要擴展的具體對象,包括:
- Parallel Scaling(并行擴展):并行生成多個輸出,然后將其匯總為最終答案,從而提高測試時間性能;
- Sequential Scaling(序列擴展):根據中間步驟明確指導后面的計算;
- Hybrid Scaling(混合擴展):利用了并行和順序擴展的互補優勢;
- Internal Scaling(內生擴展):在模型內部參數范圍內自主決定分配多少計算量進行推理,在推理時并不外部人類指導策略。
其中,作者為每一個擴展的形式,都進行了一些經典工作的介紹,從而豐富了對于擴展策略的外延描述,例如:在并行擴展中作者根據得到覆蓋性的來源分為兩個更小的類別,在單個模型上的反復采樣和多個模型的采樣。
2. How to Scale(怎么擴展)- 歸納實現擴展的核心技術路徑:
- 訓練階段方法:監督微調(SFT)、強化學習(RL)等
- 推理階段技術:刺激策略(Stimulation)、驗證技術(Verification)、搜索方法(Search)、集成技術(Aggregation)
這個章節是重點章節,作者收錄并整理了大量的經典的和最前沿的技術,例如在訓練階段中的強化學習技術,伴隨 R1 而大火,因此在短短兩個月內涌現出大量的工作,作者將它們盡數收入,同時分成基于獎勵模型和不需獎勵模型兩類;對于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(Self-Repetition)、模型混合(mixture-of-model)四類。
3. Where to Scale(在哪里擴展)- 明確技術適用的任務場景與數據集特性。
作者在這里提出盡管 TTS 的推出和驗證是在某一類特定的推理任務上得到成功的,可是已經有足夠多的工作開始顯現出 TTS 是一種通用地能夠提升在多樣任務的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類進行分類,一方面強調了 TTS 在越來越多樣、越來越先進的推理任務中有很明顯的效果,另一方面也不斷跟蹤 TTS 在更多通用任務上應用的效果。值得注意的是,作者整理出一個評測基準的表格,方便更多研究者直接從中去選擇合適自己的基準。
4. How Well to Scale(效果怎么樣)- 建立多維評估體系:
在當下,TTS 已經不僅是一個提高任務準確率的策略,當它成為一個新的值得被研究的核心策略時,對 TTS 的要求會更加多元化,這也是未來研究的主題。作者認為之后對 TTS 的優化重點將不僅僅局限在準確率的提升,是在于如何提高效率、增強魯棒性和消除偏見等。
圖 2:作者提出的 TTS 框架,包括 what, how, where 和 how well to scale。
作者不僅在每個維度下提供細粒度子類劃分,還配套標注了代表性研究工作(如圖 2 所示),使分類體系兼具理論完備性和實踐指導價值。這一結構化的基礎使得后續研究可以無縫地融入作者的分類體系,更清晰地展現其貢獻。
為了更好的理解 what to scale 中的并行擴展,序列擴展,結合擴展和內生擴展,作者用一張清晰的示意圖進行形象化的展示,同時,在圖中使用 how to scale 的技術來組成不同的擴展策略,很好地示意了兩個維度如何結合在一起。
圖 3:從 what to scale 到 how to scale。
實踐特色
作者強調本篇 Survey 以實用為原則,具體包括:使用所提出的框架分析文獻,以及整理操作指南。
文獻解析:為了幫助研究者系統性地剖析每項工作,作者設計了一個分析表格,通過將文獻貢獻對應到框架的四個維度(What/How/Where/How Well),以清晰地解構該工作。這種結構化分析方法不僅能清晰展現各研究的核心創新,更能有效揭示潛在的技術突破方向。
表 1:在現有文獻中進行推理擴展時常用的組合方式。
操作指南:另一個潛在的亮點是持續收集 TTS 開發中的實用操作指南,而這些操作指南將以問答的形式展現。作者期待這些問答是具體的、現實的、一線的,因此,作者期待這篇 Survey 將維持開放性,邀請更多在一線研究的學者來參與這項操作指南的收錄和編寫。下面是作者現階段的操作指南的內容和風格。
開放社區
有價值的洞見和實踐指導是來自于第一線的科研和百花齊放的討論的,作者期待將論文從傳統的靜態的一家之言轉化為動態的百家之壇,并建立開放的社區來收集任何一線科研者提出的問題和總結的經驗,而這些問題和經驗在經過篩選后,會更新到最新的論文中,并在致謝中進行感謝。
挑戰與未來
盡管 TSS 技術已嶄露頭角,本文總結了 TTS 當前面臨的四大挑戰:
- 擴展極限:在未來的 TTS 中,如何突破「暴力采樣」的邊際收益遞減?我們急需在不同方向上探索策略
- 本質理解:tts 中多個模塊是否真正驅動了推理改進?reward model 是否需要重新評估?我們依然需要在理論層面揭示技術有效性根源。
- 評估革新:傳統指標無法捕捉推理過程質量,隨著 test-time scaling 技術的發展,領域內急需開發細粒度評估體系,以便更全面地評估不同策略
- 跨域泛化:當前 TTS 方法在數學、代碼任務中表現突出,但如何遷移至法律、金融等高風險場景?如何在推理過程中考慮現實世界的制約?
論文還指出,目前常見的技術如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻尚不清晰,值得深入探索,例如:SFT 真的不如 RL 更泛化嗎?R1 的時代下 SFT 的角色是什么?什么樣的 Reward Modeling 更加高效?等等
此外未來 TTS 的發展重點包括:1. 統一評估指標(準確率 vs 計算開銷);2. 拓展到金融、醫學等真實場景;3. 構建具備自適應推理能力的通用智能體。
推理擴展策略正引領 AI 推理范式轉變:讓模型在「用」的時候持續變強。