清華耶魯推理模型新范式：動態推理實現高效測試時擴展，大大節省Token消耗

作者：量子位 2025-04-08 09:16:00

人工智能新聞

清華、耶魯團隊提出推理模型新范式：動態推理實現高效測試時擴展。

推理性能提升的同時，還大大減少Token消耗！

清華、耶魯團隊提出推理模型新范式：動態推理實現高效測試時擴展。

測試時擴展（test-time scaling）技術加速推動了大語言模型在復雜推理領域的突破。

以OpenAI的o1系列、DeepSeek-R1等模型為代表，這些系統通過強化學習和大規模思維鏈（CoT）軌跡訓練，在數學證明、編程競賽等任務中展現出接近人類專家的水平。

例如，DeepSeek R1在MATH500數學基準上達到97.3%的準確率，其核心在于允許模型在推理時動態擴展計算資源——生成更長的思維軌跡意味著更高的解題成功率。

然而，這種“以計算換性能”的策略帶來了顯著的效率代價。

現有方法通常強制分割上下文窗口：模型必須在前半段完成完整推理（如R1采用…分隔符），即使面對簡單問題也需消耗很大一部分的思考tokens（thinking tokens）。

更嚴重的是，部分模型在復雜問題上會出現“過度思考”（overthinking）現象：生成冗余的循環推理步驟卻無法提升準確率。論文中揭示，直接截斷超過4096 tokens的思考過程可能導致DeepSeek-R1性能下降12.7%，這暴露了當前方法在效率與效果間的根本矛盾。

△（a) 與傳統長思考模型相比，Z1的動態思考窗口可以節省大量思考token，達到高效推理性能(b)

針對這一挑戰，來自清華、耶魯團隊基于純代碼數據訓練了一個高效思考模型，其具有天然的動態推理能力，可根據問題難度高低生成不同長度的推理軌跡，同時搭配可調節的思考窗口，使得模型可以在預先設定的推理預算下實現高效的推理思考。

Z1：動態推理實現高效測試時擴展

本文的主要創新在于兩個層面：

1、數據層面：構建Z1-Code-Reasoning-107K數據集

作者創建了一個包含10.7萬條編程問題及其長短思維軌跡的數據集Z1-Code-Reasoning-107K。通過QwQ-32B模型生成原始軌跡后，逐步提高推理等級，使其保留從“直接求解”到“多步推導”的連續復雜度分布。這種數據設計確保了模型在訓練過程中能夠接觸不同復雜度的推理軌跡，從而提升其在實際任務中的適應能力。在此數據集上訓練得到的Z1模型具備天然的動態推理能力，并且可遷移至數學等代碼以外的推理任務。

2、機制層面：設計動態思考窗口（Shifted Thinking Window）

作者拋棄了硬性分隔符約束，設計了Shifted Thinking Window機制。對于簡單問題（如BigCodeBench-Hard中的基礎函數實現），模型自動觸發弱推理模式，可直接輸出答案；當遇到GPQA鉆石級難題時，則自動啟用強推理模式，在max thinking tokens閾值內自由推導并給出結果，如果思考超限則自動追加提示短語引導輸出答案。

二者結合，使Z1模型具備動態思考能力和預算調整能力，在使用較少thinking tokens的同時，保持較高的基準準確率，實現高效動態的推理。