樹搜索也存在「過思考」與「欠思考」？騰訊AI Lab與廈大聯合提出高效樹搜索框架

作者：機器之心 2025-03-21 13:25:14

本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題，并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學、蘇州大學研究團隊合作完成。

通訊作者包括騰訊 AI Lab研究員宋林峰與涂兆鵬，以及廈門大學蘇勁松教授。論文第一作者為廈門大學博士生王安特。

論文題目：Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
論文地址：https://arxiv.org/abs/2502.11183

背景與動機

近月來，OpenAI-o1 展現的卓越推理性能激發了通過推理時計算擴展（Test-Time Computation）增強大語言模型（LLMs）推理能力的研究熱潮。

該研究領域內，基于驗證器引導的樹搜索算法已成為相對成熟的技術路徑。這類算法通過系統探索龐大的解空間，在復雜問題的最優解搜索方面展現出顯著優勢，其有效性已獲得多項研究實證支持。

盡管諸如集束搜索（Beam Search）、最佳優先搜索（Best-First Search）、A*算法及蒙特卡洛樹搜索（MCTS）等傳統樹搜索算法已得到廣泛探索，但其固有缺陷仍待解決：樹搜索算法需承擔高昂的計算開銷，且難以根據問題復雜度動態調整計算資源分配。

針對上述挑戰，研究團隊通過系統性解構樹搜索的行為范式，首次揭示了該推理過程中存在的「過思考」與「欠思考」雙重困境。

「過思考」與「欠思考」

研究團隊選取最佳優先搜索算法為研究對象，基于 GSM8K 數據集開展系統性研究。實驗設置中逐步增加子節點拓展數（N=2,3,5,10）時發現：模型性能雖持續提升但呈現邊際效益遞減規律（圖 a），而計算開銷卻呈指數級增長（圖 b），二者形成的顯著差異揭示出傳統樹搜索在推理時計算擴展的效率瓶頸。

通過深度解構搜索過程，研究團隊首次揭示搜索樹中存在兩類關鍵缺陷：

節點冗余：由于大語言模型采樣機制的隨機性，搜索樹中生成大量語義重復節點（圖 c）。量化分析采用基于語義相似度的節點聚類方法，定義重復度為平均類內節點數，該指標與計算開銷呈現顯著正相關，此現象直接導致算法重復遍歷相似推理路徑，形成「過思考」困境；
驗證器不穩定性：引導搜索的驗證器存在一定的魯棒性缺陷，節點評分易受推理路徑表述差異影響而產生非必要波動（圖 d），在復雜數學推理場景中尤為明顯。這種不穩定性可能引發搜索路徑的局部震蕩，迫使搜索算法過早終止高潛力路徑的深度探索，從而產生「欠思考」現象。

Fetch

為應對「過思考」與「欠思考」問題，研究團隊提出適用于主流搜索算法的高效樹搜索框架 Fetch，其核心包含兩部分：

冗余節點合并（State Merging）：通過合并語義重復的節點，有效避免冗余節點的重復探索。
驗證方差抑制（Variance Reduction）：采用訓練階段與推理階段的雙重優化策略，降低驗證器評分的非必要波動。

冗余節點合并

研究團隊采用層次聚類算法（Agglomerative Clustering）實現節點冗余合并。具體而言，當搜索算法生成子節點后，首先基于 SimCSE 句子表示模型提取節點語義特征向量，隨后應用聚類算法形成超節點（Hyper-Node，）。該機制通過將語義等價節點聚合為單一超節點，有效避免冗余節點的重復拓展。

針對通用領域預訓練 SimCSE 在數學推理場景下存在的領域適配問題，研究團隊對 SimCSE 進一步微調。為此，提出兩種可選的節點對語義等價標注方案：

基于提示：利用大語言模型的指令遵循能力，通過用戶指令自動生成節點對語義等價性標注。但受限于專家模型的指令遵循局限性，該方法可能依賴于額外的通用模型；
基于一致性：基于重復節點后續采樣結果具有更高一致性的先驗假設，通過比較節點后續推理路徑的概率相似度，構建無監督標注數據集。該方法規避了對外部模型的依賴。

最終，利用收集的節點對標注，通過交叉熵損失對 SimCSE 進行微調：