Bengio參與，擴散模型+蒙特卡洛樹搜索實現System 2規劃

作者：機器之心 2025-02-24 10:15:00

把擴散模型的生成能力與 MCTS 的自適應搜索能力相結合，會是什么結果？

擴散模型（Diffusion Model）通過利用大規模離線數據對軌跡分布進行建模，能夠生成復雜的軌跡。與傳統的自回歸規劃方法不同，基于擴散的規劃器通過一系列去噪步驟可以整體生成完整軌跡，無需依賴前向動力學模型，有效解決了前向模型的關鍵局限性，特別適用于具有長周期或稀疏獎勵的規劃任務。

盡管擴散模型具有這些優勢，但如何通過利用額外的測試時間計算（TTC）來有效提高規劃精度仍然是一個懸而未決的問題。一種潛在的方法是增加去噪步驟的數量，或者增加采樣次數。然而，已知增加去噪步驟帶來的性能提升會迅速趨于平緩，而通過多個樣本進行獨立隨機搜索的效率非常低，因為它們無法利用其他樣本的信息。

另一方面，蒙特卡洛樹搜索（MCTS）則具有強大的 TTC 可擴展性。通過利用迭代模擬，MCTS 可以根據探索性反饋改進決策并進行調整，使其可以隨著計算量的增加而有效地提升規劃準確度。

這種能力使 MCTS 成為了許多 System 2 推理任務的基石，例如求解數學問題和生成程序。

然而，與基于擴散的規劃器不同，傳統的 MCTS 依賴于前向模型來執行樹 rollout。這也就繼承了其局限性，包括失去全局一致性。

除了局限于離散動作空間之外，生成的搜索樹在深度和寬度上都可能變得過大。這會導致計算需求變得非常大，特別是當任務場景涉及到長遠規劃和大動作空間時。

那么，關鍵的問題來了：為了克服擴散模型和 MCTS 各自的缺陷，同時提升基于擴散的規劃的 TTC 可擴展性，可以將擴散模型與 MCTS 組合起來嗎？又該怎么去組合它們？

近日，Yoshua Bengio 和 Sungjin Ahn 領導的一個團隊為上述問題提供了一個答案，提出了蒙特卡洛樹擴散（MCTD）。這是一種將擴散模型的生成力量與 MCTS 的自適應搜索功能相結合的全新框架。該團隊表示：「我們的方法將去噪（denoising）重新概念化為一個樹結構過程，允許對部分去噪的規劃進行迭代評估、修剪和微調。」

論文標題：Monte Carlo Tree Diffusion for System 2 Planning
論文地址：https://arxiv.org/pdf/2502.07202v1

蒙特卡洛樹擴散（MCTD）

簡單來說，MCTD = 擴散模型 + MCTS。該框架整合了基于擴散的軌跡生成以及 MCTS 的迭代搜索能力，可實現更加高效和可擴展的規劃。

具體方法上，MCTD 有三項創新。

第一，MCTD 將去噪（denoising）過程重構成了一種基于樹的 rollout 過程，于是便能在維持軌跡連貫性的同時實現半自回歸的因果規劃。
第二，其引入了引導層級作為元動作（meta-action），從而可實現「探索」與「利用」的動態平衡，進而確保在擴散框架內實現自適應和可擴展的軌跡優化。
第三，其采用的模擬機制是快速跳躍去噪（fast jumpy denoising）。從名字也能看出來，該機制的效率肯定很高 —— 不使用成本高昂的前向模型 rollout 即可有效估計軌跡質量。

基于這些創新，便可以在擴散過程中實現 MCTS 的四大步驟，即選擇、擴展、模擬和反向傳播，從而有效地將結構化搜索與生成式建模組合到了一起。