僅用圖像也能Think:Google等提出一種視覺規劃的全新推理范式!
語言并不總是推理的最自然或最有效的模態,特別是在涉及空間和幾何信息的任務中。基于此,劍橋&Google等提出并開源了一種新的范式——視覺規劃(Visual Planning),它通過純視覺表示進行規劃,獨立于文本。
在這個范式中,規劃是通過圖像序列來執行的,這些圖像序列在視覺領域編碼了逐步推理的過程,類似于人類如何繪制草圖或可視化未來的行動。
推理范式的比較。 傳統方法(上兩行)會生成冗長且不準確的文字計劃,而視覺規劃范式(最下行)則直接預測下一個視覺狀態,形成了一個純粹的圖像軌跡,無需語言中介。
引入了一個新穎的強化學習框架——通過強化學習進行視覺規劃(VPRL),該框架通過GRPO對大型視覺模型進行后訓練。
提出的VPRL框架概覽,通過自回歸大型視覺模型在視覺導航任務的背景下展示圖像生成,使用GRPO訓練視覺策略模型,利用促進進展行為并懲罰無效行為的進展獎勵,實現與目標對齊的視覺規劃。
- 第一階段:策略初始化(Policy Initialization):
使用隨機游走(random walks)生成的軌跡來初始化模型,目的是讓模型在模擬環境中生成有效的視覺狀態序列,并保留探索能力。
通過監督學習(supervised learning)對模型進行訓練,使其能夠生成與隨機游走相似的視覺軌跡。
訓練過程中,模型從每個軌跡中提取圖像對,并從多個有效軌跡中隨機選擇一個作為監督目標,以防止過擬合并鼓勵隨機性。
- 第二階段:強化學習優化(Reinforcement Learning Optimization):
在第一階段的基礎上,利用強化學習(RL)進一步優化模型,使其能夠生成更有效的視覺規劃。
引入了GRPO(Group Relative Policy Optimization)算法,通過比較候選響應的相對優勢來提供訓練信號,從而避免了學習評估函數(critic)的復雜性。
設計了一個基于進度的獎勵函數(progress reward function),該函數通過比較當前狀態和生成的候選狀態之間的進度差異來評估動作的有效性。獎勵函數分為三類:最優動作(optimal actions)、非最優動作(non-optimal actions)和無效動作(invalid actions),分別給予不同的獎勵值。
FROZENLAKE: 這是一個隨機的網格世界,代理需要從指定的起始位置出發,找到一條安全的路徑到達目的地,同時避免掉入“冰洞”。
MAZE: 給定一個描述迷宮布局的初始圖像,模型需要從起點(綠色點)出發,穿過迷宮到達終點(紅色旗幟)。
實驗選擇了三個視覺導航任務:FROZENLAKE、MAZE和MINIBEHAVIOR,這些任務都可以通過視覺表示進行規劃。
比較了視覺規劃方法(VPFT和VPRL)與語言推理方法(如Gemini 2.5 Pro和Qwen 2.5-VL-Instruct-3B)。VPRL在所有任務中表現最佳,顯著優于其他方法。
https://arxiv.org/pdf/2505.11409
https://github.com/yix8/VisualPlanning
Visual Planning: Let’s Think Only with Images
本文轉載自???PaperAgent??
