只用圖像也能思考，強化學習造就推理模型新范式！復雜場景規劃能力Max

作者：機器之心 2025-05-26 09:16:00

人工智能新聞

來自劍橋、倫敦大學學院、谷歌的研究團隊認為：語言不一定始終是進行推理最自然或最有效的模態，尤其是在涉及空間與幾何信息的任務場景中。

近年來，LLM 及其多模態擴展（MLLM）在多種任務上的推理能力不斷提升。然而，現有 MLLM 主要依賴文本作為表達和構建推理過程的媒介，即便是在處理視覺信息時也是如此。

常見的 MLLM 結構。

這種模式要求模型首先將視覺信息「翻譯」或「映射」為文本描述或內部的文本化 token，然后再利用大型語言模型的文本推理能力進行處理。

這個轉換過程不可避免地可能導致視覺信息中固有的豐富細節、空間關系和動態特征的丟失或削弱，形成了所謂的「模態鴻溝 (modality gap) 」。這種鴻溝不僅限制了模型對視覺世界的精細感知，也影響了其在復雜視覺場景中進行有效規劃的能力。

例如，模型雖然能夠識別圖像中的物體并描述它們之間一些相對簡單的空間關系，但在追求極致的定位精度，或需要深入理解和預測物體間高度復雜、動態或隱含的交互邏輯（而非僅僅識別表面現象）時，其表現仍可能因視覺信息在文本化過程中的細節損失而受到限制。

來自劍橋、倫敦大學學院、谷歌的研究團隊認為：語言不一定始終是進行推理最自然或最有效的模態，尤其是在涉及空間與幾何信息的任務場景中。

基于此動因，研究團隊提出了一種全新的推理與規劃范式 —— 視覺規劃（Visual Planning）。該范式完全基于視覺表示進行規劃，完全獨立于文本模態。

論文標題：Visual Planning: Let’s Think Only with Images
論文地址：https://arxiv.org/pdf/2505.11409
代碼倉庫：https://github.com/yix8/VisualPlanning

在這一框架下，規劃通過一系列圖像按步編碼視覺域內的推理過程，類似于人類通過草圖或想象視覺圖景來計劃未來行為的方式。

推理范式的對比。傳統方法（上方與中間兩行）傾向于生成冗長且不準確的文本規劃，而視覺規劃范式（下方一行）則直接預測下一步的視覺狀態，形成完全基于圖像的狀態軌跡，過程無需語言中介。

為支持該方法，研究團隊提出了一個創新性的強化學習框架 —— 基于強化學習的視覺規劃（Visual Planning via Reinforcement Learning, VPRL）。該框架以 GRPO（群體相對策略優化）為核心優化方法，用于在訓練后提升大規模視覺模型的規劃能力。

在多個典型的視覺導航任務中，包括 FROZENLAKE、MAZE 和 MINIBEHAVIOR，該方法實現了顯著的性能提升。實驗結果表明，相較于在純文本空間內進行推理的其他所有規劃變體，研究團隊提出的純視覺規劃范式在效果上具備更強優勢。

以下是動態示例：

冰湖（FrozenLake）：這是一個具有隨機性的網格世界（gridworld）環境，智能體需從指定起點出發，安全到達目標位置，期間必須避免掉入「冰洞」。

迷宮 Maze：智能體獲得一個初始圖像，該圖展示了迷宮的布局。其任務是在迷宮中從起點（綠色標記）出發，最終到達終點（紅色旗幟所在位置）。

微行為（MiniBehaviour）：智能體首先需要從起點移動至打印機所在的位置并「拾取」它，之后應將打印機運送至桌子處并「放下」。

這項研究不僅證明視覺規劃是一種可行的替代方案，更揭示了它在需要直覺式圖像推理任務中的巨大潛力，為圖像感知與推理領域開辟了嶄新方向。

強化學習驅動的視覺規劃

視覺規劃范式

以往的大多數視覺推理基準任務，通常通過將視覺信息映射到文本領域來求解，例如轉換為物體名稱、屬性或關系等標注標簽，在此基礎上進行幾步語言推理。

然而，一旦視覺內容被轉換為文本表示，該任務便退化為純語言推理問題，此時語言模型即可完成推理，而無需在過程中再引入視覺模態的信息。

研究團隊提出的視覺規劃范式本質上與上述方法不同。它在純視覺模態下進行規劃。研究團隊形式化地定義視覺規劃為：在給定初始圖像 v? 的前提下，生成中間圖像序列 T = (?v?, ..., ?v?)，其中每個 ?v? 表示一個視覺狀態，共同構成一個視覺規劃軌跡。具體而言，記 π_θ 為一個參數化的生成視覺模型。該視覺規劃軌跡以自回歸方式生成，每一個中間視覺狀態 ?v? 都在給定初始狀態和此前生成狀態的條件下進行采樣：

大規模視覺模型中的強化學習

強化學習（RL）在優化自回歸模型方面表現出顯著優勢，其通過序列級獎勵信號進行訓練，突破了傳統 token 級監督信號的限制。在自回歸圖像生成任務中，圖像被表示為視覺 token 的序列。

受 RL 在語言推理任務中成功應用的啟發，研究團隊引入了一個基于 RL 的訓練框架，用于支持大模型下的視覺規劃，并采用了 GRPO 方法。該方法利用視覺狀態之間的轉換信息來計算獎勵，同時驗證生成策略是否滿足環境約束條件。

為訓練一種能生成有效動作、并在 RL 階段保持探索多樣性的策略模型，研究團隊提出了一種創新性的兩階段強化學習框架：

Stage 1：策略初始化。在該階段，研究團隊采用監督學習，通過在環境中的隨機游走（random walk）生成的軌跡來初始化視覺生成模型 π_θ。目標是生成有效的視覺狀態序列，并在「模擬」環境中保持充足的探索性。在訓練過程中，每條軌跡由一個視覺狀態序列 (v?, ..., v?) 構成。對每條軌跡而言，研究團隊提取 n?1 對圖像樣本 (v≤?, v???)，其中 v≤? 表示前綴序列 (v?, ..., v?)。隨后，在給定輸入前綴的情況下，模型會接觸到來自 K 條有效軌跡的下一狀態候選集 {v???^(j)}_{j=1}^K。這些候選狀態共享相同的前綴，為防止模型過擬合某一特定轉換，同時鼓勵生成過程的隨機性，研究團隊在每個訓練步驟中隨機采樣一個候選狀態 v???^(?) 作為監督目標，通過最小化視覺微調損失函數（VPFT）來優化模型：

所提 VPRL 框架概覽。圖中展示了該框架在視覺導航任務中的應用，利用自回歸式大規模視覺模型進行圖像生成。其中使用了 GRPO 對視覺策略模型進行訓練，并引入進度獎勵函數以鼓勵推進性的動作并懲罰非法行為，從而實現與目標一致的視覺規劃。

總體而言，該階段主要作為接下來的強化學習階段的熱啟動過程，旨在提升生成圖像的連貫性和整體規劃質量。

Stage 2：面向視覺規劃的強化學習。在第一階段初始化后，模型擁有較強的探索能力，這對強化學習至關重要，可確保模型覆蓋多種狀態轉移路徑，避免陷入次優策略。在第二階段中，模型通過模擬未來狀態（即潛在動作的后果），依據生成結果獲得獎勵反饋，從而逐步引導學習出有效的視覺規劃策略。

具體而言，給定當前輸入前綴 v≤?，舊版本模型 π_θ^old 會采樣出 G 個候選中間狀態 {?v???^(1), ..., ?v???^(G)}。每個候選狀態代表了時間步 i 上智能體采取某一行動 a^(k) 后，模擬產生的下一視覺狀態。研究團隊使用基于規則的解析函數將狀態對 (v?, ?v???^(k)) 映射為離散動作，以便進行結構化解釋。

隨后，研究團隊設計了一個復合獎勵函數 r (v?, ?v???^(k)) 來對每個候選狀態進行打分，該獎勵衡量候選狀態是否代表了對目標狀態的有效推進（即是否有用）。

不同于傳統強化學習中依賴學習一個價值函數評估器（critic），GRPO 通過候選組內的相對比較來計算優勢值，從而提供易于解釋、計算更加高效的訓練信號。此時每個候選的相對優勢 A^(k) 的計算方式為：

為引導模型產生更優的候選響應，并強化高優勢行為的傾向，研究團隊根據以下目標函數更新策略：

其中，D 指代前綴分布，ρ^(k) = π_θ(?v???^(k) | v≤?) / π_θ^old (?v???^(k) | v≤?) 表示重要性采樣比值。

獎勵設計。與離散操作或文本 token 不同，視覺輸出往往是高維稀疏信息，難以被直接分解為可解釋的單元。在研究團隊的視覺規劃框架下，核心挑戰在于如何判斷一個生成的視覺狀態能否準確表達對應的規劃動作。因此，獎勵設計聚焦于在考慮環境約束下，對朝向目標狀態的推進進行評估。

為解釋由狀態 v? 到候選狀態 ?v???^(k) 所隱含的動作計劃，研究團隊定義一個狀態 - 動作解析函數 P: V × V → A ∪ E，其中 A 表示有效動作集合，E 表示非法狀態轉移集合（例如違反物理約束的動作）。

該過程可借助獨立的圖像分割組件或基于規則的腳本完成，從像素層級數據中解析出可解釋的動作單元。

一旦動作被識別，研究團隊引入「進度圖」（progress map）D (v) ∈ ?，表示從某一可視狀態 v 到達目標狀態所需的剩余步驟數或努力度。通過比較當前狀態與生成狀態在進度圖上的相對變化，研究團隊將動作集合 A ∪ E 劃分為三類：

據此，研究團隊提出進度獎勵函數 r (v?, ?v???^(k))：

r =α???, 若為推進有效動作（optimal）r =α????, 若為無推進的動作（non-optimal） r =α???, 若為非法動作（invalid）

在實驗中，研究團隊設置 α??? = 1，α???? = 0，α??? = ?5，從而鼓勵推進行為，懲罰不可行的狀態轉移。

系統變體

除提出的 VPRL 主干框架外，為全面評估監督方式（語言 vs. 圖像）與優化方法（監督微調 vs. 強化學習）對性能的影響，研究團隊提出了若干系統變體作為對比基線：

視覺微調規劃（VPFT）。研究團隊提出「視覺微調規劃」（Visual Planning via Fine-Tuning, VPFT）作為本框架的簡化版本，其訓練結構與第 2.2 節中的階段一一致，但使用最優規劃軌跡代替隨機軌跡。對于每個環境，研究團隊采樣一條最小步驟的最優軌跡 (v?^opt, v?^opt, ..., v?^opt)，該軌跡從初始狀態 v?^opt = v? 通向目標狀態。在每一步，模型根據當前前綴 v≤?^opt 學習預測下一個狀態 v???^opt。訓練目標與公式（2）相同，以最優軌跡作為監督信號。

基于語言的監督微調（SFT）。在該對比方法中，規劃任務被構建于語言模態中。與生成圖像形式的中間狀態不同，模型需生成動作序列的文本描述。形式上，給定輸入視覺狀態 v 及任務描述文本提示 p，模型被訓練以輸出一個動作序列 t = (t?, ..., t_L)，其中每個 token t? ∈ V_text 表示一個動作。模型輸入為提示詞 token 與視覺 token 的拼接，目標為對應的文字動作序列。研究團隊采用此前在自回歸模型中常用的監督微調方法，通過最小化交叉熵損失來學習動作預測：

視覺規劃的實驗表現如何？

該團隊基于一些代表性任務檢驗了視覺規劃這一新范式的實際表現。

具體來說，為了對比視覺規劃與基于語言的規劃，該團隊實驗了三種視覺導航環境：FROZENLAKE、MAZE 和 MINIBEHAVIOR。所有這些環境都可以在兩種模態下求解，這樣一來便能更加輕松地對比兩種策略。

模型方面，該團隊選擇的是完全在視覺數據上訓練的模型 —— 這些模型在預訓練過程中未接觸過任何文本數據。

具體來說，他們選擇了大型視覺模型 LVM-3B 作為骨干網絡，并使用了 VPFT 和 VPRL 方法。與此同時，相對比的文本模型包括不同設置的 Qwen 2.5-VL-Instruct 以及 Gemini 2.0 Flash (gemini-2.0-flash-002) 和先進思維模型 Gemini 2.5 Pro (gemini-2.5-pro-preview-03-25)。

評估指標則采用了精確匹配 (EM) 和進度率 (PR) 兩種。

那么，視覺規劃的表現如何呢？

視覺規劃勝過文本規劃

如下表 1 所示，視覺規劃器（VPFT 和 VPRL）在所有任務上均取得了最高分，優于所有使用語言推理的基線模型。

在相同的通過微調的監督訓練方法下，VPFT 在精確匹配 (EM) 指標上平均比基于語言的 SFT 高出 22% 以上，而 VPRL 的優勢還更大。在進度率 (PR) 方面也觀察到了類似的趨勢。

這些結果表明，視覺規劃范式在以視覺為中心的任務中優勢明顯，因為語言驅動的方法可能與任務結構不太契合。純推理模型（無論是大型閉源系統還是小型開源 MLLM）。如果不針對特定任務進行調優，在完成這些規劃任務時都會遇到困難。即使是先進的思維模型 Gemini 2.5 Pro，在更復雜的 MAZE 和 MINIBEHAVIOR 任務中，EM 和 PR 也幾乎低于 50%，這表明當前前沿的語言模型還難以應對這些挑戰，盡管這些任務對人類來說是直觀的。

強化學習能帶來增益

兩階段強化學習方法 VPRL 帶來了最高的整體性能，超越了其它變體。在第二階段之后，該模型在更簡單的 FROZENLAKE 任務上實現了近乎完美的規劃（91.6% EM，93.2% PR），并在 MAZE 和 MINIBEHAVIOR 任務上保持了強勁的性能。在所有任務上的性能都比 VPFT 高 20% 以上。

正如預期，該團隊的強化學習訓練的第一階段（強制輸出格式，但不教授規劃行為）獲得了近乎隨機的性能（例如，在 FROZENLAKE 數據集上實現了 11% 的 EM）。在使用新提出的獎勵方案進行第二階段的全面優化后，規劃器達到了最佳性能。這一提升凸顯了強化學習相對于 SFT 的一個關鍵優勢：VPRL 允許模型自由探索各種動作并從其結果中學習，而 VPFT 則依賴于模仿，并且傾向于擬合訓練分布。通過獎勵驅動式更新來鼓勵利用（exploitation），VPRL 學會了捕捉潛在的規則和模式，從而實現了更強大的規劃性能。

下圖展示了一個可視化的對比示例。

隨著復雜度提升能保持穩健性

該團隊發現，在研究不同方法在不同任務難度（更大的網格通常更難）下的表現時，強化學習依然能保持優勢。

如圖 5 所示，當在 FROZENLAKE 環境中，隨著網格尺寸從 3×3 增加到 6×6，Gemini 2.5 Pro 的 EM 分數從 98.0% 驟降至了 38.8%。相比之下，新提出的視覺規劃器不僅在所有網格尺寸下都保持了更高的準確度，而且性能曲線也更加平坦。同樣，VPRL 也表現得比 VPFT 更穩定，在 3×3 網格上 EM 分數保持在 97.6%，在 6×6 網格上也仍能達到 82.4%，這表明 VPRL 的穩健性相當好。

責任編輯：張燕妮來源：機器之心

強化學習 AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

只用圖像也能思考，強化學習造就推理模型新范式！復雜場景規劃能力Max

強化學習驅動的視覺規劃

視覺規劃的實驗表現如何？