大模型掌握人類空間思考能力!三階段訓練框架學會“邊畫邊想”,5個基準平均提升18.4%
“邊看邊畫,邊畫邊想”,讓大模型掌握空間思考能力,結果直接實現空間推理任務新SOTA。
來自螞蟻技術研究院自然語言組聯合中科院自動化所和香港中文大學開源ViLaSR-7B。
它在包括迷宮導航、靜態圖像理解和視頻空間推理等5個基準上平均提升18.4%。
在李飛飛等知名學者提出的VSI-Bench上更是達到了與Gemini-1.5-Pro相當的45.4%水平,全面超越現有方法。
△主實驗結果
更重要的是,大量案例研究表明,模型確實掌握了類似人類的空間推理策略和反思能力,朝著真正的視覺智能邁出了重要一步。
他們設計了三階段訓練框架,來訓練這種推理能力——
首先通過冷啟動訓練建立基礎的視覺操作能力,繼而利用反思拒絕采樣篩選高質量的推理路徑,最后通過強化學習直接優化任務目標。
具體來看看~
兩種推理范式
在文本任務突破后,視覺推理成為當下機器推理的一大熱點。視覺推理指的是機器能夠像人一樣,通過分析單張或多張(連續)圖中的物體、場景布局和空間關系來進行視覺理解和邏輯判斷。
今年4月,OpenAI發布的o3和o4-mini模型在視覺推理領域取得重大突破。這兩個模型采用“Thinking with Images”的推理范式,能夠在文本形式的推理過程中主動進行圖像操作(如裁剪、縮放、旋轉等),并將操作后的圖像重新輸入模型進行下一步推理。在MMMU等多個視覺推理基準測試中,o3模型的表現大幅超越了此前的最好成績,顯示了這種范式的巨大潛力。
△兩種視覺推理范式
視覺推理為什么需要“Thinking with Images”呢?
與o3/o4-mini不同,傳統視覺語言模型(Large Vision-Language Models, LVLMs)往往采用“視覺轉文本”推理范式。該范式僅僅將圖像信息作為輔助輸入,通過視覺編碼器將其壓縮為token序列并對齊到語言空間,隨后交由LLM進行純文本推理。
盡管去年6月份一篇被Ilya點贊的論文《The Platonic Representation Hypothesis》指出視覺和語言表示會隨著模型規模擴大而自然地趨于一致,但在實踐中這種對齊存在諸多問題。
一方面,由于訓練數據的局限性和視覺編碼器能力的限制,這種壓縮和對齊過程不可避免地會丟失大量關鍵的細節信息和時空信息。這些信息一旦在初始對齊階段丟失,就無法在后續的純文本推理中恢復。
另一方面,視覺數據中往往包含大量與任務無關的背景細節,特別是在視頻等多幀場景中存在大量冗余信息。如果盲目增大模型規模來保留更多信息,不僅會耗費大量計算資源去處理這些無關信息,還可能導致模型過度關注噪聲而影響推理效果。
如圖所示,“視覺轉文本”推理范式的局限在具體任務中表現得尤為明顯 -在迷宮導航時容易混淆方向、在多視角推理時難以建立物體間的時空關聯等。
△“視覺轉文本”推理的局限性
當下,視覺推理正經歷從“視覺轉文本”到“Thinking with Images”的范式轉變。
事實上,“Thinking with Images”并非全新概念。
例如,CVPR 2023的最佳論文VisProg就提出了一種無需訓練的提示方法,通過讓大模型生成Python程序來調用視覺工具,踐行了這種用圖像思考的理念。螞蟻技術研究院在EMNLP 2024的VisualReasoner工作也率先提出在推理過程中主動引入視覺操作,通過編輯和生成新的視覺線索來增強模型的感知能力。更重要的是,該工作設計了一種數據合成方法,能自動生成大量包含多步視覺推理過程的訓練數據,首次實現了將這種推理能力原生注入到模型參數中。
這些探索為解決傳統視覺到文本轉換范式中的信息損失問題開辟了新的方向。
△兩種推理范式對比
在“Thinking with Images”的大框架下,螞蟻技術研究院自然語言組聯合中科院自動化所和香港中文大學重點關注視頻或多圖場景下的空間推理問題,試圖解決當下視覺推理工作中空間關系增強不足以及跨幀追蹤能力受限等問題。
為此,團隊開源了ViLaSR-7B(Vision-Language Model for Spatial Reasoning)模型。該模型通過創新性的“Drawing to Reason in Space”范式,讓LVLMs能夠像人類一樣“邊畫邊想”:通過在視覺空間中繪制輔助標注(如參考線、標記框等),引導視覺編碼器捕捉關鍵的空間關系,從而在視覺token的embedding表征中保留更豐富的空間信息,有效緩解了傳統“視覺轉文本”推理范式中的信息損失問題。這種交互式的視覺推理方式模擬了人類在解決空間問題時的思維過程,增強了模型的空間感知能力。
△“Drawing to Reason in Space”示例
技術方案:Drawing to Reason in Space
該框架讓模型能夠在每一步推理中操作單張或多張圖像:通過選擇關鍵幀、跨幀比較、繪制邊界框和輔助線等方式來構建視覺線索,從而聚焦特定空間區域并動態追蹤其在不同圖像間的變化關系。
不同于現有方法依賴外部專用認知工具或僅局限于局部細節觀察,這種方式不僅保持了模型原生的視覺推理能力,更支持其在多圖場景下進行連貫的空間推理,不斷更新和優化對空間狀態的整體理解,真正實現“邊看邊畫、邊畫邊想”的認知過程。這種機制在處理需要多步驟、長序列的復雜空間推理任務時表現出顯著優勢,不僅提升了推理效率,更增強了結果的可解釋性和可控性。
三階段訓練框架:系統化培養空間推理能力
為了有效提升視覺語言模型在空間推理任務上的表現,ViLaSR 使用了一種系統化的三階段訓練框架。該框架旨在從零開始逐步培養模型的空間理解與推理能力,使其能夠像人類一樣通過“畫圖輔助思考”的方式進行多步驟、深層次的空間分析。
第一階段:冷啟動訓練(Cold-start Training)
訓練的第一步是建立模型對視覺空間的基本認知能力。研究團隊利用合成數據構建初始的視覺推理路徑,并通過監督學習的方式訓練模型執行基本的繪圖操作,如標注邊界框、繪制輔助線等。這些操作為后續復雜推理打下基礎。
第二階段:反思拒絕采樣(Reflective Rejection Sampling)
第二階段目標是增強其自我修正與反思能力。該階段引入了反思拒絕采樣機制,通過對模型生成的多個推理路徑進行評估,篩選出那些展示出反思行為(如修改邊界框、輔助線)的高質量樣本進行強化訓練。這種機制鼓勵模型在面對不確定或錯誤的推理路徑時主動識別并調整,并根據反饋動態優化解決方案。
第三階段:強化學習(Reinforcement Learning)
最后一個階段采用強化學習策略,進一步優化模型的整體推理能力和繪圖操作的使用效率。在此階段,模型通過結果獎勵函數和格式獎勵函數,同時關注答案的準確性與推理過程的邏輯性和格式合理性。格式獎勵僅當結果獎勵大于閾值(此處設置為0)時才獲得,保證模型關注結果正確,避免僅優化格式獎勵。這一階段的目標是讓模型能夠在不同任務中自主選擇最優的推理路徑,并合理使用繪圖工具,避免冗余操作。這一階段不僅提升了模型的最終性能,也增強了其在多種空間推理場景下的適應能力。
實驗表現
1. ViLaSR 在多個空間推理基準測試中表現優異
ViLaSR-7B 在包括迷宮導航(Maze)、靜態圖像理解(SpatialEval-Real)、視頻空間推理(VSI-Bench)、多圖像空間推理(SPAR-Bench, MMSI-Bench)五個主要空間推理基準上平均提升了 18.4% 。
這一顯著提升表明,引入圖像輔助思考機制,顯著增強了模型在多類型任務中的泛化與空間推理能力,相較于純文本推理更具適應性。
其中,在視覺空間理解最具挑戰性的基準之一VSI-Bench 上,ViLaSR-7B 達到了45.4% 的平均準確率,顯著優于Qwen2.5-VL-7B(+12.7%)。
2. 反思拒絕采樣增強自我修正,強化學習優化繪圖操作效率
△消融實驗。分數為相比于完整ViLaSR模型的關鍵行為相對提升百分比
通過消融實驗發現,冷啟動階段首先幫助模型掌握“畫圖輔助思考”能力;去除反思拒絕采樣階段會導致:反思行為、推理步驟、繪圖操作行為顯著減少。這說明反思拒絕采樣機制對模型在面對錯誤路徑時的自我識別和修正起到了關鍵作用。
此外無強化學習版本與ViLaSR-7B相比,在多數子任務上性能下降,且繪圖/繪制輔助線使用頻率激增(+159.4% / +9.1%),表明強化學習有助于學習更精煉的操作策略。
數值類任務相比于多選任務,性能下降更明顯(-9.21% vs. -4.07%),驗證了強化學習提供的稠密獎勵能更有效促進精確空間推理,相比于監督微調更具優勢。
3. 具備類人空間推理策略
深入的案例分析表明,ViLaSR-7B不僅在性能上超越了現有方法,更展現出了類人的空間推理策略。如下圖所示,模型掌握了以下關鍵能力:
(1)基于參考物的度量推理:
在測量電話尺寸的任務中,模型展現出了成熟的參考物推理能力。它首先識別到單純依靠像素測量無法得到準確結果,隨后主動尋找具有已知尺寸的參考物(顯示器),最終通過比例換算得出電話的實際尺寸。這種推理方式與人類解決實際測量問題的思路高度一致。
△基于參考物的度量推理示例
(2)系統性的跨幀對象追蹤:
面對需要理解多個畫面中物體相對位置關系的任務時,模型采用了系統性的標注策略 - 在不同幀中標記相同物體的位置,并通過這些標記建立起物體之間的空間和時序關聯。這種方法不僅確保了推理的準確性,也提高了結果的可解釋性。
△系統性的跨幀對象追蹤示例
本研究聚焦于空間推理任務,通過“Drawing to Reason in Space”范式,將繪圖操作與多模態推理深度融合,使模型在視覺空間中“邊畫邊想”,更有效地理解和推理復雜的時空關系,顯著提升了大模型空間感知能力及推理的可解釋性與可控性。該范式為機器人導航、虛擬助手等領域的空間智能奠定了基礎,未來將繼續推動多模態推理向通用性與高效性發展。
該工作的第一作者為中科院自動化所博士生吳俊飛,目前于螞蟻技術研究院實習,螞蟻技術研究院副研究員關健為共同第一作者。
論文地址: https://arxiv.org/abs/2506.09965
代碼倉庫: https://github.com/AntResearchNLP/ViLaSR