小紅書Hi Lab提出DeepEyes,探索O3「Thinking with Images」能力
OpenAI 的 o3 首次將圖像直接注入推理過程,打破了傳統文字思維鏈的邊界,成為多模態推理新的里程碑。但是如何賦予模型這一能力,目前不得而知。因此,小紅書聯合西安交通大學,采用端到端強化學習,在完全不依賴監督微調(SFT)的前提下,激發了大模型“以圖深思”的潛能,構建出多模態深度思考模型 DeepEyes,首次實現了與 o3 類似的用圖像進行思考的能力,并已同步開源相關技術細節,讓“用圖像思考”不再是 OpenAI 專屬。
論文標題:
DeepEyes: Incentivizing “Thinking with lmages” via Reinforcement Learning
論文地址:
https://arxiv.org/abs/2505.14362
項目主頁:
https://visual-agent.github.io/
代碼倉庫:
https://github.com/Visual-Agent/DeepEyes
01、用圖像進行思考
近期,受到R1的啟發,出現不少多模態模型采用以文本為核心的思考方式,即“先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復雜的多模態問題。然而,這種方法存在顯著局限:一旦進入推理階段,模型無法“回看圖像”來補充或驗證細節信息,容易導致理解偏差或信息缺失。
相比較之下,更為有效的多模思考方式應是“邊看邊想”——模型在推理過程中能夠動態地調用圖像信息,結合視覺與語言的交替交互,從而增強對細節的感知與理解。這種把圖像融入思考過程不僅提升了模型應對復雜任務的靈活性,也顯著增強了其多模態理解與推理能力。
我們先簡單感受一下 DeepEyes 是如何結合圖像進行推理的!
我們使用與 OpenAI o3 官方評測中相同的圖像進行測試。測試用戶提出問題「What is written on the sign?」(牌子上寫了什么?),DeepEyes 展現出強大的“用圖像思考”的能力,整個過程可分為三步:
第一步:全局視覺分析
模型快速掃描圖像,利用自身的視覺感知能力精準鎖定畫面中的矩形牌子區域,并識別其為文字信息載體。
第二步:智能工具調用
鑒于原圖中文字區域分辨率較低,模型自主決策調用圖像縮放工具,生成邊界框并裁剪放大目標區域,使內容清晰可辨。
第三步:細節推理識別
在清晰圖像的基礎上,模型結合視覺和文本推理能力,準確識別并輸出牌子上的文字:「Ochsner URGENT CARE。」
整個流程無需依賴任何外部OCR工具,純粹通過模型內部的定位、變換和推理完成識別任務,充分展示了 DeepEyes 原生的“看圖思考”能力。
02、背景介紹
視覺語言模型(VLMs)通過采用長思維鏈(CoT)方法 ,實現了多模態的深度推理,從而能夠處理復雜任務。然而,這些模型仍主要依賴文本推理,其思維過程在很大程度上局限于語言模態。相比之下,人類推理自然地將視覺與認知相結合,通過順序性的提取信息來進行圖像化思考,這支持了更準確的感知決策,對人類早期進化中的生存至關重要。盡管最近一些研究提出了基于預定義工作流程的策略,將視覺信息納入思維鏈推理,但模塊化設計存在性能次優的問題。
OpenAI 的 o3 模型成功將視覺信息作為推理過程中的動態元素進行整合進思維鏈中。o3 將推理能力擴展至類似人類的“用圖像思考“,突破了語言模態的限制。此外,它在思維鏈(CoT)過程中以自然交織的方式結合了文本思維鏈與圖像操作工具,為測試階段的計算擴展開辟了新維度,標志著向真正多模態推理邁出的重要一步。然而,其內部機制目前仍未向開源社區公開。
在本文中,我們介紹了 DeepEyes,一種具備”用圖像思考“能力的多模態大語言模型,該能力通過端到端強化學習自然涌現,無需依賴獨立的專用模型。DeepEyes 直接由結果獎勵信號引導,從而避免了傳統方法所需的冷啟動監督微調過程。具體而言,我們將模型的視覺定位能力封裝在圖像縮放工具中,使其能夠在代理框架下主動從原始圖像中收集信息。這種方式實現了視覺與文本推理深度整合的交織多模態思維鏈(iMCoT),為多模態推理提供了新的解決方案。
我們的貢獻總結如下:
- 通過端到端強化學習,我們激勵并增強模型 ”用圖像思考“的能力,形成了交織的多模態思維鏈(iMCoT)。該方法將視覺與文本推理無縫融合,無需冷啟動監督微調(SFT),也不依賴外部獨立專用模型作為工具。
- 為更有效地促進模型的推理行為,我們結合了兩種策略:面向工具使用的數據選擇機制,以及工具使用獎勵策略。實驗結果表明,這兩個策略均對iMCoT的發展產生了顯著推動作用。
- 我們揭示了iMCoT在強化學習訓練過程中的演變動態:工具調用行為從初始的探索階段逐步發展至高效精準的工具利用階段。此外,我們還觀察到了多種推理模式的出現,包括視覺搜索、比較和驗證等。
03、方法
3.1 模型細節
DeepEyes的架構與傳統多模態推理模型一致,但在推理流程上引入了“自驅動視覺聚焦”機制。推理起始階段,模型首先基于文本內容構建初步思維鏈。例如,在判斷“手機與背包的位置關系”這一問題時,模型會生成內部推理如:“需要確定手機與背包的位置,可能需在圖像中定位相關物體”。隨后,模型根據推理進展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區域或細節不清晰的區域,模型將自主生成邊界框坐標,裁剪圖像中可能包含關鍵信息的區域(如手機和背包位置),并聚焦這些區域進行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據,與現有文本推理共同作用,驅動后續推理過程更加準確、具備視覺上下文感知能力。
與以往基于工作流程或純文本推理的研究相比,我們的 iMCoT 具有以下顯著優勢:
- 訓練簡潔性。iMCoT 僅需問答對即可訓練,大幅降低了數據收集的復雜性。相比之下,以往基于工作流程的方法依賴大量難以獲取的監督微調(SFT)數據。
- 更強的泛化能力。iMCoT 通過強化學習動態學習跨任務的最優推理流程,展現出卓越的泛化能力。而基于工作流程的模型則受限于任務特定的人工設計約束,難以適應新任務。
- 統一端到端優化。通過端到端訓練,iMCoT 實現了各個組件的聯合優化,確保了全局性能最優。這優于傳統方法中各組件單獨優化導致的次優性能。
- 深度多模態融合。iMCoT 自然地交織視覺與文本信息,實現了視覺元素與文本推理的無縫結合,從而支持更精準的感知決策過程。
- 原生工具調用能力。"用圖像思考"作為模型的原生能力,使工具利用的效率和準確性可以直接優化,這是傳統推理范式無法實現的突破。
3.2 端到端強化學習
在多模態環境中,稀疏且以結果為導向的獎勵信號對于引導視覺語言模型進行有效推理和決策至關重要。由于中間視覺動作缺乏步驟級監督,我們設計了一種基于最終結果質量和條件性工具使用的獎勵公式來評估推理軌跡。
我們的獎勵由三個核心組件構成:準確性獎勵、格式獎勵 和 條件性工具使用獎勵 。準確性獎勵評估最終答案的正確性,格式獎勵對結構混亂的輸出實施懲罰,而工具使用獎勵則僅在兩個條件同時滿足時觸發:模型生成正確答案,且在推理過程中至少調用一次工具。
形式上,給定推理軌跡 τ,總獎勵定義為:
其中 為指示函數,僅當 時取值為 1。
我們發現,直接對模型的工具使用行為進行獎勵是促進感知驅動推理的關鍵,且將工具獎勵與正確結果綁定的設計至關重要。這種條件性獎勵機制鼓勵模型在工具能實質性助力任務完成時進行有意義的調用,而非將其作為隨意或冗余的操作。
3.3 訓練數據
我們的數據收集遵循三個基本原則:(1) 多樣化的任務和圖像分布。我們納入各種數據,以增強我們的 iMCoT 的泛化能力。(2) 工具有效性。我們選擇那些使用工具能顯著提高準確性的場景。(3) 推理能力提升。我們精心挑選能有效提高模型推理能力的數據。因此,我們的訓練數據集由三個互補的部分組成:細粒度數據、圖表數據和推理數據。細粒度數據選自 V? 訓練集的一部分,專注于高分辨率圖像和詳細的感知問題,以最大限度地發揮工具的有效性。來自 ArxivQA 的圖表數據包含合成圖表和圖形圖像,豐富了視覺元素的多樣性。對于推理數據,我們整合了 ThinkLite-VL 數據集,以拓寬任務多樣性并強化模型的推理能力。
我們提出了一種以工具使用為導向的數據選擇策略,包含四個關鍵步驟:(1) 難度管理:我們利用 Qwen2.5-VL-7B 為每個問題生成 8 個回答,并根據準確率估計難度。準確率為 0 或 1 的樣本將被排除,因為它們要么太難,要么太基礎。(2) 問題格式構建:我們將原始問題重組為開放式格式,并排除無法可靠轉換的問題。(3) 可驗證性驗證:我們剔除無法正確驗證的數據,例如答案錯誤或錯誤的問題。(4) 工具整合促進:我們實施額外的過濾步驟,優先選擇通過調用工具能獲得更高信息增益的樣本。我們特別選擇那些模型在單輪交互中回答錯誤,但利用真實裁剪區域后能得出正確結果的實例,突顯視覺工具使用最有益的場景。具體來說,圖表數據無需經過工具整合過濾過程,而推理數據保持其原始形式,因為它已經過嚴格處理。通過這種全面的選擇策略,我們精心策劃了一個高質量數據集,專門針對開發和增強工具感知視覺推理能力進行了優化。
04、實驗
4.1 模型性能
我們在高分辨率數據集上和之前的工作進行比較,我們的 DeepEyes 在視覺搜索任務中展現出領先優勢。在 V* Bench 上取得了 90.1 的準確率,在 HR-Bench 上也大幅超越現有的基于工作流的方法,在 4K 和 8K 測試集上分別獲得了 75.1 和 72.6 的性能。另外,DeepEyes-7B 模型在視覺搜索任務中顯出高于Qwen-VL 32B模型,這也進一步說明了構建用圖像思考能力的必要性。 此外,DeepEyes 在視覺定位、幻覺以及數學推理任務上也優于之前的模型,證明了我們的 iMCoT 的有效性。
4.2 訓練動態
為了更深入地了解模型在端到端強化學習過程中模型與工具的交互的行為變化,我們對其演化路徑進行了詳細分析。我們發現模型的工具經歷了三個明顯的階段演變,每個階段都反映了工具與推理能力的不同整合水平。
- 階段 1:初始工具探索期(步驟 0 - 20)在學習初期,模型僅根據系統提示被動調用工具,缺乏明確的使用策略。這一階段特征鮮明:工具調用頻率與響應長度均顯著增加,表明模型處于純粹的探索行為模式。盡管工具使用頻繁,但較低的定位準確了反映出模型尚未能有效將檢索信息與視覺上下文關聯起來。模型主要通過試錯方式,在沒有外部引導的情況下探索工具功能。值得注意的是,在步驟8至20期間,隨著模型掌握基本工具技能,響應長度開始大幅減少,冗長的圖像描述和工具意圖陳述也逐漸精簡。
- 階段 2:高頻工具使用期(步驟 20 - 45)進入第二階段,模型開始積極頻繁地調用工具,試圖通過最大化工具使用來提升答案正確性和獲取獎勵。這種"廣泛搜索"策略在所有關鍵性能指標上帶來顯著提升,包括定位和回答的準確率。較長的響應文本和高頻的工具調用表明,模型選擇將視覺推理過程外部化,而非依賴內部推理能力。這一階段反映了模型已開始認識到工具的價值,但尚未形成高效的使用模式,處于工具認知的過渡期。
- 階段 3:高效工具整合期(步驟 45 - 80)在最終階段,模型轉向更具選擇性和精確性的工具使用方式。它能夠在維持高定位精度和任務準確率的同時,顯著降低工具調用頻率和響應長度。這表明模型已內化了一種更為精煉的視覺語言策略——工具不再作為"輔助拐杖",而是成為一種戰略性資源,僅在必要時才被調用。較高的定位IoU與較少的工具調用共同反映出模型已發展出隱含的規劃機制:首先在內部縮小可能的視覺關注范圍,然后選擇性地利用工具來驗證或優化其判斷。
這一從廣泛探索到精準利用的演變過程,展示了模型通過端到端訓練逐步學習優化工具使用以獲取最大獎勵的能力。工具使用已成功融入模型的核心推理流程,與其整體策略協同進化。這些發現凸顯了工具增強型視覺語言模型在構建可擴展、可解釋的多模態推理系統方面的巨大潛力。
05、總結
我們提出了 DeepEyes,一種創新的視覺語言模型,能夠通過端到端強化學習將視覺輸入與文本推理無縫整合,形成內在的多模態思維 (iMCoT)。與現有方法的根本區別在于,DeepEyes既無需依賴合成的推理軌跡,也不需要調用外部專門模型來實現這種復雜的推理行為。為引導模型發展高質量的推理能力,我們設計了專注于工具使用的精確數據選擇機制和獎勵策略體系,有效促進了模型在工具輔助環境中的問題解決能力。通過訓練過程的追蹤分析,我們觀察到模型對工具的使用模式經歷了顯著演變——從初始階段的隨機探索,逐步發展為高度策略化的精準利用。這一進化過程伴隨著模型整體準確性的提升和視覺注意力焦點的明顯改善。DeepEyes 成功展現出多種復雜的推理行為模式,包括系統化的視覺搜索和精細的視覺對比分析。尤為值得注意的是,即使僅使用一個7B參數規模的基礎模型,DeepEyes 在多個視覺語言理解基準測試中仍然取得了具有競爭力的表現,證明了我們方法的有效性和效率。
06、作者簡介
Jack Hong
小紅書 hi lab 團隊算法實習生,主要研究方向是多模態、大語言模型推理、以及計算機視覺。
楓原
小紅書hi lab團隊算法工程師,主要研究方向是強化學習。
國海
小紅書hi lab團隊算法工程師,主要研究方向是大語言模型和多模態模型對齊。