OpenAI未公開的o3「用圖思考」技術(shù),被小紅書、西安交大嘗試實(shí)現(xiàn)了
OpenAI 推出的 o3 推理模型,打破了傳統(tǒng)文字思維鏈的邊界 —— 多模態(tài)模型首次實(shí)現(xiàn)將圖像直接融入推理過程。它不僅 “看圖”,還能 “用圖思考”,開啟了視覺與文本推理深度融合的問題求解方式。例如,面對(duì)一張物理試卷圖像,o3 能自動(dòng)聚焦公式區(qū)域,分析變量關(guān)系,并結(jié)合知識(shí)庫推導(dǎo)出答案;在解析建筑圖紙時(shí),o3 可在推理過程中旋轉(zhuǎn)或裁剪局部結(jié)構(gòu),判斷承重設(shè)計(jì)是否合理。這種 “Thinking with Images” 的能力,使 o3 在視覺推理基準(zhǔn)測(cè)試 V* Bench 上準(zhǔn)確率飆升至 95.7%,刷新了多模態(tài)模型的推理上限。
然而,OpenAI 如何賦予 o3 這一能力,學(xué)界和工業(yè)界仍不得而知。為此,小紅書團(tuán)隊(duì)聯(lián)合西安交通大學(xué),采用端到端強(qiáng)化學(xué)習(xí),在完全不依賴監(jiān)督微調(diào)(SFT)的前提下,激發(fā)了大模型 “以圖深思” 的潛能,構(gòu)建出多模態(tài)深度思考模型 DeepEyes,首次實(shí)現(xiàn)了與 o3 類似的用圖像進(jìn)行思考的能力,并已同步開源相關(guān)技術(shù)細(xì)節(jié),讓 “用圖像思考” 不再是 OpenAI 專屬。
- 論文地址:https://arxiv.org/abs/2505.14362
- 項(xiàng)目地址:https://visual-agent.github.io/
- Github 地址:https://github.com/Visual-Agent/DeepEyes
用圖像進(jìn)行思考
近期,受到 R1 的啟發(fā),出現(xiàn)不少多模態(tài)模型采用以文本為核心的思考方式,即 “先看后想”—— 模型先觀察圖像,再通過純文本推理來解決復(fù)雜的多模態(tài)問題。然而,這種方法存在顯著局限:一旦進(jìn)入推理階段,模型無法 “回看圖像” 來補(bǔ)充或驗(yàn)證細(xì)節(jié)信息,容易導(dǎo)致理解偏差或信息缺失。
相比較之下,更為有效的多模思考方式應(yīng)是 “邊看邊想”—— 模型在推理過程中能夠動(dòng)態(tài)地調(diào)用圖像信息,結(jié)合視覺與語言的交替交互,從而增強(qiáng)對(duì)細(xì)節(jié)的感知與理解。這種把圖像融入思考過程不僅提升了模型應(yīng)對(duì)復(fù)雜任務(wù)的靈活性,也顯著增強(qiáng)了其多模態(tài)理解與推理能力。
我們先簡(jiǎn)單感受一下 DeepEyes 和 o3 是如何結(jié)合圖像進(jìn)行推理的!
DeepEyes 與 o3 的推理流程對(duì)比
我們使用與 OpenAI o3 官方評(píng)測(cè)中相同的圖像進(jìn)行測(cè)試。測(cè)試用戶提出問題 “What is written on the sign?”(牌子上寫了什么?),DeepEyes 展現(xiàn)出與 o3 類似的 “用圖像思考” 的能力,整個(gè)過程可分為三步:
第一步:全局視覺分析
模型快速掃描圖像,利用自身的視覺感知能力精準(zhǔn)鎖定畫面中的矩形牌子區(qū)域,并識(shí)別其為文字信息載體。
第二步:智能工具調(diào)用
鑒于原圖中文字區(qū)域分辨率較低,模型自主決策調(diào)用圖像縮放工具,生成邊界框并裁剪放大目標(biāo)區(qū)域,使內(nèi)容清晰可辨。
第三步:細(xì)節(jié)推理識(shí)別
在清晰圖像的基礎(chǔ)上,模型結(jié)合視覺和文本推理能力,準(zhǔn)確識(shí)別并輸出牌子上的文字:Ochsner URGENT CARE。
整個(gè)流程無需依賴任何外部 OCR 工具,純粹通過模型內(nèi)部的定位、變換和推理完成識(shí)別任務(wù),充分展示了 DeepEyes 原生的 “看圖思考” 能力。
DeepEyes:激發(fā)模型原生的用圖像思考能力
一、模型結(jié)構(gòu)
DeepEyes 的架構(gòu)與傳統(tǒng)多模態(tài)推理模型一致,但在推理流程上引入了 “自驅(qū)動(dòng)視覺聚焦” 機(jī)制。推理起始階段,模型首先基于文本內(nèi)容構(gòu)建初步思維鏈。例如,在判斷 “手機(jī)與背包的位置關(guān)系” 這一問題時(shí),模型會(huì)生成內(nèi)部推理如:“需要確定手機(jī)與背包的位置,可能需在圖像中定位相關(guān)物體”。隨后,模型根據(jù)推理進(jìn)展判斷是否需要圖像輔助信息。若問題涉及小物體、模糊區(qū)域或細(xì)節(jié)不清晰的區(qū)域,模型將自主生成邊界框坐標(biāo),裁剪圖像中可能包含關(guān)鍵信息的區(qū)域(如手機(jī)和背包位置),并聚焦這些區(qū)域進(jìn)行深入分析。裁剪圖像隨后以自回歸方式重新輸入模型,作為新的視覺證據(jù),與現(xiàn)有文本推理共同作用,驅(qū)動(dòng)后續(xù)推理過程更加準(zhǔn)確、具備視覺上下文感知能力。
二、如何獲得用圖像進(jìn)行思考的能力?從生物進(jìn)化的角度進(jìn)行思考
直觀來看,如果希望模型掌握利用工具進(jìn)行圖像分析的能力,就應(yīng)提前準(zhǔn)備一批調(diào)用工具的思維鏈數(shù)據(jù),并通過監(jiān)督微調(diào)(SFT)逐步訓(xùn)練模型,從模仿過渡到真正掌握這種能力。不少多模態(tài)模型會(huì)采用「先監(jiān)督,后強(qiáng)化」的訓(xùn)練路徑:先用推理數(shù)據(jù)進(jìn)行冷啟動(dòng),讓模型 “學(xué)會(huì)思考”,再通過強(qiáng)化學(xué)習(xí)(RL)提升其推理上限。
不過,這種能力形成的路徑與生物進(jìn)化迥異。例如,生活在約 3.75 億年前的提塔利克魚是魚類向陸生脊椎動(dòng)物演化的關(guān)鍵過渡物種。它并非通過模仿其他生物在陸地上的行為獲得生存能力,而是在水陸環(huán)境差異巨大、舊能力難以應(yīng)對(duì)新環(huán)境時(shí),原生出一種全新的適應(yīng)機(jī)制 [Nature. 440 (7085): 757–763]。
類比來看,如果將大模型視作一種 “生物”,是否也能在訓(xùn)練環(huán)境和獎(jiǎng)勵(lì)結(jié)構(gòu)發(fā)生巨大變化時(shí),像提塔利克魚一樣,激發(fā)出原本不具備的新能力?
三、基于 outcome-based 獎(jiǎng)勵(lì)的端到端強(qiáng)化學(xué)習(xí)策略
受提塔利克魚進(jìn)化機(jī)制的啟發(fā),我們?cè)O(shè)計(jì)了一套具備難度差異的數(shù)據(jù)集,用于有效激發(fā)大模型的工具使用能力。數(shù)據(jù)篩選和構(gòu)建遵循以下三項(xiàng)原則:(1)剔除過難或過易的問題;(2)優(yōu)先選取通過圖像分析工具可以顯著提升信息增益的樣本;(3)補(bǔ)充傳統(tǒng)推理數(shù)據(jù),以維持圖像領(lǐng)域的推理能力。數(shù)據(jù)集的構(gòu)建細(xì)節(jié)可參考原文及代碼實(shí)現(xiàn)。
在這套具備難度與獎(jiǎng)勵(lì)差異的數(shù)據(jù)集上,我們發(fā)現(xiàn),即使不經(jīng)過 SFT 冷啟動(dòng),僅依賴端到端的強(qiáng)化學(xué)習(xí),也能有效激發(fā)模型的調(diào)用工具進(jìn)行圖像推理的能力。具體來說,DeepEyes 使用了如下的 outcome-based 獎(jiǎng)勵(lì)函數(shù):
獎(jiǎng)勵(lì)函數(shù)分為準(zhǔn)確率獎(jiǎng)勵(lì),格式獎(jiǎng)勵(lì),以及條件工具獎(jiǎng)勵(lì)。準(zhǔn)確率獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)與 R1 的獎(jiǎng)勵(lì)類似,而條件工具獎(jiǎng)勵(lì)則是只有當(dāng)模型正確回答且正確使用工具才會(huì)給予額外的獎(jiǎng)勵(lì),指導(dǎo)模型在必要時(shí)候使用工具。
在上述獎(jiǎng)勵(lì)函數(shù)的激勵(lì)下,DeepEyes 將在學(xué)習(xí)用圖像推理的過程中,從最開始的「盲目嘗試」,再到后期的「有效調(diào)用」,呈現(xiàn)出了與人類類似的學(xué)習(xí)模式。具體而言,學(xué)習(xí)過程可以分為三個(gè)階段:
1. 懵懂期(前 20 步):DeepEyes 像新手一樣亂點(diǎn)屏幕,隨便框選區(qū)域,結(jié)果十次有九次「瞄錯(cuò)地方」,準(zhǔn)確率較差;
2. 探索期(20-45 步):DeepEyes 開啟「廣撒網(wǎng)模式」,瘋狂調(diào)用工具縮放各種區(qū)域,雖然準(zhǔn)確率提升,但像「多動(dòng)癥患者」一樣生成冗長響應(yīng);
3. 成熟期(45 步后):DeepEyes 突然「開悟」,學(xué)會(huì)先在腦子里「預(yù)判」關(guān)鍵區(qū)域,再精準(zhǔn)縮放驗(yàn)證,工具調(diào)用次數(shù)不斷減少,準(zhǔn)確率卻持續(xù)提升。
DeepEyes 性能評(píng)估
DeepEyes 在多個(gè)測(cè)試集上表現(xiàn)出色,尤其在視覺搜索任務(wù)中展現(xiàn)出領(lǐng)先優(yōu)勢(shì)。在 V* Bench 上取得了 90.1 的準(zhǔn)確率,在 HR-Bench 上也大幅超越現(xiàn)有的基于工作流的方法。另外,DeepEyes 7B 模型在視覺搜索任務(wù)中顯出高于 Qwen-VL 32B 模型,這也進(jìn)一步說明了構(gòu)建用圖像思考能力的必要性。
值得一提的是,DeepEyes 在無需調(diào)用任何外部工具的情況下,便具備出色的圖像定位與理解能力,這些能力完全由模型自身學(xué)習(xí)獲得。同時(shí),當(dāng)需要更高精度時(shí),DeepEyes 也可以選擇調(diào)用工具對(duì)圖像細(xì)節(jié)進(jìn)行確認(rèn),從而在降低幻覺方面取得改進(jìn)。
此外,除了視覺感知,DeepEyes 的數(shù)學(xué)推理能力也有明顯提升,展現(xiàn)出多模態(tài)模型在跨任務(wù)能力上的潛力。
DeepEyes 的獨(dú)特優(yōu)勢(shì)
與傳統(tǒng)的基于工作流或純文本推理的模型相比,DeepEyes 具備以下關(guān)鍵優(yōu)勢(shì):
1. 訓(xùn)練更簡(jiǎn)潔:傳統(tǒng)方法依賴大量難以構(gòu)建的 SFT 數(shù)據(jù),而 DeepEyes 僅需問答對(duì)即可訓(xùn)練,大幅降低數(shù)據(jù)獲取門檻。
2. 更強(qiáng)泛化能力:基于工作流的模型受限于人工規(guī)則設(shè)計(jì),適用范圍有限。DeepEyes 通過端到端強(qiáng)化學(xué)習(xí),能在不同任務(wù)中動(dòng)態(tài)選擇推理路徑,展現(xiàn)出跨任務(wù)泛化能力。
3. 端到端聯(lián)合優(yōu)化:工作流方法通常對(duì)各子模塊獨(dú)立優(yōu)化,容易陷入次優(yōu)。DeepEyes 通過端到端強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)全局聯(lián)合優(yōu)化,顯著提升整體性能。
4. 深度多模態(tài)融合:相比純文本推理,DeepEyes 構(gòu)建融合視覺與文本的思維鏈,在推理過程中動(dòng)態(tài)交織圖像與語言信息,提升感知與決策精度。
5. 原生工具調(diào)用能力:DeepEyes 依靠?jī)?nèi)生視覺定位能力而非外部工具,能原生執(zhí)行 “圖像思考” 流程。工具使用過程可被直接優(yōu)化,實(shí)現(xiàn)更高效、更準(zhǔn)確的圖像輔助推理,這是傳統(tǒng)外部調(diào)用方法所不具備的能力。
結(jié)語
DeepEyes 展示了多模態(tài)推理模型的新范式:無需依賴復(fù)雜工作流或大規(guī)模監(jiān)督數(shù)據(jù),通過端到端強(qiáng)化學(xué)習(xí),即可實(shí)現(xiàn)視覺與文本深度融合、原生工具調(diào)用和動(dòng)態(tài)推理路徑選擇。它不僅降低了訓(xùn)練門檻,還顯著提升了泛化能力和整體性能。在多個(gè)視覺推理任務(wù)中,DeepEyes 已成功展現(xiàn)出與 OpenAI o3 相當(dāng)?shù)?“圖像思考” 能力,為開放世界的多模態(tài)智能探索提供了切實(shí)可行的新路徑。
作者介紹
本文作者來自小紅書和西安交通大學(xué),其中鄭子維、Michael Yang、Jack Hong 和 Chenxiao Zhao 為共同一作,排名不分先后。鄭子維,就讀于西安交通大學(xué),主要研究方向是 VLM Reasoning、Agent 以及視頻理解;Michael Yang 的研究方向是 RL、LLM Reasoning 以及 Agent;Jack Hong 的研究方向?yàn)槎嗄B(tài)大模型、LLM Reasoning 以及計(jì)算機(jī)視覺;Chenxiao Zhao 是小紅書 Hi Lab 算法研究員,主要研究方向是 RL。該工作是鄭子維、Michael Yang 和 Jack Hong 在小紅書實(shí)習(xí)期間完成。