成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首創(chuàng)像素空間推理,7B模型領(lǐng)先GPT-4o,讓VLM能像人類一樣「眼腦并用」

人工智能 新聞
來自滑鐵盧大學(xué)、港科大、中科大的研究團(tuán)隊,首次將推理戰(zhàn)場從文本空間拓展到像素空間,提出「像素空間推理」(Pixel-Space Reasoning)范式。

視覺語言模型(VLM)正經(jīng)歷從「感知」到「認(rèn)知」的關(guān)鍵躍遷。

當(dāng)OpenAI的o3系列通過「圖像思維」(Thinking with Images)讓模型學(xué)會縮放、標(biāo)記視覺區(qū)域時,我們看到了多模態(tài)交互的全新可能。

然而,當(dāng)前主流VLM仍被困在「文本繭房」中——依賴文本token間接翻譯視覺信息,在高清圖像中的微小物體、視頻里的動態(tài)細(xì)節(jié)等場景中,常常因缺乏直接視覺操作能力而「視而不見」。

來自滑鐵盧大學(xué)、港科大、中科大的研究團(tuán)隊,首次將推理戰(zhàn)場從文本空間拓展到像素空間,提出「像素空間推理」(Pixel-Space Reasoning)范式。

這項突破讓VLM能像人類一樣「眼腦并用」:通過原生視覺操作直接與視覺信息對話,在像素級精度上解鎖視覺理解的新維度。

圖片

推理模式重構(gòu):從「文本中介」到「視覺原生」

傳統(tǒng)VLM如同帶著「文本濾鏡」看世界:將圖像翻譯成文本token再推理,導(dǎo)致小字體、隱蔽物體等關(guān)鍵信息在轉(zhuǎn)換中丟失。而「像素空間推理」賦予模型「視覺手術(shù)刀」般的能力

  • 視覺主動操作:模型可自主觸發(fā)視覺變焦(放大關(guān)鍵區(qū)域)、時空標(biāo)記(定位視頻動態(tài)線索)等原生操作,在像素矩陣上直接完成「操作 - 分析 - 推斷」的閉環(huán)推理,避免了文本轉(zhuǎn)譯導(dǎo)致的信息衰減。
  • 視覺主導(dǎo)推理:視覺操作成為推理演進(jìn)的核心驅(qū)動力。例如圖例中,回答「咖啡杯 logo 品牌」時,模型先通過空間先驗定位桌面區(qū)域,再通過視覺放大逐行掃描杯身,最終在像素級精度上提取 logo 特征。這種「視覺線索引導(dǎo)推理」的機(jī)制,使模型能捕捉傳統(tǒng)方法難以處理的空間關(guān)系與動態(tài)細(xì)節(jié),尤其在具身視覺導(dǎo)航、復(fù)雜視頻理解等場景中展現(xiàn)出顯著優(yōu)勢。

圖片

這種「眼腦協(xié)同」的推理模式,打破了文本對視覺語義的「翻譯牢籠」,讓模型真正具備了與人類視覺認(rèn)知同構(gòu)的推理能力。

學(xué)習(xí)陷阱破解:好奇心激勵突破認(rèn)知惰性困局

在能力遷移過程中,研究團(tuán)隊發(fā)現(xiàn)指令微調(diào)模型仍面臨「認(rèn)知惰性」帶來的嚴(yán)峻挑戰(zhàn):成熟的文本推理能力與稚嫩的像素操作能力形成能力鴻溝,導(dǎo)致模型陷入「學(xué)習(xí)陷阱」:

1 負(fù)面反饋循環(huán):初期視覺操作的低成功率引發(fā)大量負(fù)向信號,抑制模型使用新能力的意愿;

2 路徑依賴慣性:簡單任務(wù)中模型更傾向調(diào)用已掌握的文本推理,形成「新能力退化」的惡性循環(huán)。

如同熟練的滑雪者初次嘗試沖浪,初期的失衡體驗會讓人本能回歸熟悉領(lǐng)域,而忽視新技能的長期價值。

為打破這一困境,研究團(tuán)隊設(shè)計了內(nèi)在好奇心激勵配合外在正確性激勵的強(qiáng)化學(xué)習(xí)獎懲方案。通過引入內(nèi)在激勵鼓勵模型練習(xí)視覺操作,并引導(dǎo)模型逐步挖掘「像素空間推理」的潛在價值,而非僅依賴外在的正確性獎勵。這就像幼兒學(xué)步時,對新鮮動作的內(nèi)在好奇會驅(qū)動其反復(fù)嘗試,即使每次嘗試都伴隨著跌倒。因此,研究團(tuán)隊形式化出下面的約束優(yōu)化目標(biāo)

圖片

其中包含兩個關(guān)鍵約束用于有效激發(fā)「像素空間推理」

  • 像素推理率約束(RaPR):要求模型至少以特定比率觸發(fā)像素空間推理,克服認(rèn)知惰性;
  • 操作效率約束:限制單次推理的視覺操作次數(shù),在探索與計算成本間找到平衡。

通過拉格朗日松弛等效轉(zhuǎn)化為以下的獎勵函數(shù):

圖片

其中的內(nèi)在好奇心激勵(r_curiosity)會在模型低頻觸發(fā)「像素空間推理」時提供內(nèi)在激勵,如同為探索未知領(lǐng)域的冒險者提供「勇氣加成」,降低嘗試新能力的機(jī)會成本。同時,隨著訓(xùn)練推進(jìn),好奇心獎勵會動態(tài)衰減,確保模型最終聚焦于推理效率而非獎勵投機(jī),形成「好奇驅(qū)動」到「效用驅(qū)動」的良性過渡。

圖片

性能驗證:7B 模型實現(xiàn)高效能突破

在四大視覺推理基準(zhǔn)測試中,基于Qwen2.5-VL-7B構(gòu)建的Pixel-Reasoner展現(xiàn)出碾壓級表現(xiàn):

  • V* Bench(高清圖像推理):84.3%準(zhǔn)確率,超越GPT-4o(62.8%)和Gemini-2.5-Pro(79.2%)。
  • TallyQA-Complex(復(fù)雜場景計數(shù)):73.8%準(zhǔn)確率,較基線模型提升5.1%,能精準(zhǔn)區(qū)分圖像中相似物體的數(shù)量差異。
  • InfographicsVQA(信息圖表理解):84.0%準(zhǔn)確率,在混合文本與圖表的復(fù)雜場景中,推理準(zhǔn)確率達(dá)到Gemini-2.5-Pro水平。
  • MVBench(長視頻推理):67.8%準(zhǔn)確率,通過像素空間的時空操作捕捉視頻中的關(guān)鍵視覺線索,時序推理能力領(lǐng)先GPT-4o 3.2%。

圖片

值得注意的是,僅7B參數(shù)的Pixel-Reasoner,性能全面超越27B的Gemma3等開源模型,甚至媲美部分閉源商業(yè)模型,展現(xiàn)出「小模型大能力」的高效特性。

此外,研究團(tuán)隊也進(jìn)行了細(xì)節(jié)的實驗來分析模型「認(rèn)知惰性」帶來學(xué)習(xí)新推理能力的「學(xué)習(xí)陷阱」,為如何有效培養(yǎng)模型全新推理能力提供了深刻的啟示。

圖片

研究團(tuán)隊指出,像素空間推理并非對文本推理的替代,而是為VLM開啟了「第二思維通道」。當(dāng)視覺與語言雙軌并行,多模態(tài)模型才能真正理解世界的復(fù)雜性。

Pixel-Reasoner尚且是多模態(tài)推理范式的初步探索。從「看山是山」到「見微知著」,隨著多模態(tài)推理能力的進(jìn)一步發(fā)展,我們正迎來一個機(jī)器能「看得更細(xì)、想得更深」的智能時代。

論文地址:https://arxiv.org/pdf/2505.15966
項目主頁:https://tiger-ai-lab.github.io/Pixel-Reasoner/
模型試玩:https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-06 12:46:16

模型數(shù)據(jù)訓(xùn)練

2024-06-11 14:30:18

2025-04-11 09:10:00

模型開源AI

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2024-12-26 07:10:00

2024-05-21 12:23:17

2025-05-30 09:10:00

2023-05-30 13:29:25

2024-09-29 13:07:16

2025-06-06 14:17:11

模型訓(xùn)練AI

2024-07-23 09:26:20

2024-06-12 11:47:37

2025-02-27 13:45:00

2025-02-17 09:35:00

ChatGPT模型AI

2024-07-16 13:24:38

2024-11-22 12:39:56

2023-09-22 11:56:57

模型駕駛

2025-06-25 08:54:03

模型訓(xùn)練AI

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩一| 午夜视频在线免费观看 | 午夜日韩精品 | 国产精品福利视频 | 久久精品国产一区 | 精品在线一区二区三区 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 久久中文字幕av | 99国产在线| 成人av免费| 久久一二区| 国产精品91久久久久久 | 欧美日韩大片 | 1级黄色大片 | 国产成人精品区一区二区不卡 | 国产视频久久久 | 欧美久久久久 | 国产日韩久久久久69影院 | 日韩精品一区二区三区中文在线 | 不卡的av电影 | 亚洲视频一区二区三区四区 | 国产精品国产精品国产专区不蜜 | 99视频在线免费观看 | 亚洲高清在线 | 欧美激情视频一区二区三区免费 | 在线黄色影院 | 亚洲一区二区在线视频 | 久久久天堂 | 日韩一级黄色毛片 | 午夜精品一区 | 午夜免费视频 | 亚洲视频在线免费 | av黄色免费| 日韩久草| 亚洲毛片一区二区 | 亚洲综合激情 | 涩涩99| 国产欧美精品一区二区 | 色悠悠久 | 亚洲精选久久 | 激情91|