純靠“腦補”圖像,大模型推理準確率狂飆80%丨劍橋谷歌新研究
不再依賴語言,僅憑圖像就能完成模型推理?
大模型又雙叒叕迎來新SOTA!
當(dāng)你和大模型一起玩超級瑪麗時,復(fù)雜環(huán)境下你會根據(jù)畫面在腦海里自動規(guī)劃步驟,但LLMs還需要先轉(zhuǎn)成文字攻略一格格按照指令移動,效率又低、信息也可能會丟失,那難道就沒有一個可以跳過“語言中介”的方法嗎?
于是來自劍橋、倫敦大學(xué)學(xué)院和谷歌的研究團隊推出了首次純粹依靠圖像進行推理的新范式——基于強化學(xué)習(xí)的視覺規(guī)劃(VPRL)。
新框架利用GRPO對大型視覺模型進行后訓(xùn)練,在多個代表性視覺導(dǎo)航任務(wù)中的性能表現(xiàn)都遠超基于文本的推理方法。
準確率高達80%,性能超文本推理至少40%,首次驗證了視覺規(guī)劃顯著優(yōu)于文本規(guī)劃,為直覺式圖像推理任務(wù)開辟了新方向。
目前相關(guān)代碼已開源,可點擊文末鏈接獲取。
以下是有關(guān)VPRL的更多細節(jié)。
VPRL更準確、更有效
現(xiàn)有的視覺推理基準都是將視覺信息映射到文本領(lǐng)域進行處理,整個推理過程都由語言模型完成。
純視覺規(guī)劃則是讓模型直接利用圖像序列,沒有中間商“賺差價”,推理效率直線UP。
由此團隊直接引入一個基于強化學(xué)習(xí)的視覺規(guī)劃訓(xùn)練框架VPRL,基于群組相對策略優(yōu)化(GRPO),利用視覺狀態(tài)之間的轉(zhuǎn)換來計算獎勵信號,同時驗證環(huán)境約束。
該框架可以分為兩個階段:
- 策略初始化
通過環(huán)境中的隨機游走軌跡初始化模型,再對每條軌跡提取圖像對,并給定輸入前綴,此外通過最小化監(jiān)督損失以鼓勵生成連貫的視覺輸出:
- 強化學(xué)習(xí)優(yōu)化
利用模型在隨機軌跡初始化后已具備的探索能力,通過生成下一視覺狀態(tài)模擬潛在動作結(jié)果,并引導(dǎo)模型執(zhí)行有效規(guī)劃。
具體來說,就是基于GRPO計算組內(nèi)相對優(yōu)勢,每個候選的相對優(yōu)勢為:
同時為引導(dǎo)模型生成更高優(yōu)勢的響應(yīng),通過最大化以下目標函數(shù)更新策略模型:
在視覺規(guī)劃框架中,核心挑戰(zhàn)始終在于生成的視覺狀態(tài)能否正確反映規(guī)劃動作的意圖,因此需要通過獎勵函數(shù)評估動作有效性(獎勵進展動作、零獎勵非進展動作、懲罰無效動作),進度獎勵函數(shù)定義為:
除了VPRL,研究團隊還選用了幾種系統(tǒng)變體作為基線,分別是基于微調(diào)的視覺規(guī)劃 (VPFT)和文本中的監(jiān)督微調(diào) (SFT),以比較基于語言和基于視覺的規(guī)劃,同時評估強化學(xué)習(xí)的作用。
VPFT與VPRL在第一階段訓(xùn)練架構(gòu)一致,但用最佳規(guī)劃軌跡取代隨機軌跡;而SFT用一個預(yù)期動作序列的文本描述取代中間視覺結(jié)果。
視覺規(guī)劃vs語言規(guī)劃
實驗搭建
為了更直觀地比較兩種規(guī)劃效果,團隊選取了三個可以完全以視覺方式表達和執(zhí)行的代表性任務(wù):
- FrozenLake智能體需從起點安全導(dǎo)航至終點,過程中需要避開冰洞。
- Maze智能體需從起點(綠點)導(dǎo)航至終點(紅旗)。
- MiniBehavior智能體需拾取打印機并放置到桌上,包含“拾取”和“放置”兩個附加動作。
在模型的選取上,選擇專門在視覺數(shù)據(jù)上訓(xùn)練的模型LVM-3B,確保預(yù)訓(xùn)練期間不接觸任何文本數(shù)據(jù)。
另外評估比較Qwen 2.5VL-Instruct在僅推理(Direct2和CoT)和訓(xùn)練后設(shè)置(SFT)兩種模式下的文本規(guī)劃效果,以及將Gemini 2.0 Flash和Gemini 2.5 Pro作為多模態(tài)推理的參考模型。
評估指標采用精確匹配率(EM)和進展率(PR),前者衡量模型是否成功生成與最優(yōu)路徑一致的完整規(guī)劃軌跡,后者則測量從開始到最優(yōu)路徑的連續(xù)正確步數(shù)與總步數(shù)的比率。
實驗結(jié)果
實驗結(jié)果表明,視覺規(guī)劃顯著優(yōu)于文本規(guī)劃。
視覺規(guī)劃(VPFT和VPRL)在所有任務(wù)上都取得了最高分,如表所示,VPRL在三個任務(wù)中平均EM高達80.6%,遠超文本基線(如Gemini 2.5 Pro平均EM為43.7%)。
在強化學(xué)習(xí)的增益上,VPRL也相比監(jiān)督基線VPFT提升超20%,尤其是在復(fù)雜任務(wù)MiniBehavior中EM更是高達75.8%。
說明通過獎勵驅(qū)動,可以幫助模型自由探索不同行動并從結(jié)果中學(xué)習(xí),從而有效提高規(guī)劃性能。
與此同時在魯棒性上,隨著網(wǎng)格尺寸增大(如FrozenLake從3×3到6×6),VPRL性能下降平緩(EM從97.6%降至82.4%),而Gemini 2.5 Pro從98.0%驟降至38.8%,充分體現(xiàn)了VPRL更強的穩(wěn)定性。
與VPFT相比,VPRL也將無效失敗率降低了24%,從而幫助模型保持在有效的動作空間內(nèi)。
綜上,實驗結(jié)果首次驗證了純視覺推理的可行性,通過研究團隊提出的新范式VPRL框架,可以在視覺導(dǎo)航任務(wù)中實現(xiàn)超越文本模型的推理性能,并展現(xiàn)出極強的泛化能力,推動多模態(tài)推理在未來朝著更直觀的圖像化方向發(fā)展。
值得一提的是,團隊成員長期致力于視覺推理研究,他們也曾研究通過多模態(tài)思維可視化(MVoT)生成視覺“思想”,以徹底改變AI推理方式,感興趣的小伙伴們可以持續(xù)關(guān)注團隊的研究進展~