空間智能覺(jué)醒!螞蟻ViLaSR-7B突破人類思維屏障,讓大模型首次具備人類空間思維能力! 原創(chuàng)
當(dāng)AI在測(cè)量手機(jī)尺寸時(shí),不是依賴像素計(jì)算,而是主動(dòng)尋找顯示器作為參考物進(jìn)行比例換算;面對(duì)迷宮導(dǎo)航任務(wù),它像人類一樣在圖像上繪制輔助線和標(biāo)記框,動(dòng)態(tài)追蹤空間關(guān)系。這是螞蟻技術(shù)研究院聯(lián)合中科院自動(dòng)化所、香港中文大學(xué)開(kāi)源的ViLaSR-7B模型展現(xiàn)的類人空間推理能力。
?
?
這項(xiàng)突破標(biāo)志著大模型首次跨越了抽象語(yǔ)義理解與具象空間認(rèn)知的鴻溝,在五大空間推理基準(zhǔn)上實(shí)現(xiàn)性能躍升,與谷歌Gemini-1.5 Pro旗鼓相當(dāng)。
?
長(zhǎng)久以來(lái),傳統(tǒng)視覺(jué)語(yǔ)言模型(LVLM)受困于“視覺(jué)轉(zhuǎn)文本”的推理范式:將圖像壓縮為token序列后交由語(yǔ)言模型處理,導(dǎo)致空間信息在編碼階段大量丟失。當(dāng)處理迷宮方向判斷或多視角物體關(guān)聯(lián)任務(wù)時(shí),模型常因混淆空間關(guān)系而失敗。
?
OpenAI今年4月發(fā)布的o3/o4-mini模型雖通過(guò)“Thinking with Images”范式(主動(dòng)裁剪/旋轉(zhuǎn)圖像輔助推理)取得進(jìn)展,但其閉源特性限制了生態(tài)發(fā)展。
?
ViLaSR-7B的創(chuàng)新在于提出“Drawing to Reason in Space”(空間繪圖推理)機(jī)制,讓模型在推理過(guò)程中動(dòng)態(tài)繪制邊界框、參考線和跨幀標(biāo)記,引導(dǎo)視覺(jué)編碼器聚焦關(guān)鍵空間特征。這種邊看邊畫(huà)、邊畫(huà)邊想的交互模式,模擬了人類解決空間問(wèn)題時(shí)用草圖輔助思考的本能行為,顯著提升了時(shí)空信息的保留效率。
?
實(shí)現(xiàn)這一突破的核心是三階段訓(xùn)練框架的系統(tǒng)化培養(yǎng)方案:
- 冷啟動(dòng)訓(xùn)練利用合成數(shù)據(jù)教會(huì)模型基礎(chǔ)繪圖操作(如標(biāo)注邊界框),建立視覺(jué)空間認(rèn)知的“肌肉記憶”;
- 反思拒絕采樣階段引入自我修正機(jī)制——模型生成多條推理路徑后,篩選出主動(dòng)修改錯(cuò)誤標(biāo)注的高質(zhì)量樣本進(jìn)行強(qiáng)化訓(xùn)練,培養(yǎng)“發(fā)現(xiàn)并修正誤判”的反思能力;
- 強(qiáng)化學(xué)習(xí)階段則通過(guò)雙獎(jiǎng)勵(lì)函數(shù)(結(jié)果準(zhǔn)確性+邏輯合理性)優(yōu)化操作效率,避免冗余繪圖。消融實(shí)驗(yàn)證明,移除反思機(jī)制會(huì)使模型推理步驟減少23%,而缺乏強(qiáng)化學(xué)習(xí)將導(dǎo)致繪圖操作激增。
?
這一進(jìn)展恰逢空間智能研究的關(guān)鍵爆發(fā)期。李飛飛、謝賽寧團(tuán)隊(duì)去年末發(fā)布的VSI-Bench基準(zhǔn)(涵蓋288個(gè)真實(shí)場(chǎng)景視頻、5000+問(wèn)答對(duì))首次量化了AI的空間認(rèn)知缺陷:在物體相對(duì)方向、距離估計(jì)等任務(wù)中,15個(gè)主流MLLM的**錯(cuò)誤率高達(dá)71%源于空間推理短板,而非視覺(jué)識(shí)別或語(yǔ)言理解。
?
更值得注意的是,研究揭示大模型在空間記憶時(shí)僅形成碎片化的局部世界模型而非統(tǒng)一全局認(rèn)知,且傳統(tǒng)語(yǔ)言提示技術(shù)(如思維鏈CoT)反而損害其空間表現(xiàn)——這與語(yǔ)義推理任務(wù)形成鮮明對(duì)比。上海交大團(tuán)隊(duì)今年5月推出的SpatialScore評(píng)測(cè)體系進(jìn)一步整合11項(xiàng)數(shù)據(jù)集,證明當(dāng)前模型在深度估計(jì)、相機(jī)運(yùn)動(dòng)分析等幾何感知任務(wù)中仍舉步維艱。
?
ViLaSR-7B的突破不僅是技術(shù)里程碑,更是AI理解物理世界的臨界點(diǎn)。當(dāng)模型能主動(dòng)構(gòu)建空間心智表征,機(jī)器人導(dǎo)航、AR交互、工業(yè)檢測(cè)等場(chǎng)景將迎來(lái)質(zhì)變。隨著“繪圖推理”范式與VSI-Bench等評(píng)估工具的雙輪驅(qū)動(dòng),AI終于開(kāi)始用人類的視角丈量世界——從識(shí)別物體到理解空間,這場(chǎng)感知革命才剛剛開(kāi)始。
