空間智能覺(jué)醒！螞蟻ViLaSR-7B突破人類思維屏障，讓大模型首次具備人類空間思維能力！原創(chuàng)

發(fā)布于 2025-6-23 20:32

瀏覽

0收藏

當(dāng)AI在測(cè)量手機(jī)尺寸時(shí)，不是依賴像素計(jì)算，而是主動(dòng)尋找顯示器作為參考物進(jìn)行比例換算；面對(duì)迷宮導(dǎo)航任務(wù)，它像人類一樣在圖像上繪制輔助線和標(biāo)記框，動(dòng)態(tài)追蹤空間關(guān)系。這是螞蟻技術(shù)研究院聯(lián)合中科院自動(dòng)化所、香港中文大學(xué)開(kāi)源的ViLaSR-7B模型展現(xiàn)的類人空間推理能力。
?
空間智能覺(jué)醒！螞蟻ViLaSR-7B突破人類思維屏障，讓大模型首次具備人類空間思維能力！-AI.x社區(qū)
?

這項(xiàng)突破標(biāo)志著大模型首次跨越了抽象語(yǔ)義理解與具象空間認(rèn)知的鴻溝，在五大空間推理基準(zhǔn)上實(shí)現(xiàn)性能躍升，與谷歌Gemini-1.5 Pro旗鼓相當(dāng)。
?
長(zhǎng)久以來(lái)，傳統(tǒng)視覺(jué)語(yǔ)言模型（LVLM）受困于“視覺(jué)轉(zhuǎn)文本”的推理范式：將圖像壓縮為token序列后交由語(yǔ)言模型處理，導(dǎo)致空間信息在編碼階段大量丟失。當(dāng)處理迷宮方向判斷或多視角物體關(guān)聯(lián)任務(wù)時(shí)，模型常因混淆空間關(guān)系而失敗。
?
OpenAI今年4月發(fā)布的o3/o4-mini模型雖通過(guò)“Thinking with Images”范式（主動(dòng)裁剪/旋轉(zhuǎn)圖像輔助推理）取得進(jìn)展，但其閉源特性限制了生態(tài)發(fā)展。
?
ViLaSR-7B的創(chuàng)新在于提出“Drawing to Reason in Space”（空間繪圖推理）機(jī)制，讓模型在推理過(guò)程中動(dòng)態(tài)繪制邊界框、參考線和跨幀標(biāo)記，引導(dǎo)視覺(jué)編碼器聚焦關(guān)鍵空間特征。這種邊看邊畫(huà)、邊畫(huà)邊想的交互模式，模擬了人類解決空間問(wèn)題時(shí)用草圖輔助思考的本能行為，顯著提升了時(shí)空信息的保留效率。
?
實(shí)現(xiàn)這一突破的核心是三階段訓(xùn)練框架的系統(tǒng)化培養(yǎng)方案：

冷啟動(dòng)訓(xùn)練利用合成數(shù)據(jù)教會(huì)模型基礎(chǔ)繪圖操作（如標(biāo)注邊界框），建立視覺(jué)空間認(rèn)知的“肌肉記憶”；
反思拒絕采樣階段引入自我修正機(jī)制——模型生成多條推理路徑后，篩選出主動(dòng)修改錯(cuò)誤標(biāo)注的高質(zhì)量樣本進(jìn)行強(qiáng)化訓(xùn)練，培養(yǎng)“發(fā)現(xiàn)并修正誤判”的反思能力；
強(qiáng)化學(xué)習(xí)階段則通過(guò)雙獎(jiǎng)勵(lì)函數(shù)（結(jié)果準(zhǔn)確性+邏輯合理性）優(yōu)化操作效率，避免冗余繪圖。消融實(shí)驗(yàn)證明，移除反思機(jī)制會(huì)使模型推理步驟減少23%，而缺乏強(qiáng)化學(xué)習(xí)將導(dǎo)致繪圖操作激增。
?
這一進(jìn)展恰逢空間智能研究的關(guān)鍵爆發(fā)期。李飛飛、謝賽寧團(tuán)隊(duì)去年末發(fā)布的VSI-Bench基準(zhǔn)（涵蓋288個(gè)真實(shí)場(chǎng)景視頻、5000+問(wèn)答對(duì)）首次量化了AI的空間認(rèn)知缺陷：在物體相對(duì)方向、距離估計(jì)等任務(wù)中，15個(gè)主流MLLM的**錯(cuò)誤率高達(dá)71%源于空間推理短板，而非視覺(jué)識(shí)別或語(yǔ)言理解。
?
更值得注意的是，研究揭示大模型在空間記憶時(shí)僅形成碎片化的局部世界模型而非統(tǒng)一全局認(rèn)知，且傳統(tǒng)語(yǔ)言提示技術(shù)（如思維鏈CoT）反而損害其空間表現(xiàn)——這與語(yǔ)義推理任務(wù)形成鮮明對(duì)比。上海交大團(tuán)隊(duì)今年5月推出的SpatialScore評(píng)測(cè)體系進(jìn)一步整合11項(xiàng)數(shù)據(jù)集，證明當(dāng)前模型在深度估計(jì)、相機(jī)運(yùn)動(dòng)分析等幾何感知任務(wù)中仍舉步維艱。
?
ViLaSR-7B的突破不僅是技術(shù)里程碑，更是AI理解物理世界的臨界點(diǎn)。當(dāng)模型能主動(dòng)構(gòu)建空間心智表征，機(jī)器人導(dǎo)航、AR交互、工業(yè)檢測(cè)等場(chǎng)景將迎來(lái)質(zhì)變。隨著“繪圖推理”范式與VSI-Bench等評(píng)估工具的雙輪驅(qū)動(dòng)，AI終于開(kāi)始用人類的視角丈量世界——從識(shí)別物體到理解空間，這場(chǎng)感知革命才剛剛開(kāi)始。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

回復(fù)