成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

空間智能覺(jué)醒!螞蟻ViLaSR-7B突破人類思維屏障,讓大模型首次具備人類空間思維能力! 原創(chuàng)

發(fā)布于 2025-6-23 20:32
瀏覽
0收藏

當(dāng)AI在測(cè)量手機(jī)尺寸時(shí),不是依賴像素計(jì)算,而是主動(dòng)尋找顯示器作為參考物進(jìn)行比例換算;面對(duì)迷宮導(dǎo)航任務(wù),它像人類一樣在圖像上繪制輔助線和標(biāo)記框,動(dòng)態(tài)追蹤空間關(guān)系。這是螞蟻技術(shù)研究院聯(lián)合中科院自動(dòng)化所、香港中文大學(xué)開(kāi)源的ViLaSR-7B模型展現(xiàn)的類人空間推理能力。
?
空間智能覺(jué)醒!螞蟻ViLaSR-7B突破人類思維屏障,讓大模型首次具備人類空間思維能力!-AI.x社區(qū)
?

這項(xiàng)突破標(biāo)志著大模型首次跨越了抽象語(yǔ)義理解與具象空間認(rèn)知的鴻溝,在五大空間推理基準(zhǔn)上實(shí)現(xiàn)性能躍升,與谷歌Gemini-1.5 Pro旗鼓相當(dāng)。
?
長(zhǎng)久以來(lái),傳統(tǒng)視覺(jué)語(yǔ)言模型(LVLM)受困于“視覺(jué)轉(zhuǎn)文本”的推理范式:將圖像壓縮為token序列后交由語(yǔ)言模型處理,導(dǎo)致空間信息在編碼階段大量丟失。當(dāng)處理迷宮方向判斷或多視角物體關(guān)聯(lián)任務(wù)時(shí),模型常因混淆空間關(guān)系而失敗。
?
OpenAI今年4月發(fā)布的o3/o4-mini模型雖通過(guò)“Thinking with Images”范式(主動(dòng)裁剪/旋轉(zhuǎn)圖像輔助推理)取得進(jìn)展,但其閉源特性限制了生態(tài)發(fā)展。
?
ViLaSR-7B的創(chuàng)新在于提出“Drawing to Reason in Space”(空間繪圖推理)機(jī)制,讓模型在推理過(guò)程中動(dòng)態(tài)繪制邊界框、參考線和跨幀標(biāo)記,引導(dǎo)視覺(jué)編碼器聚焦關(guān)鍵空間特征。這種邊看邊畫(huà)、邊畫(huà)邊想的交互模式,模擬了人類解決空間問(wèn)題時(shí)用草圖輔助思考的本能行為,顯著提升了時(shí)空信息的保留效率。
?
實(shí)現(xiàn)這一突破的核心是三階段訓(xùn)練框架的系統(tǒng)化培養(yǎng)方案:

  • 冷啟動(dòng)訓(xùn)練利用合成數(shù)據(jù)教會(huì)模型基礎(chǔ)繪圖操作(如標(biāo)注邊界框),建立視覺(jué)空間認(rèn)知的“肌肉記憶”;
  • 反思拒絕采樣階段引入自我修正機(jī)制——模型生成多條推理路徑后,篩選出主動(dòng)修改錯(cuò)誤標(biāo)注的高質(zhì)量樣本進(jìn)行強(qiáng)化訓(xùn)練,培養(yǎng)“發(fā)現(xiàn)并修正誤判”的反思能力;
  • 強(qiáng)化學(xué)習(xí)階段則通過(guò)雙獎(jiǎng)勵(lì)函數(shù)(結(jié)果準(zhǔn)確性+邏輯合理性)優(yōu)化操作效率,避免冗余繪圖。消融實(shí)驗(yàn)證明,移除反思機(jī)制會(huì)使模型推理步驟減少23%,而缺乏強(qiáng)化學(xué)習(xí)將導(dǎo)致繪圖操作激增。
    ?
    這一進(jìn)展恰逢空間智能研究的關(guān)鍵爆發(fā)期。李飛飛、謝賽寧團(tuán)隊(duì)去年末發(fā)布的VSI-Bench基準(zhǔn)(涵蓋288個(gè)真實(shí)場(chǎng)景視頻、5000+問(wèn)答對(duì))首次量化了AI的空間認(rèn)知缺陷:在物體相對(duì)方向、距離估計(jì)等任務(wù)中,15個(gè)主流MLLM的**錯(cuò)誤率高達(dá)71%源于空間推理短板,而非視覺(jué)識(shí)別或語(yǔ)言理解。
    ?
    更值得注意的是,研究揭示大模型在空間記憶時(shí)僅形成碎片化的局部世界模型而非統(tǒng)一全局認(rèn)知,且傳統(tǒng)語(yǔ)言提示技術(shù)(如思維鏈CoT)反而損害其空間表現(xiàn)——這與語(yǔ)義推理任務(wù)形成鮮明對(duì)比。上海交大團(tuán)隊(duì)今年5月推出的SpatialScore評(píng)測(cè)體系進(jìn)一步整合11項(xiàng)數(shù)據(jù)集,證明當(dāng)前模型在深度估計(jì)、相機(jī)運(yùn)動(dòng)分析等幾何感知任務(wù)中仍舉步維艱。
    ?
    ViLaSR-7B的突破不僅是技術(shù)里程碑,更是AI理解物理世界的臨界點(diǎn)。當(dāng)模型能主動(dòng)構(gòu)建空間心智表征,機(jī)器人導(dǎo)航、AR交互、工業(yè)檢測(cè)等場(chǎng)景將迎來(lái)質(zhì)變。隨著“繪圖推理”范式與VSI-Bench等評(píng)估工具的雙輪驅(qū)動(dòng),AI終于開(kāi)始用人類的視角丈量世界——從識(shí)別物體到理解空間,這場(chǎng)感知革命才剛剛開(kāi)始。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 天天操天天干天天曰 | 北条麻妃一区二区三区在线视频 | 欧美黑人一区二区三区 | 黄片毛片在线观看 | 超碰日本 | 国产福利91精品 | 亚洲日日操 | 日韩天堂av | 亚洲视频中文字幕 | 国产乱码精品一品二品 | 一区二区三区四区国产 | 男人天堂av网站 | 在线观看成人小视频 | 波多野结衣电影一区 | 久久久国产一区二区三区四区小说 | 国产综合欧美 | 免费久| 日韩在线电影 | 中文字幕av网站 | 日韩欧美专区 | 精品9999 | 久色视频在线观看 | 国产免费一区二区 | 久久国产精品视频 | 午夜男人天堂 | 国产精品久久av | 黄色大片免费看 | 国产成人精品一区二区 | 亚洲精品乱码 | 久久久精品网站 | 日日干天天操 | 欧美视频一区二区三区 | 亚洲精品一区二区网址 | 欧美久久久久久 | 亚洲综合中文字幕在线观看 | 国产一区二区在线视频 | 99亚洲视频 | 91精品国产91久久久久久密臀 | 精品一区二区三区在线视频 | 老司机狠狠爱 | 黄色免费在线观看 |