成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

50條數(shù)據(jù)解鎖空間智能,RL視覺(jué)語(yǔ)言模型3D空間推理框架MetaSpatial |西北大學(xué)

人工智能 新聞
西北大學(xué)計(jì)算機(jī)系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導(dǎo)師劉晗 (Han Liu) 提出了核心問(wèn)題:是否可以通過(guò)規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)策略,為視覺(jué)語(yǔ)言模型注入空間推理能力?

在三維空間理解任務(wù)中,讓視覺(jué)語(yǔ)言模型(VLM)生成結(jié)構(gòu)合理、物理一致的場(chǎng)景布局仍是一項(xiàng)挑戰(zhàn)。以“請(qǐng)將這些家具合理擺放在房間中”為例,現(xiàn)有模型盡管能夠識(shí)別圖像中的物體,甚至給出語(yǔ)義連貫的布局描述,但通常缺乏對(duì)三維空間結(jié)構(gòu)的真實(shí)建模,難以滿(mǎn)足基本的物理約束與功能合理性。

為了解決這一問(wèn)題,已有研究嘗試采用多智能體交互(multi-agent interaction)方法,通過(guò)多個(gè)語(yǔ)言模型或代理之間的迭代協(xié)商與驗(yàn)證優(yōu)化布局結(jié)果。然而,這類(lèi)方法不僅計(jì)算成本高,而且在迭代過(guò)程中容易陷入死鎖,導(dǎo)致無(wú)法收斂至有效解。

另一類(lèi)方法則通過(guò)構(gòu)建大規(guī)模真實(shí)房間布局的描述語(yǔ)料,結(jié)合監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)對(duì)模型進(jìn)行訓(xùn)練。這種方式可以在一定程度上提升模型基礎(chǔ)能力,但受到空間任務(wù)本身的限制:空間布局任務(wù)不存在唯一的標(biāo)準(zhǔn)答案。對(duì)于同一個(gè)輸入,合理的三維布局可以有多種形式,因此以單一ground truth為監(jiān)督信號(hào)的SFT方法無(wú)法全面覆蓋可能的合理解空間,限制了模型的泛化能力與生成多樣性。

針對(duì)這一挑戰(zhàn),西北大學(xué)計(jì)算機(jī)系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導(dǎo)師劉晗 (Han Liu) 提出了核心問(wèn)題:是否可以通過(guò)規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)策略,為視覺(jué)語(yǔ)言模型注入空間推理能力?

三維布局任務(wù)具備強(qiáng)化學(xué)習(xí)適用的若干關(guān)鍵特性:

  • 不存在標(biāo)準(zhǔn)解,目標(biāo)是生成符合約束的多樣性解;
  • 缺乏精確標(biāo)注,導(dǎo)致監(jiān)督信號(hào)稀缺;
  • 存在可程序化檢測(cè)的目標(biāo)函數(shù),如物體重疊、越界、功能邏輯合理性等。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning)通過(guò)獎(jiǎng)勵(lì)函數(shù)(reward function)而非依賴(lài)人工標(biāo)注,引導(dǎo)模型在與環(huán)境交互中不斷優(yōu)化策略。這使其天然適用于空間布局這類(lèi)缺乏唯一標(biāo)準(zhǔn)答案、解空間復(fù)雜多樣的任務(wù)。近年來(lái),結(jié)合規(guī)則獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化微調(diào)范式(Reinforcement Fine-Tuning, RFT)已在結(jié)構(gòu)化任務(wù)中取得顯著成果,如文本生成、數(shù)學(xué)推理、代碼理解等,典型代表包括DeepSeek-R1和OpenAI o1。

然而,在三維空間推理這一融合視覺(jué)、語(yǔ)言與結(jié)構(gòu)理解的多模態(tài)任務(wù)中,這一策略仍未被充分探索。

為此,他們提出了MetaSpatial框架。該方法首次將基于規(guī)則獎(jiǎng)勵(lì)的RFT策略成功遷移至視覺(jué)語(yǔ)言模型(VLMs)的空間布局場(chǎng)景中,在僅使用約50條無(wú)ground truth數(shù)據(jù)的條件下,即可顯著提升模型的空間推理能力與布局生成質(zhì)量。

具體而言,MetaSpatial構(gòu)建了一套可程序化評(píng)估的獎(jiǎng)勵(lì)函數(shù),衡量布局結(jié)構(gòu)是否合理、是否滿(mǎn)足物理約束,以及是否符合用戶(hù)偏好。同時(shí)引入多輪布局 refinement 機(jī)制,引導(dǎo)模型在訓(xùn)練過(guò)程中逐步優(yōu)化空間決策。借助這一策略,模型無(wú)需依賴(lài)大規(guī)模標(biāo)注數(shù)據(jù),即可學(xué)習(xí)到具備泛化能力與結(jié)構(gòu)適應(yīng)性的空間推理策略

實(shí)驗(yàn)結(jié)果顯示,MetaSpatial在多個(gè)空間生成指標(biāo)上顯著優(yōu)于傳統(tǒng)SFT方法,充分驗(yàn)證了基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)在三維空間智能建模中的有效性與通用性。

MetaSpatial:引入R1突破3D空間推理壁壘

MetaSpatial 將訓(xùn)練3D空間推理過(guò)程建模為一個(gè)多輪決策過(guò)程,其基本形式是:給定一組多模態(tài)輸入,模型通過(guò)一系列推理步驟生成結(jié)構(gòu)化布局輸出,并基于可程序化評(píng)估的獎(jiǎng)勵(lì)信號(hào)進(jìn)行策略?xún)?yōu)化。

圖片

輸入與輸出形式

在每一輪交互中,MetaSpatial的輸入包括:

  • 場(chǎng)景圖像或房間結(jié)構(gòu)圖;
  • 房間的幾何尺寸信息(長(zhǎng)、寬、高);
  • 用戶(hù)提供的偏好描述(如功能用途、風(fēng)格要求等);
  • 需要布局的目標(biāo)物體列表(包含物體類(lèi)型、狀態(tài)等)。

圖片

模型輸出為兩個(gè)部分:

  1. 語(yǔ)言化的推理過(guò)程:記錄模型在布局時(shí)的決策理由;
  2. 結(jié)構(gòu)化布局 JSON:每個(gè)物體的三維坐標(biāo)位置(x, y, z)和名稱(chēng)等,作為布局結(jié)果。
<think>
The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:


1. **Kitchen Island**: Place it centrally ...
2. **Hanging Pot Rack**: Hang it above ...
...
Let's compute the positions:
- **Kitchen Island**: (3, 2.5, 0.45)
- **Hanging Pot Rack**: (3, 2.5, 0.65)
...
Now, let's generate the JSON output.
</think>


<answer>
[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]
</answer>

該布局JSON文件既作為最終輸出,也作為強(qiáng)化學(xué)習(xí)中的環(huán)境狀態(tài),用于評(píng)估和反饋。

獎(jiǎng)勵(lì)函數(shù)與懲罰機(jī)制設(shè)計(jì)

為了衡量布局結(jié)果的好壞,MetaSpatial構(gòu)建了三級(jí)獎(jiǎng)勵(lì)信號(hào),分別從結(jié)構(gòu)合法性、物理合理性和主觀偏好三個(gè)維度評(píng)價(jià)模型輸出:

1. 格式獎(jiǎng)勵(lì)(Format Reward)

  • 檢查輸出的 JSON 是否完整;
  • 所有目標(biāo)物體是否都被覆蓋;
  • 每個(gè)物體是否都包含完整的空間參數(shù)(x/y/z 坐標(biāo)、尺寸、方向等)。

2. 物理獎(jiǎng)勵(lì)(Physics Reward)

  • 利用輸出中的幾何信息重建場(chǎng)景;
  • 計(jì)算是否存在物體之間的重疊(collision);
  • 檢查物體是否越界、浮空或違反場(chǎng)景邊界;
  • 對(duì)不滿(mǎn)足物理約束的比例部分施加懲罰。

圖片

3. 物理獎(jiǎng)勵(lì)(Physics Reward)

  • 將輸出布局通過(guò)腳本用Blender渲染為三維場(chǎng)景圖;
  • 輸入至 GPT-4o 進(jìn)行審美評(píng)分;
  • 綜合評(píng)分其物理一致性、美學(xué)質(zhì)量與用戶(hù)偏好匹配度。
{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 
 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 
 'layout_and_furniture': {'mean': 5.0, 'std': 0.0},
 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 
 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最終獎(jiǎng)勵(lì)為三者的加權(quán)組合,提供連續(xù)型反饋信號(hào),以供強(qiáng)化學(xué)習(xí)優(yōu)化使用。

Trajectory 生成與多輪布局優(yōu)化

與傳統(tǒng)一次性生成不同,MetaSpatial 在訓(xùn)練階段采用multi-turn rollout策略,允許模型對(duì)布局結(jié)果進(jìn)行多輪 refinement:

  • 初始布局生成后,模型可查看自己生成的坐標(biāo)結(jié)構(gòu)與得分;
  • 根據(jù)獎(jiǎng)勵(lì)反饋進(jìn)行布局更新并重復(fù)多輪;
  • 每一輪的輸入、輸出、獎(jiǎng)勵(lì)構(gòu)成一條布局軌跡(trajectory);
  • 多輪優(yōu)化后選取最終布局作為當(dāng)前 episode 的最終結(jié)果。

這種機(jī)制不僅提高了模型的布局能力,也為策略訓(xùn)練提供了更多的高質(zhì)量決策路徑。

策略?xún)?yōu)化:基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練

為實(shí)現(xiàn)穩(wěn)定、高效的策略更新,MetaSpatial引入了Group Relative Policy Optimization(GRPO)。與常規(guī)的策略梯度方法不同,GRPO 不依賴(lài)于單條軌跡進(jìn)行更新,而是利用同一輸入樣本生成的多條trajectory作為一個(gè)group進(jìn)行比較性學(xué)習(xí)。

具體過(guò)程如下:

  • 對(duì)于每組輸入,執(zhí)行多次layout generation,得到若干個(gè)軌跡;
  • 比較這些候選軌跡的獎(jiǎng)勵(lì)得分,計(jì)算相對(duì)優(yōu)勢(shì);
  • 根據(jù)組內(nèi)得分排序結(jié)果,優(yōu)化策略網(wǎng)絡(luò),使高獎(jiǎng)勵(lì)軌跡的概率增加,低獎(jiǎng)勵(lì)軌跡的概率下降;
  • 避免了對(duì)某一“絕對(duì)最優(yōu)”解的依賴(lài),提升了學(xué)習(xí)過(guò)程的穩(wěn)定性與策略的泛化能力。

借助GRPO,MetaSpatial能夠在樣本極少(如僅50條無(wú)標(biāo)注數(shù)據(jù))的情況下,穩(wěn)定學(xué)得適應(yīng)性強(qiáng)的空間決策能力。

MetaSpatial實(shí)驗(yàn)結(jié)果

1. Qwen2.5 的 7B 和 3B 兩個(gè)視覺(jué)語(yǔ)言模型(VLM)都從 MetaSpatial 框架中受益,但其中 7B 模型的性能提升更加顯著。相比之下,3B 模型仍然在輸出格式的生成方面存在困難,比如無(wú)法始終保持與輸入一致的物體數(shù)量和名稱(chēng),或是未能為所有物體持續(xù)穩(wěn)定地提供完整的三維坐標(biāo)(x, y, z)。

圖片

2. 實(shí)驗(yàn)結(jié)果表明,MetaSpatial 能夠有效提升Qwen2.5-VL的3B和7B 模型的空間布局能力,但其中7B模型的提升更加明顯。具體表現(xiàn)為:隨著訓(xùn)練的進(jìn)行,7B模型能夠生成更長(zhǎng)、更穩(wěn)定、結(jié)構(gòu)更清晰的響應(yīng),而3B模型的輸出則表現(xiàn)出較大的不一致性,其響應(yīng)長(zhǎng)度波動(dòng)較大,最小值和最大值之間頻繁跳變,顯示出在保持輸出格式一致性方面的困難(例如:物體數(shù)量正確、結(jié)構(gòu)化空間坐標(biāo)完整等)。相比之下,7B模型的響應(yīng)更加穩(wěn)定,這也進(jìn)一步印證了一個(gè)趨勢(shì):規(guī)模更大的模型在強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的空間推理任務(wù)中更具適應(yīng)能力。

圖片


3. 在“RL-Before vs RL-After”的對(duì)比實(shí)驗(yàn)中,MetaSpatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現(xiàn)。強(qiáng)化學(xué)習(xí)訓(xùn)練前,模型生成的物體布局普遍混亂、錯(cuò)位,且常出現(xiàn)物體漂浮、重疊或放置在不符合物理規(guī)律的位置等問(wèn)題。訓(xùn)練后,生成的布局則變得更加結(jié)構(gòu)化、逼真,并且在語(yǔ)義上更加連貫,表現(xiàn)出更強(qiáng)的空間感知能力、物體對(duì)齊能力以及功能合理性。


圖片這些結(jié)果進(jìn)一步強(qiáng)化了一個(gè)核心結(jié)論:強(qiáng)化學(xué)習(xí)能夠有效優(yōu)化視覺(jué)語(yǔ)言模型的空間推理策略,使其具備更自然、更實(shí)用的三維場(chǎng)景生成能力,可廣泛應(yīng)用于如元宇宙、AR/VR 以及游戲開(kāi)發(fā)等多種現(xiàn)實(shí)場(chǎng)景中。

總結(jié)

總的來(lái)說(shuō),MetaSpatial的貢獻(xiàn)主要有下面四部分:

  1. 提出 MetaSpatial 框架:提出了 MetaSpatial,第一個(gè)基于強(qiáng)化學(xué)習(xí)(RL)的三維空間推理框架,使視覺(jué)語(yǔ)言模型(VLMs)能夠在無(wú)需復(fù)雜后處理的情況下直接生成結(jié)構(gòu)合理的三維場(chǎng)景。
  2. 引入多輪布局優(yōu)化機(jī)制與 GRPO 策略:設(shè)計(jì)了一種多輪布局 refinement 機(jī)制,結(jié)合 Group Relative Policy Optimization(GRPO)方法,使模型能通過(guò)多次調(diào)整與推理路徑,學(xué)習(xí)更具泛化性與適應(yīng)性的空間推理能力。
  3. 構(gòu)建三重獎(jiǎng)勵(lì)體系:設(shè)計(jì)了一套結(jié)構(gòu)化評(píng)估體系,涵蓋格式檢測(cè)、物理合理性檢測(cè)與基于渲染的視覺(jué)評(píng)價(jià),為強(qiáng)化學(xué)習(xí)提供自適應(yīng)、可擴(kuò)展的獎(jiǎng)勵(lì)信號(hào)。
  4. 驗(yàn)證方法有效性:在多種模型和空間場(chǎng)景上進(jìn)行的實(shí)驗(yàn)證明,MetaSpatial 能顯著提升模型在三維場(chǎng)景生成中的布局連貫性、物理一致性和整體質(zhì)量。

目前,項(xiàng)目已全面開(kāi)源,包含訓(xùn)練代碼、評(píng)測(cè)流程、數(shù)據(jù)集生成腳本以及完整的數(shù)據(jù)集。

項(xiàng)目地址: https://github.com/PzySeere/MetaSpatial

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-02-19 07:10:00

視覺(jué)模型

2024-08-07 13:00:00

2023-10-30 15:12:29

人工智能AI

2024-12-10 09:40:00

AI3D模型

2022-05-23 10:26:10

人工智能機(jī)器學(xué)習(xí)機(jī)器視覺(jué)

2025-03-03 08:50:00

AI目標(biāo)檢測(cè)模型

2024-11-21 13:45:00

神經(jīng)網(wǎng)絡(luò)AI

2025-06-03 03:15:00

2024-04-11 11:35:03

大語(yǔ)言模型LLMs

2024-04-12 15:10:12

框架模型

2025-06-03 08:12:00

模型框架訓(xùn)練

2020-08-26 10:37:21

阿里3D

2025-01-02 12:22:09

2025-06-03 14:14:59

智能技術(shù)AI

2011-04-29 14:39:47

麗訊投影機(jī)

2025-01-03 11:37:13

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2024-11-06 09:47:00

2018-03-28 09:18:35

CITE智能制造3D打印館
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 婷婷开心激情综合五月天 | 欧美日本韩国一区二区 | 在线免费观看亚洲 | 亚洲成人免费在线 | 国产精品免费大片 | 成人午夜免费网站 | 久久天天综合 | 在线观看成人精品 | 精品99在线 | 在线观看亚洲一区二区 | 高清国产午夜精品久久久久久 | 毛片大全 | 日韩欧美一区二区三区免费看 | 日日夜夜操天天干 | 欧美一级片a | 日韩伦理一区二区 | 蜜桃视频成人 | 丁香婷婷综合激情五月色 | 国产成人精品一区二区三区四区 | 国产91久久久久蜜臀青青天草二 | 精品粉嫩aⅴ一区二区三区四区 | 午夜电影网 | 国产成人av电影 | 国产毛片久久久 | 黄色国产在线播放 | 久久爱一区 | 亚洲欧洲色视频 | 国产精品久久久久久久久久尿 | 日本精品久久 | 成人免费高清 | 天堂一区二区三区四区 | 免费视频一区二区三区在线观看 | 国产精品久久久久一区二区三区 | 日韩精品在线一区二区 | 亚洲欧美一区二区三区在线 | 欧美成人精品一区二区男人看 | 91精品国产91久久久久久不卞 | 一区二区三区国产好 | 欧美一级二级三级视频 | 国产精品一卡 | 亚洲成人日韩 |