成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<s id="wu8wi"></s>

<tfoot id="wu8wi"><small id="wu8wi"></small></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

50條數(shù)據(jù)解鎖空間智能，RL視覺(jué)語(yǔ)言模型3D空間推理框架MetaSpatial ｜西北大學(xué)

作者：量子位 2025-03-24 08:40:00

人工智能新聞

西北大學(xué)計(jì)算機(jī)系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導(dǎo)師劉晗 (Han Liu) 提出了核心問(wèn)題：是否可以通過(guò)規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)策略，為視覺(jué)語(yǔ)言模型注入空間推理能力？

在三維空間理解任務(wù)中，讓視覺(jué)語(yǔ)言模型（VLM）生成結(jié)構(gòu)合理、物理一致的場(chǎng)景布局仍是一項(xiàng)挑戰(zhàn)。以“請(qǐng)將這些家具合理擺放在房間中”為例，現(xiàn)有模型盡管能夠識(shí)別圖像中的物體，甚至給出語(yǔ)義連貫的布局描述，但通常缺乏對(duì)三維空間結(jié)構(gòu)的真實(shí)建模，難以滿(mǎn)足基本的物理約束與功能合理性。

為了解決這一問(wèn)題，已有研究嘗試采用多智能體交互（multi-agent interaction）方法，通過(guò)多個(gè)語(yǔ)言模型或代理之間的迭代協(xié)商與驗(yàn)證優(yōu)化布局結(jié)果。然而，這類(lèi)方法不僅計(jì)算成本高，而且在迭代過(guò)程中容易陷入死鎖，導(dǎo)致無(wú)法收斂至有效解。

另一類(lèi)方法則通過(guò)構(gòu)建大規(guī)模真實(shí)房間布局的描述語(yǔ)料，結(jié)合監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）對(duì)模型進(jìn)行訓(xùn)練。這種方式可以在一定程度上提升模型基礎(chǔ)能力，但受到空間任務(wù)本身的限制：空間布局任務(wù)不存在唯一的標(biāo)準(zhǔn)答案。對(duì)于同一個(gè)輸入，合理的三維布局可以有多種形式，因此以單一ground truth為監(jiān)督信號(hào)的SFT方法無(wú)法全面覆蓋可能的合理解空間，限制了模型的泛化能力與生成多樣性。

針對(duì)這一挑戰(zhàn)，西北大學(xué)計(jì)算機(jī)系與基礎(chǔ)模型與生成式AI中心的研究人員潘震宇 (Zhenyu Pan) 以及其導(dǎo)師劉晗 (Han Liu) 提出了核心問(wèn)題：是否可以通過(guò)規(guī)則驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)策略，為視覺(jué)語(yǔ)言模型注入空間推理能力？

三維布局任務(wù)具備強(qiáng)化學(xué)習(xí)適用的若干關(guān)鍵特性：

不存在標(biāo)準(zhǔn)解，目標(biāo)是生成符合約束的多樣性解；
缺乏精確標(biāo)注，導(dǎo)致監(jiān)督信號(hào)稀缺；
存在可程序化檢測(cè)的目標(biāo)函數(shù)，如物體重疊、越界、功能邏輯合理性等。

強(qiáng)化學(xué)習(xí)（Reinforcement Learning）通過(guò)獎(jiǎng)勵(lì)函數(shù)（reward function）而非依賴(lài)人工標(biāo)注，引導(dǎo)模型在與環(huán)境交互中不斷優(yōu)化策略。這使其天然適用于空間布局這類(lèi)缺乏唯一標(biāo)準(zhǔn)答案、解空間復(fù)雜多樣的任務(wù)。近年來(lái)，結(jié)合規(guī)則獎(jiǎng)勵(lì)機(jī)制的強(qiáng)化微調(diào)范式（Reinforcement Fine-Tuning, RFT）已在結(jié)構(gòu)化任務(wù)中取得顯著成果，如文本生成、數(shù)學(xué)推理、代碼理解等，典型代表包括DeepSeek-R1和OpenAI o1。

然而，在三維空間推理這一融合視覺(jué)、語(yǔ)言與結(jié)構(gòu)理解的多模態(tài)任務(wù)中，這一策略仍未被充分探索。

為此，他們提出了MetaSpatial框架。該方法首次將基于規(guī)則獎(jiǎng)勵(lì)的RFT策略成功遷移至視覺(jué)語(yǔ)言模型（VLMs）的空間布局場(chǎng)景中，在僅使用約50條無(wú)ground truth數(shù)據(jù)的條件下，即可顯著提升模型的空間推理能力與布局生成質(zhì)量。

具體而言，MetaSpatial構(gòu)建了一套可程序化評(píng)估的獎(jiǎng)勵(lì)函數(shù)，衡量布局結(jié)構(gòu)是否合理、是否滿(mǎn)足物理約束，以及是否符合用戶(hù)偏好。同時(shí)引入多輪布局 refinement 機(jī)制，引導(dǎo)模型在訓(xùn)練過(guò)程中逐步優(yōu)化空間決策。借助這一策略，模型無(wú)需依賴(lài)大規(guī)模標(biāo)注數(shù)據(jù)，即可學(xué)習(xí)到具備泛化能力與結(jié)構(gòu)適應(yīng)性的空間推理策略。

實(shí)驗(yàn)結(jié)果顯示，MetaSpatial在多個(gè)空間生成指標(biāo)上顯著優(yōu)于傳統(tǒng)SFT方法，充分驗(yàn)證了基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)在三維空間智能建模中的有效性與通用性。

MetaSpatial：引入R1突破3D空間推理壁壘

MetaSpatial 將訓(xùn)練3D空間推理過(guò)程建模為一個(gè)多輪決策過(guò)程，其基本形式是：給定一組多模態(tài)輸入，模型通過(guò)一系列推理步驟生成結(jié)構(gòu)化布局輸出，并基于可程序化評(píng)估的獎(jiǎng)勵(lì)信號(hào)進(jìn)行策略?xún)?yōu)化。

輸入與輸出形式

在每一輪交互中，MetaSpatial的輸入包括：

場(chǎng)景圖像或房間結(jié)構(gòu)圖；
房間的幾何尺寸信息（長(zhǎng)、寬、高）；
用戶(hù)提供的偏好描述（如功能用途、風(fēng)格要求等）；
需要布局的目標(biāo)物體列表（包含物體類(lèi)型、狀態(tài)等）。

模型輸出為兩個(gè)部分：

語(yǔ)言化的推理過(guò)程：記錄模型在布局時(shí)的決策理由；
結(jié)構(gòu)化布局 JSON：每個(gè)物體的三維坐標(biāo)位置（x, y, z）和名稱(chēng)等，作為布局結(jié)果。

<think>
The goal is to arrange the objects in a dinning room setting that includes a ,..., and respect the spatial constraints and user preferences. Here's how we can approach this:


1. **Kitchen Island**: Place it centrally ...
2. **Hanging Pot Rack**: Hang it above ...
...
Let's compute the positions:
- **Kitchen Island**: (3, 2.5, 0.45)
- **Hanging Pot Rack**: (3, 2.5, 0.65)
...
Now, let's generate the JSON output.
</think>


<answer>
[{"new_object_id": "kitchen_island_1", "x": 3.0, "y": 2.5, "z": 0.45}, ......]
</answer>

該布局JSON文件既作為最終輸出，也作為強(qiáng)化學(xué)習(xí)中的環(huán)境狀態(tài)，用于評(píng)估和反饋。

獎(jiǎng)勵(lì)函數(shù)與懲罰機(jī)制設(shè)計(jì)

為了衡量布局結(jié)果的好壞，MetaSpatial構(gòu)建了三級(jí)獎(jiǎng)勵(lì)信號(hào)，分別從結(jié)構(gòu)合法性、物理合理性和主觀偏好三個(gè)維度評(píng)價(jià)模型輸出：

1. 格式獎(jiǎng)勵(lì)（Format Reward）

檢查輸出的 JSON 是否完整；
所有目標(biāo)物體是否都被覆蓋；
每個(gè)物體是否都包含完整的空間參數(shù)（x/y/z 坐標(biāo)、尺寸、方向等）。

2. 物理獎(jiǎng)勵(lì)（Physics Reward）

利用輸出中的幾何信息重建場(chǎng)景；
計(jì)算是否存在物體之間的重疊（collision）；
檢查物體是否越界、浮空或違反場(chǎng)景邊界；
對(duì)不滿(mǎn)足物理約束的比例部分施加懲罰。

3. 物理獎(jiǎng)勵(lì)（Physics Reward）

將輸出布局通過(guò)腳本用Blender渲染為三維場(chǎng)景圖；
輸入至 GPT-4o 進(jìn)行審美評(píng)分；
綜合評(píng)分其物理一致性、美學(xué)質(zhì)量與用戶(hù)偏好匹配度。

{'realism_and_3d_geometric_consistency': {'mean': 5.0, 'std': 0.0}, 
 'functionality_and_activity_based_alignment': {'mean': 6.0, 'std': 0.0}, 
 'layout_and_furniture': {'mean': 5.0, 'std': 0.0},
 'color_scheme_and_material_choices': {'mean': 4.0, 'std': 0.0}, 
 'overall_aesthetic_and_atmosphere': {'mean': 4.0, 'std': 0.0}}

最終獎(jiǎng)勵(lì)為三者的加權(quán)組合，提供連續(xù)型反饋信號(hào)，以供強(qiáng)化學(xué)習(xí)優(yōu)化使用。

Trajectory 生成與多輪布局優(yōu)化

與傳統(tǒng)一次性生成不同，MetaSpatial 在訓(xùn)練階段采用multi-turn rollout策略，允許模型對(duì)布局結(jié)果進(jìn)行多輪 refinement：

初始布局生成后，模型可查看自己生成的坐標(biāo)結(jié)構(gòu)與得分；
根據(jù)獎(jiǎng)勵(lì)反饋進(jìn)行布局更新并重復(fù)多輪；
每一輪的輸入、輸出、獎(jiǎng)勵(lì)構(gòu)成一條布局軌跡（trajectory）；
多輪優(yōu)化后選取最終布局作為當(dāng)前 episode 的最終結(jié)果。

這種機(jī)制不僅提高了模型的布局能力，也為策略訓(xùn)練提供了更多的高質(zhì)量決策路徑。

策略?xún)?yōu)化：基于 GRPO 的強(qiáng)化學(xué)習(xí)訓(xùn)練

為實(shí)現(xiàn)穩(wěn)定、高效的策略更新，MetaSpatial引入了Group Relative Policy Optimization（GRPO）。與常規(guī)的策略梯度方法不同，GRPO 不依賴(lài)于單條軌跡進(jìn)行更新，而是利用同一輸入樣本生成的多條trajectory作為一個(gè)group進(jìn)行比較性學(xué)習(xí)。

具體過(guò)程如下：

對(duì)于每組輸入，執(zhí)行多次layout generation，得到若干個(gè)軌跡；
比較這些候選軌跡的獎(jiǎng)勵(lì)得分，計(jì)算相對(duì)優(yōu)勢(shì)；
根據(jù)組內(nèi)得分排序結(jié)果，優(yōu)化策略網(wǎng)絡(luò)，使高獎(jiǎng)勵(lì)軌跡的概率增加，低獎(jiǎng)勵(lì)軌跡的概率下降；
避免了對(duì)某一“絕對(duì)最優(yōu)”解的依賴(lài)，提升了學(xué)習(xí)過(guò)程的穩(wěn)定性與策略的泛化能力。

借助GRPO，MetaSpatial能夠在樣本極少（如僅50條無(wú)標(biāo)注數(shù)據(jù)）的情況下，穩(wěn)定學(xué)得適應(yīng)性強(qiáng)的空間決策能力。

MetaSpatial實(shí)驗(yàn)結(jié)果

1. Qwen2.5 的 7B 和 3B 兩個(gè)視覺(jué)語(yǔ)言模型（VLM）都從 MetaSpatial 框架中受益，但其中 7B 模型的性能提升更加顯著。相比之下，3B 模型仍然在輸出格式的生成方面存在困難，比如無(wú)法始終保持與輸入一致的物體數(shù)量和名稱(chēng)，或是未能為所有物體持續(xù)穩(wěn)定地提供完整的三維坐標(biāo)（x, y, z）。

2. 實(shí)驗(yàn)結(jié)果表明，MetaSpatial 能夠有效提升Qwen2.5-VL的3B和7B 模型的空間布局能力，但其中7B模型的提升更加明顯。具體表現(xiàn)為：隨著訓(xùn)練的進(jìn)行，7B模型能夠生成更長(zhǎng)、更穩(wěn)定、結(jié)構(gòu)更清晰的響應(yīng)，而3B模型的輸出則表現(xiàn)出較大的不一致性，其響應(yīng)長(zhǎng)度波動(dòng)較大，最小值和最大值之間頻繁跳變，顯示出在保持輸出格式一致性方面的困難（例如：物體數(shù)量正確、結(jié)構(gòu)化空間坐標(biāo)完整等）。相比之下，7B模型的響應(yīng)更加穩(wěn)定，這也進(jìn)一步印證了一個(gè)趨勢(shì)：規(guī)模更大的模型在強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的空間推理任務(wù)中更具適應(yīng)能力。

3. 在“RL-Before vs RL-After”的對(duì)比實(shí)驗(yàn)中，MetaSpatial 框架在提升模型三維空間推理能力方面的效果得到了清晰體現(xiàn)。強(qiáng)化學(xué)習(xí)訓(xùn)練前，模型生成的物體布局普遍混亂、錯(cuò)位，且常出現(xiàn)物體漂浮、重疊或放置在不符合物理規(guī)律的位置等問(wèn)題。訓(xùn)練后，生成的布局則變得更加結(jié)構(gòu)化、逼真，并且在語(yǔ)義上更加連貫，表現(xiàn)出更強(qiáng)的空間感知能力、物體對(duì)齊能力以及功能合理性。

這些結(jié)果進(jìn)一步強(qiáng)化了一個(gè)核心結(jié)論：強(qiáng)化學(xué)習(xí)能夠有效優(yōu)化視覺(jué)語(yǔ)言模型的空間推理策略，使其具備更自然、更實(shí)用的三維場(chǎng)景生成能力，可廣泛應(yīng)用于如元宇宙、AR/VR 以及游戲開(kāi)發(fā)等多種現(xiàn)實(shí)場(chǎng)景中。

總結(jié)

總的來(lái)說(shuō)，MetaSpatial的貢獻(xiàn)主要有下面四部分：

提出 MetaSpatial 框架：提出了 MetaSpatial，第一個(gè)基于強(qiáng)化學(xué)習(xí)（RL）的三維空間推理框架，使視覺(jué)語(yǔ)言模型（VLMs）能夠在無(wú)需復(fù)雜后處理的情況下直接生成結(jié)構(gòu)合理的三維場(chǎng)景。
引入多輪布局優(yōu)化機(jī)制與 GRPO 策略：設(shè)計(jì)了一種多輪布局 refinement 機(jī)制，結(jié)合 Group Relative Policy Optimization（GRPO）方法，使模型能通過(guò)多次調(diào)整與推理路徑，學(xué)習(xí)更具泛化性與適應(yīng)性的空間推理能力。
構(gòu)建三重獎(jiǎng)勵(lì)體系：設(shè)計(jì)了一套結(jié)構(gòu)化評(píng)估體系，涵蓋格式檢測(cè)、物理合理性檢測(cè)與基于渲染的視覺(jué)評(píng)價(jià)，為強(qiáng)化學(xué)習(xí)提供自適應(yīng)、可擴(kuò)展的獎(jiǎng)勵(lì)信號(hào)。
驗(yàn)證方法有效性：在多種模型和空間場(chǎng)景上進(jìn)行的實(shí)驗(yàn)證明，MetaSpatial 能顯著提升模型在三維場(chǎng)景生成中的布局連貫性、物理一致性和整體質(zhì)量。

目前，項(xiàng)目已全面開(kāi)源，包含訓(xùn)練代碼、評(píng)測(cè)流程、數(shù)據(jù)集生成腳本以及完整的數(shù)據(jù)集。

項(xiàng)目地址： https://github.com/PzySeere/MetaSpatial

責(zé)任編輯：張燕妮來(lái)源：量子位

模型強(qiáng)化學(xué)習(xí)AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：婷婷开心激情综合五月天 | 欧美日本韩国一区二区 | 在线免费观看亚洲 | 亚洲成人免费在线 | 国产精品免费大片 | 成人午夜免费网站 | 久久天天综合 | 在线观看成人精品 | 精品99在线 | 在线观看亚洲一区二区 | 高清国产午夜精品久久久久久 | 毛片大全 | 日韩欧美一区二区三区免费看 | 日日夜夜操天天干 | 欧美一级片a | 日韩伦理一区二区 | 蜜桃视频成人 | 丁香婷婷综合激情五月色 | 国产成人精品一区二区三区四区 | 国产91久久久久蜜臀青青天草二 | 精品粉嫩aⅴ一区二区三区四区 | 午夜电影网 | 国产成人av电影 | 国产毛片久久久 | 黄色国产在线播放 | 久久爱一区 | 亚洲欧洲色视频 | 国产精品久久久久久久久久尿 | 日本精品久久 | 成人免费高清 | 天堂一区二区三区四区 | 免费视频一区二区三区在线观看 | 国产精品久久久久一区二区三区 | 日韩精品在线一区二区 | 亚洲欧美一区二区三区在线 | 欧美成人精品一区二区男人看 | 91精品国产91久久久久久不卞 | 一区二区三区国产好 | 欧美一级二级三级视频 | 国产精品一卡 | 亚洲成人日韩 |

<menu id="oua0s"><option id="oua0s"></option></menu>