成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

動(dòng)態(tài)場(chǎng)景,開(kāi)放文本查詢!清華哈佛聯(lián)合建模4D語(yǔ)言場(chǎng) | CVPR 2025

人工智能 新聞
4D LangSplat通過(guò)結(jié)合多模態(tài)大語(yǔ)言模型和動(dòng)態(tài)三維高斯?jié)姙R技術(shù),成功構(gòu)建了動(dòng)態(tài)語(yǔ)義場(chǎng),能夠高效且精準(zhǔn)地完成動(dòng)態(tài)場(chǎng)景下的開(kāi)放文本查詢?nèi)蝿?wù)。

構(gòu)建支持開(kāi)放詞匯查詢的語(yǔ)言場(chǎng)在機(jī)器人導(dǎo)航、3D場(chǎng)景編輯和交互式虛擬環(huán)境等眾多應(yīng)用領(lǐng)域展現(xiàn)出巨大的潛力。

盡管現(xiàn)有方法在靜態(tài)語(yǔ)義場(chǎng)重建方面已取得顯著成果,但如何建模4D語(yǔ)言場(chǎng)(4D language fields)以實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景中時(shí)間敏感且開(kāi)放式的語(yǔ)言查詢,仍面臨諸多挑戰(zhàn),動(dòng)態(tài)世界的語(yǔ)義建模對(duì)于推動(dòng)許多實(shí)際應(yīng)用的落地至關(guān)重要。

近日,來(lái)自清華大學(xué)、哈佛大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出了一種創(chuàng)新方法4D LangSplat,基于動(dòng)態(tài)三維高斯?jié)姙R技術(shù),成功重建了動(dòng)態(tài)語(yǔ)義場(chǎng),能夠高效且精準(zhǔn)地完成動(dòng)態(tài)場(chǎng)景下的開(kāi)放文本查詢?nèi)蝿?wù)。這一突破為相關(guān)領(lǐng)域的研究與應(yīng)用提供了新的可能性, 該工作目前已經(jīng)被CVPR2025接收。

圖片

Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code:https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

將現(xiàn)有靜態(tài)語(yǔ)義場(chǎng)重建方法直接遷移到動(dòng)態(tài)場(chǎng)景中,一種直觀的思路是沿用CLIP提取靜態(tài)的、物體級(jí)語(yǔ)義特征,并借鑒4D-GS等工作的思路,通過(guò)訓(xùn)練變形高斯場(chǎng)來(lái)建模隨時(shí)間變化的語(yǔ)義。

然而,這種簡(jiǎn)單的遷移存在兩個(gè)關(guān)鍵問(wèn)題:首先,CLIP最初是為圖-文對(duì)齊任務(wù)設(shè)計(jì)的,其在動(dòng)態(tài)語(yǔ)義場(chǎng)中的感知和理解能力存在局限性;其次,基于輸入時(shí)間信息預(yù)測(cè)特征變化量的方法缺乏對(duì)特征變化的有效約束,導(dǎo)致動(dòng)態(tài)語(yǔ)義場(chǎng)建模的學(xué)習(xí)成本顯著增加。

針對(duì)上述問(wèn)題,4D LangSplat框架核心創(chuàng)新在于:利用視頻分割模型和多模態(tài)大模型生成物體級(jí)的語(yǔ)言描述,并通過(guò)大語(yǔ)言模型提取高質(zhì)量的句子特征(sentence feature),以替代傳統(tǒng)靜態(tài)語(yǔ)義場(chǎng)重建方法(如LERF、LangSplat)中直接使用CLIP提取的語(yǔ)義特征。在動(dòng)態(tài)語(yǔ)義特征建模方面,4D LangSplat引入了狀態(tài)變化網(wǎng)絡(luò)(Status Deformable Network),通過(guò)先驗(yàn)壓縮語(yǔ)義特征的學(xué)習(xí)空間,實(shí)現(xiàn)了更加穩(wěn)定和準(zhǔn)確的語(yǔ)義特征建模,同時(shí)確保了特征隨時(shí)間的平滑變化。

4D LangSplat的提出顯著拓展了語(yǔ)義高斯場(chǎng)建模的應(yīng)用場(chǎng)景,為動(dòng)態(tài)語(yǔ)義場(chǎng)的實(shí)際落地提供了一種極具前景的解決方案。目前,該工作已在X(Twitter)平臺(tái)上引發(fā)廣泛關(guān)注,并得到AK、MrNeRF等大V轉(zhuǎn)載,論文的代碼和數(shù)據(jù)已全面開(kāi)源。

圖片

圖片

方法論

圖片

多模態(tài)對(duì)象級(jí)視頻提示技術(shù)(流程圖中上半部分的紅色區(qū)域)

研究人員結(jié)合了SAM(Segment Anything Model)和DEVA tracking技術(shù),對(duì)物體進(jìn)行分割,并在時(shí)間維度上保持物體身份的一致性。

為了使多模態(tài)大模型能夠更專注于已有物體的描述,首先為目標(biāo)物體生成視覺(jué)提示。具體而言,視覺(jué)提示包括輪廓線(Contour)、背景虛化(Blur)和單色調(diào)整(Gray)。這一過(guò)程可以形式化地定義為:

圖片

在加入視覺(jué)提示后,首先利用多模態(tài)大模型(Qwen-Instrution-7B)生成視頻級(jí)的語(yǔ)言描述,隨后逐幀將圖片和視頻描述再次輸入到大模型中,提示其生成特定時(shí)間步驟下的物體狀態(tài)變化的自然語(yǔ)言描述。生成視頻-物體級(jí)語(yǔ)言描述和圖片-物體級(jí)語(yǔ)言描述的過(guò)程可以形式化地定義為:

圖片

圖片

對(duì)于每一條生成的圖片-物體級(jí)描述,使用在sentence-embedding任務(wù)上經(jīng)過(guò)微調(diào)的LLM模型(e5-mistral-7b)將其轉(zhuǎn)化為語(yǔ)義特征,并通過(guò)分割掩碼生成最終的語(yǔ)義特征圖。

此外,參考LangSplat的做法,研究人員訓(xùn)練了一個(gè)自動(dòng)編碼器,將高維特征壓縮到低維空間,從而降低高斯場(chǎng)訓(xùn)練的復(fù)雜度和計(jì)算成本。

狀態(tài)變化場(chǎng)(流程圖中下半部分的綠區(qū)域)

通過(guò)對(duì)語(yǔ)義特征的觀察,可以發(fā)現(xiàn)現(xiàn)實(shí)中的大部分變形和運(yùn)動(dòng)都可以分解為一系列狀態(tài)及其之間的過(guò)渡。

例如,人的運(yùn)動(dòng)可以分解為站立、行走、跑步等狀態(tài)的組合。在特定時(shí)間點(diǎn),物體要么處于某種狀態(tài),要么處于從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的過(guò)渡中。

基于這一觀察,研究人員提出了狀態(tài)變化網(wǎng)絡(luò)(Status Deformable Network),將特定時(shí)間步下的變化狀態(tài)分解為若干狀態(tài)的線性組合,網(wǎng)絡(luò)以Hexplane提取的時(shí)空特征作為輸入,專注于預(yù)測(cè)指定時(shí)間步下的線性組合系數(shù)。數(shù)學(xué)上,其建模方式如下:

圖片

其中,w代表模型預(yù)測(cè)的系數(shù),S代表狀態(tài)特征。在訓(xùn)練過(guò)程中,狀態(tài)特征和預(yù)測(cè)系數(shù)的狀態(tài)變化網(wǎng)絡(luò)聯(lián)合優(yōu)化,以確保對(duì)變化語(yǔ)義特征的準(zhǔn)確和平滑建模。

4D開(kāi)放詞匯查詢

研究人員將4D開(kāi)放詞匯查詢?nèi)蝿?wù)定義為兩個(gè)子任務(wù):時(shí)間無(wú)關(guān)的查詢和時(shí)間敏感的查詢。時(shí)間無(wú)關(guān)的查詢主要考驗(yàn)語(yǔ)義場(chǎng)的靜態(tài)語(yǔ)義建模能力,目標(biāo)是根據(jù)指定的查詢?cè)~,給出物體在每一幀的查詢結(jié)果掩碼,類似于物體追蹤檢測(cè)任務(wù)。

而時(shí)間敏感查詢則更注重動(dòng)態(tài)語(yǔ)義建模能力,不僅需要給出查詢物體的掩碼,還需要精確到具體的時(shí)間步(例如動(dòng)作發(fā)生的幀范圍)。

為了完成這兩個(gè)子任務(wù),研究人員同時(shí)渲染了時(shí)間無(wú)關(guān)的語(yǔ)義場(chǎng)和時(shí)間敏感的語(yǔ)義場(chǎng),前者基于CLIP提取語(yǔ)義特征,且不對(duì)語(yǔ)義特征的變化進(jìn)行建模;后者則采用該方法提取時(shí)間敏感語(yǔ)義,并利用狀態(tài)變化網(wǎng)絡(luò)對(duì)語(yǔ)義特征進(jìn)行建模。

在進(jìn)行時(shí)間敏感查詢時(shí),首先通過(guò)時(shí)間無(wú)關(guān)場(chǎng)生成對(duì)應(yīng)物體的查詢掩碼,然后計(jì)算掩碼內(nèi)時(shí)間敏感場(chǎng)的平均相關(guān)系數(shù),并給出預(yù)測(cè)幀的結(jié)果。

通過(guò)結(jié)合這兩個(gè)場(chǎng),該方法能夠同時(shí)勝任時(shí)間敏感查詢和時(shí)間無(wú)關(guān)查詢?nèi)蝿?wù)。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

由于目前缺乏針對(duì)4D語(yǔ)義查詢的標(biāo)注數(shù)據(jù),研究人員在HyperNeRF和Neu3D這兩個(gè)數(shù)據(jù)集上進(jìn)行了手工標(biāo)注,構(gòu)建了一個(gè)專門用于4D語(yǔ)義查詢的數(shù)據(jù)集。

在評(píng)估指標(biāo)方面,針對(duì)不同的查詢?nèi)蝿?wù)設(shè)計(jì)了相應(yīng)的衡量標(biāo)準(zhǔn):

  • 時(shí)間無(wú)關(guān)查詢:使用平均準(zhǔn)確率(mACC)和平均交并比(mIoU)作為查詢結(jié)果的評(píng)估指標(biāo)。
  • 時(shí)間敏感查詢:使用幀級(jí)別的預(yù)測(cè)準(zhǔn)確率(ACC)和像素級(jí)別的平均交并比(vIoU)作為評(píng)估指標(biāo)

結(jié)果:該方法在時(shí)間敏感和時(shí)間無(wú)關(guān)查詢兩個(gè)子任務(wù)上都顯著優(yōu)于最先進(jìn)的方法。在時(shí)間敏感查詢上,與基于CLIP特征的方法相比,該方法在幀級(jí)別準(zhǔn)確率(ACC)和像素級(jí)別平均交并比(vIoU)上分別提升了29.03%和27.54%。

時(shí)間無(wú)關(guān)查詢方面,在HyperNeRF和Neu3D兩個(gè)場(chǎng)景中,該方法在平均交并比(mIoU)上分別比基線方法提升了7.56%和23.62%

圖片

消融實(shí)驗(yàn)

為了驗(yàn)證該方法中各個(gè)組件的有效性,研究人員在論文中進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,每個(gè)組件都對(duì)最終性能的提升起到了重要作用。

貢獻(xiàn)

  1. 使用MLLM生成的對(duì)象文本描述構(gòu)建4D語(yǔ)言特征。
  2. 為了對(duì)4D場(chǎng)景中對(duì)象的狀態(tài)間平滑過(guò)渡進(jìn)行建模,進(jìn)一步提出了一個(gè)狀態(tài)可變形網(wǎng)絡(luò)來(lái)捕捉連續(xù)的時(shí)間變化。
  3. 實(shí)驗(yàn)結(jié)果表明,該方法在時(shí)間無(wú)關(guān)和時(shí)間敏感的開(kāi)放詞匯查詢中都達(dá)到了最先進(jìn)的性能。
  4. 通過(guò)人工標(biāo)注,研究人員構(gòu)建了一個(gè)用于4D開(kāi)放詞匯查詢的數(shù)據(jù)集,為未來(lái)相關(guān)方向的研究提供了定量化的指標(biāo)。
責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-12-19 10:20:53

2025-02-19 14:10:00

AI3D生成

2024-06-21 13:18:25

模型訓(xùn)練

2024-01-19 16:35:00

模型動(dòng)畫

2024-12-16 14:40:00

AI模型訓(xùn)練

2024-06-12 09:48:39

2023-01-31 10:04:36

AI算法

2023-11-27 09:49:37

自動(dòng)駕駛數(shù)據(jù)

2023-03-20 09:38:42

Meta數(shù)據(jù)

2025-03-21 09:30:42

2024-01-03 10:05:07

自動(dòng)駕駛4D雷達(dá)

2024-10-28 13:30:00

2025-05-06 08:50:00

2024-06-24 08:15:00

2024-10-17 10:28:23

2025-03-14 10:26:58

2021-01-22 15:49:55

低代碼開(kāi)源UBML

2023-06-09 13:40:47

2022-06-25 21:26:45

自動(dòng)駕駛技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产资源在线播放 | 精品国产乱码久久久久久果冻传媒 | 日本aa毛片a级毛片免费观看 | 久久久久中文字幕 | 成人欧美一区二区三区在线观看 | 毛片一区二区三区 | 欧美一区二区三区在线观看 | 日本特黄特色aaa大片免费 | 亚洲精品一区中文字幕乱码 | 亚洲国产精品一区二区第一页 | 澳门永久av免费网站 | 精品国产乱码久久久久久牛牛 | 亚洲精品欧美 | 极品粉嫩国产48尤物在线播放 | 91精品一区| 日韩精品成人一区二区三区视频 | 久久69精品久久久久久久电影好 | 网站国产| 成人做爰www免费看视频网站 | 欧美男男videos| 亚洲精彩视频在线观看 | 精品欧美一区二区精品久久久 | 国产小视频在线观看 | 99精品国产一区二区三区 | 九七午夜剧场福利写真 | 国产在线精品一区二区 | 一区二区三区久久久 | 四虎免费视频 | 日韩一区二区三区在线看 | 国产日韩欧美中文 | 国产99精品| 国产精品视频久久 | 久久久国产精品入口麻豆 | 毛片免费视频 | 五月婷婷色 | 欧美最猛黑人xxxⅹ 粉嫩一区二区三区四区公司1 | 琪琪午夜伦伦电影福利片 | 亚洲导航深夜福利涩涩屋 | 青娱乐国产 | 99精品国产一区二区青青牛奶 | 涩爱av一区二区三区 |