成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

動態場景,開放文本查詢!清華哈佛聯合建模4D語言場 | CVPR 2025

人工智能 新聞
4D LangSplat通過結合多模態大語言模型和動態三維高斯潑濺技術,成功構建了動態語義場,能夠高效且精準地完成動態場景下的開放文本查詢任務。

構建支持開放詞匯查詢的語言場在機器人導航、3D場景編輯和交互式虛擬環境等眾多應用領域展現出巨大的潛力。

盡管現有方法在靜態語義場重建方面已取得顯著成果,但如何建模4D語言場(4D language fields)以實現動態場景中時間敏感且開放式的語言查詢,仍面臨諸多挑戰,動態世界的語義建模對于推動許多實際應用的落地至關重要。

近日,來自清華大學、哈佛大學等機構的研究團隊提出了一種創新方法4D LangSplat,基于動態三維高斯潑濺技術,成功重建了動態語義場,能夠高效且精準地完成動態場景下的開放文本查詢任務。這一突破為相關領域的研究與應用提供了新的可能性, 該工作目前已經被CVPR2025接收。

圖片

Project Page:https://4d-langsplat.github.io/

Paper:https://arxiv.org/pdf/2503.10437

Video:https://www.youtube.com/watch?v=L2OzQ91eRG4

Code:https://github.com/zrporz/4DLangSplat

Data:https://drive.google.com/drive/folders/1C-ciHn38vVd47TMkx2-93EUpI0z4ZdZW?usp=sharing

將現有靜態語義場重建方法直接遷移到動態場景中,一種直觀的思路是沿用CLIP提取靜態的、物體級語義特征,并借鑒4D-GS等工作的思路,通過訓練變形高斯場來建模隨時間變化的語義。

然而,這種簡單的遷移存在兩個關鍵問題:首先,CLIP最初是為圖-文對齊任務設計的,其在動態語義場中的感知和理解能力存在局限性;其次,基于輸入時間信息預測特征變化量的方法缺乏對特征變化的有效約束,導致動態語義場建模的學習成本顯著增加。

針對上述問題,4D LangSplat框架核心創新在于:利用視頻分割模型和多模態大模型生成物體級的語言描述,并通過大語言模型提取高質量的句子特征(sentence feature),以替代傳統靜態語義場重建方法(如LERF、LangSplat)中直接使用CLIP提取的語義特征。在動態語義特征建模方面,4D LangSplat引入了狀態變化網絡(Status Deformable Network),通過先驗壓縮語義特征的學習空間,實現了更加穩定和準確的語義特征建模,同時確保了特征隨時間的平滑變化。

4D LangSplat的提出顯著拓展了語義高斯場建模的應用場景,為動態語義場的實際落地提供了一種極具前景的解決方案。目前,該工作已在X(Twitter)平臺上引發廣泛關注,并得到AK、MrNeRF等大V轉載,論文的代碼和數據已全面開源。

圖片

圖片

方法論

圖片

多模態對象級視頻提示技術(流程圖中上半部分的紅色區域)

研究人員結合了SAM(Segment Anything Model)和DEVA tracking技術,對物體進行分割,并在時間維度上保持物體身份的一致性。

為了使多模態大模型能夠更專注于已有物體的描述,首先為目標物體生成視覺提示。具體而言,視覺提示包括輪廓線(Contour)、背景虛化(Blur)和單色調整(Gray)。這一過程可以形式化地定義為:

圖片

在加入視覺提示后,首先利用多模態大模型(Qwen-Instrution-7B)生成視頻級的語言描述,隨后逐幀將圖片和視頻描述再次輸入到大模型中,提示其生成特定時間步驟下的物體狀態變化的自然語言描述。生成視頻-物體級語言描述和圖片-物體級語言描述的過程可以形式化地定義為:

圖片

圖片

對于每一條生成的圖片-物體級描述,使用在sentence-embedding任務上經過微調的LLM模型(e5-mistral-7b)將其轉化為語義特征,并通過分割掩碼生成最終的語義特征圖。

此外,參考LangSplat的做法,研究人員訓練了一個自動編碼器,將高維特征壓縮到低維空間,從而降低高斯場訓練的復雜度和計算成本。

狀態變化場(流程圖中下半部分的綠區域)

通過對語義特征的觀察,可以發現現實中的大部分變形和運動都可以分解為一系列狀態及其之間的過渡。

例如,人的運動可以分解為站立、行走、跑步等狀態的組合。在特定時間點,物體要么處于某種狀態,要么處于從一個狀態到另一個狀態的過渡中。

基于這一觀察,研究人員提出了狀態變化網絡(Status Deformable Network),將特定時間步下的變化狀態分解為若干狀態的線性組合,網絡以Hexplane提取的時空特征作為輸入,專注于預測指定時間步下的線性組合系數。數學上,其建模方式如下:

圖片

其中,w代表模型預測的系數,S代表狀態特征。在訓練過程中,狀態特征和預測系數的狀態變化網絡聯合優化,以確保對變化語義特征的準確和平滑建模。

4D開放詞匯查詢

研究人員將4D開放詞匯查詢任務定義為兩個子任務:時間無關的查詢和時間敏感的查詢。時間無關的查詢主要考驗語義場的靜態語義建模能力,目標是根據指定的查詢詞,給出物體在每一幀的查詢結果掩碼,類似于物體追蹤檢測任務。

而時間敏感查詢則更注重動態語義建模能力,不僅需要給出查詢物體的掩碼,還需要精確到具體的時間步(例如動作發生的幀范圍)。

為了完成這兩個子任務,研究人員同時渲染了時間無關的語義場和時間敏感的語義場,前者基于CLIP提取語義特征,且不對語義特征的變化進行建模;后者則采用該方法提取時間敏感語義,并利用狀態變化網絡對語義特征進行建模。

在進行時間敏感查詢時,首先通過時間無關場生成對應物體的查詢掩碼,然后計算掩碼內時間敏感場的平均相關系數,并給出預測幀的結果。

通過結合這兩個場,該方法能夠同時勝任時間敏感查詢和時間無關查詢任務。

實驗

實驗設置

由于目前缺乏針對4D語義查詢的標注數據,研究人員在HyperNeRF和Neu3D這兩個數據集上進行了手工標注,構建了一個專門用于4D語義查詢的數據集。

在評估指標方面,針對不同的查詢任務設計了相應的衡量標準:

  • 時間無關查詢:使用平均準確率(mACC)和平均交并比(mIoU)作為查詢結果的評估指標。
  • 時間敏感查詢:使用幀級別的預測準確率(ACC)和像素級別的平均交并比(vIoU)作為評估指標

結果:該方法在時間敏感和時間無關查詢兩個子任務上都顯著優于最先進的方法。在時間敏感查詢上,與基于CLIP特征的方法相比,該方法在幀級別準確率(ACC)和像素級別平均交并比(vIoU)上分別提升了29.03%和27.54%。

時間無關查詢方面,在HyperNeRF和Neu3D兩個場景中,該方法在平均交并比(mIoU)上分別比基線方法提升了7.56%和23.62%

圖片

消融實驗

為了驗證該方法中各個組件的有效性,研究人員在論文中進行了詳細的消融實驗。實驗結果表明,每個組件都對最終性能的提升起到了重要作用。

貢獻

  1. 使用MLLM生成的對象文本描述構建4D語言特征。
  2. 為了對4D場景中對象的狀態間平滑過渡進行建模,進一步提出了一個狀態可變形網絡來捕捉連續的時間變化。
  3. 實驗結果表明,該方法在時間無關和時間敏感的開放詞匯查詢中都達到了最先進的性能。
  4. 通過人工標注,研究人員構建了一個用于4D開放詞匯查詢的數據集,為未來相關方向的研究提供了定量化的指標。
責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-19 10:20:53

2025-02-19 14:10:00

AI3D生成

2024-06-21 13:18:25

模型訓練

2023-01-31 10:04:36

AI算法

2024-01-19 16:35:00

模型動畫

2024-12-16 14:40:00

AI模型訓練

2024-06-12 09:48:39

2023-11-27 09:49:37

自動駕駛數據

2025-03-21 09:30:42

2023-03-20 09:38:42

Meta數據

2024-01-03 10:05:07

自動駕駛4D雷達

2024-10-28 13:30:00

2025-03-14 10:26:58

2024-10-17 10:28:23

2024-06-24 08:15:00

2023-06-09 13:40:47

2021-01-22 15:49:55

低代碼開源UBML

2015-01-05 10:13:37

2022-06-25 21:26:45

自動駕駛技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产福利免费视频 | 成人国产精品色哟哟 | 成人av高清在线观看 | 蜜桃精品视频在线 | www.一区二区三区.com | 国产精品视频一区二区三区 | 美女三区| 请别相信他免费喜剧电影在线观看 | 久操av在线 | 91视频网 | 国产日韩欧美电影 | 欧美一级欧美三级在线观看 | 狠狠色综合欧美激情 | 亚洲一区二区三区在线播放 | 日韩一区二区在线看 | 日本在线你懂的 | 爱爱小视频 | 一级做a爰片久久毛片 | 亚洲小视频在线播放 | 性色av一区 | 国产福利在线视频 | 久久精品亚洲精品国产欧美 | av永久| 国产成人免费视频网站高清观看视频 | 一道本视频 | 91一区 | 91成人免费看| 久久综合久久综合久久综合 | 亚洲免费观看视频网站 | 日韩在线成人 | 看av片网站 | 精品日韩一区二区 | 在线播放一区二区三区 | 一级欧美一级日韩片 | 日韩精品在线观看视频 | 日韩三级电影在线看 | 欧美视频成人 | 一区二区三区在线 | 91黄色免费看 | 一区视频在线播放 | www.蜜桃av.com|