成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

雙人動(dòng)作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025

人工智能 新聞
浙江大學(xué)提出了一種對(duì)雙人運(yùn)動(dòng)序列進(jìn)行時(shí)序和因果建模的架構(gòu)TIMotion,論文已發(fā)表于CVPR 2025。

雙人動(dòng)作生成新SOTA!

針對(duì)Human-human motion generation問題,浙江大學(xué)提出了一種對(duì)雙人運(yùn)動(dòng)序列進(jìn)行時(shí)序和因果建模的架構(gòu)TIMotion,論文已發(fā)表于CVPR 2025

圖片

具體來說,通過分別利用運(yùn)動(dòng)序列時(shí)間上的因果關(guān)系和兩人交互過程中的主動(dòng)被動(dòng)關(guān)系,TIMotion設(shè)計(jì)了兩種有效的序列建模方式。

此外還設(shè)計(jì)了局部運(yùn)動(dòng)模式增強(qiáng),使得生成的運(yùn)動(dòng)更加平滑自然。

同一提示詞下,使用TIMotion和當(dāng)前SOTA方法Intergen對(duì)比如下:

(翻譯版)這兩個(gè)人傾斜著身子,面對(duì)面,玩起了石頭剪刀布。與此同時(shí),有一個(gè)人選擇出布。

圖片

仔細(xì)對(duì)比手部動(dòng)作,可以看出TIMotion的生成效果更好。

除此之外,實(shí)驗(yàn)結(jié)果顯示,TIMotion在InterHuman和InterX數(shù)據(jù)集上均達(dá)到了SOTA效果。

下面具體來看。

全新瞄準(zhǔn)雙人動(dòng)作生成

在生成式計(jì)算機(jī)視覺領(lǐng)域,人類動(dòng)作生成對(duì)計(jì)算機(jī)動(dòng)畫、游戲開發(fā)和機(jī)器人控制都具有重要意義。

近年來,在用戶指定的各種條件的驅(qū)動(dòng)下,人類動(dòng)作生成技術(shù)取得了顯著進(jìn)步。其中,許多利用大語言模型和擴(kuò)散模型的方法得益于其強(qiáng)大的建模能力,在生成逼真而多樣的動(dòng)作方面取得了令人矚目的成果。

盡管取得了這一進(jìn)展,但現(xiàn)有的大多數(shù)方法主要是針對(duì)單人運(yùn)動(dòng)場景而設(shè)計(jì)的,因此忽略了人體運(yùn)動(dòng)的一個(gè)關(guān)鍵因素:人與人之間復(fù)雜而動(dòng)態(tài)的互動(dòng)

為了更好地探索雙人動(dòng)作生成,研究團(tuán)隊(duì)首先抽象出了一個(gè)通用框架MetaMotion,如圖1左側(cè)所示,它由兩個(gè)階段組成:時(shí)序建模和交互混合。

以往的方法優(yōu)先考慮的是交互混合而非時(shí)序建模,主要分為以下兩類:

  • 基于單人生成方法的擴(kuò)展
  • 基于單人建模的方法

如圖(a)所示,基于單人生成方法的擴(kuò)展會(huì)將兩個(gè)人合并成一個(gè)人,然后將其輸入現(xiàn)有的單人運(yùn)動(dòng)生成模塊之中。基于單人建模的方法如圖(b)所示,是對(duì)兩個(gè)個(gè)體單獨(dú)建模,然后分別使用自我注意和交叉注意機(jī)制,從兩個(gè)個(gè)體自身和對(duì)方身上提取運(yùn)動(dòng)信息。

圖片

按照MetaMotion的一般邏輯,團(tuán)隊(duì)提出了 “時(shí)空交互框架”(Temporal and Interactive Framework),如圖(c)所示,該框架模擬了人與人之間的因果互動(dòng),這種有效的時(shí)序建模方法可以簡化交互混合模塊的設(shè)計(jì),減少可學(xué)習(xí)參數(shù)的數(shù)量。

提出雙人動(dòng)作生成架構(gòu)TIMotion

團(tuán)隊(duì)首次提出了用于雙人動(dòng)作生成的核心概念 “MetaMotion”。

如上圖所示,他們將雙人運(yùn)動(dòng)生成過程抽象為兩個(gè)階段:時(shí)序建模和交互混合

具體來說,兩個(gè)單人序列通過時(shí)序建模模塊得到輸入序列。然后,輸入序列被送入交互混合模塊,這一過程可表示為圖片其中,InteractionMixing通常是Transformer結(jié)構(gòu),包括自注意和交叉注意機(jī)制。

值得注意的是,InteractionMixing也可以是一些新興結(jié)構(gòu),比如Mamba、RWKV等等。

TIMotion

TIMotion的整體架構(gòu)如下圖所示,主要包含三個(gè)部分:(1) Causal Interactive Injection; (2) Role-Evolving Scanning; (3) Localized Pattern Amplification。

圖片

Causal Interactive Injection

運(yùn)動(dòng)的自我感知以及與他人運(yùn)動(dòng)的交互感知是雙人運(yùn)動(dòng)生成的關(guān)鍵要素。

考慮到運(yùn)動(dòng)的因果屬性,團(tuán)隊(duì)提出了 “因果互動(dòng)注入”(Causal Interactive Injection)這一時(shí)序建模方法,以同時(shí)實(shí)現(xiàn)對(duì)自我運(yùn)動(dòng)的感知和兩人之間的互動(dòng)。

具體來說,團(tuán)隊(duì)用圖片表示兩個(gè)單人運(yùn)動(dòng)序列,其中圖片圖片是各自的運(yùn)動(dòng)序列,L是序列的長度。

由于兩個(gè)人在當(dāng)前時(shí)間步的運(yùn)動(dòng)是由他們在之前時(shí)間步的運(yùn)動(dòng)共同決定的,因此團(tuán)隊(duì)將兩個(gè)人的運(yùn)動(dòng)序列建模為一個(gè)因果交互序列圖片,符號(hào) // 表示除法后四舍五入,k可以通過下式獲得:

圖片

然后,團(tuán)隊(duì)可以將它們注入交互混合模塊,并根據(jù)k的定義將兩個(gè)個(gè)體的動(dòng)作特征從輸出結(jié)果中分離出來。

Role-Evolving Scanning

人類在交互過程中通常存在一定的內(nèi)在順序,例如,“握手”通常由一個(gè)人先伸出手,這意味著交互動(dòng)作可以被分為主動(dòng)運(yùn)動(dòng)和被動(dòng)運(yùn)動(dòng)

一些方法將文本描述分為主動(dòng)和被動(dòng)語態(tài)。

然而,隨著互動(dòng)的進(jìn)行,“主動(dòng)方”和“被動(dòng)方”不斷在兩人之間交換,如圖3所示。

為了避免冗余的文本預(yù)處理并且適應(yīng)角色的不斷變化,論文設(shè)計(jì)了一種高效且有效的方法:角色演變掃描(Role-Evolving Scanning)。

圖片

對(duì)于在Causal Interactive Injection中定義的因果交互序列x,顯然a和b分別代表了主動(dòng)方運(yùn)動(dòng)序列和被動(dòng)方運(yùn)動(dòng)序列。然而這種關(guān)于主動(dòng)和被動(dòng)序列的假設(shè)并不總是符合實(shí)際順序。

為了應(yīng)對(duì)角色的變化,論文將因果交互序列重新建模為對(duì)稱因果交互序列圖片,k’由下式得到:

圖片

給定因果交互序列和對(duì)稱因果交互序列,論文通過角色演變掃描得到最終的雙人交互序列:

圖片

然后序列X被送入交互混合模塊得到動(dòng)作的特征。

接下來,分別按照特征通道和時(shí)間的維度將兩個(gè)人的特征取出,并按照元素相加得到兩人交互后的最終特征,特征split和fuse過程如下式:

圖片

其中圖片表示按元素相加。

通過利用 “角色演變掃描 ”技術(shù)讓兩個(gè)人同時(shí)扮演主動(dòng)和被動(dòng)角色,網(wǎng)絡(luò)可以根據(jù)文本的語義和動(dòng)作的上下文動(dòng)態(tài)調(diào)整兩個(gè)人的角色。

Localized Pattern Amplification

因果交互注入和角色演變掃描主要基于雙人互動(dòng)之間的因果關(guān)系來建模整體運(yùn)動(dòng),但忽視了對(duì)局部運(yùn)動(dòng)模式的關(guān)注。

為了解決這個(gè)問題,論文提出了局部運(yùn)動(dòng)模式增強(qiáng)(Localized Pattern Amplification),通過捕捉每個(gè)人的短期運(yùn)動(dòng)模式,使得生成更加平滑和合理的運(yùn)動(dòng)。

具體來說,論文利用一維卷積層和殘差結(jié)構(gòu)來實(shí)現(xiàn)局部運(yùn)動(dòng)模式增強(qiáng)。給定條件嵌入和兩個(gè)單人的運(yùn)動(dòng)序列,可以建立下式的結(jié)構(gòu):

圖片

其中Convk表示卷積核為k的一維卷積,AdaLN為自適應(yīng)層正則化。

得到全局輸出圖片和局部輸出圖片后,兩者通過特征通道維度的進(jìn)行Concat,然后通過線性層對(duì)特征進(jìn)行轉(zhuǎn)換,得到最終輸出特征:

圖片

通過這種方式,能夠捕捉每個(gè)人的短期動(dòng)作模式,并將其與條件嵌入結(jié)合,從而生成更平滑和更合理的動(dòng)作序列。

目標(biāo)函數(shù)

論文采用了常見的單人動(dòng)作損失函數(shù),包括足部接觸損失和關(guān)節(jié)速度損失。

此外,還使用了與InterGen相同的正則化損失函數(shù),包括骨長度損失、掩碼關(guān)節(jié)距離圖損失和相對(duì)方向損失。

最終,總體損失定義為:

圖片

實(shí)驗(yàn)結(jié)果

在InterHuman數(shù)據(jù)集上,TIMotion在三個(gè)不同的交互混合結(jié)構(gòu)(Transformer, Mamba, RWKV)上都獲得了較好的表現(xiàn),其中TIMotion和RWKV結(jié)構(gòu)相結(jié)合FID達(dá)4.702,Top1 R precision達(dá)到0.501,達(dá)到了SOTA。

圖片

在InterX數(shù)據(jù)集上,TIMotion在R precision,F(xiàn)ID, MM Dist等度量指標(biāo)上也達(dá)到了最優(yōu)的表現(xiàn)。

圖片

在計(jì)算復(fù)雜度方面,論文將TIMotion與當(dāng)前最先進(jìn)的方法InterGen進(jìn)行了比較。

與InterGen相比,TIMotion所需的參數(shù)和FLOPs更少,但在綜合指標(biāo)FID和R Precision方面優(yōu)于InterGen。

值得注意的是,使用與InterGen類似的Transformer架構(gòu),TIMotion每個(gè)樣本的平均推理時(shí)間僅為0.632秒,而InterGen則需要1.991秒。

圖片

論文在InterHuman的測試集上進(jìn)行了運(yùn)動(dòng)編輯的實(shí)驗(yàn),通過給定序列的前10%和后10%幀讓模型預(yù)測額外80%幀的序列來進(jìn)行評(píng)估方法的可編輯性。

Table 6顯示了TIMotion在運(yùn)動(dòng)插值編輯任務(wù)中,在所有度量指標(biāo)上都超越了InterGen。

圖片

總結(jié)

論文將雙人運(yùn)動(dòng)生成過程抽象為一個(gè)通用框架MetaMotion,其中包括兩個(gè)階段:時(shí)間建模和交互混合。

研究發(fā)現(xiàn),由于目前的方法對(duì)時(shí)序建模的關(guān)注不足,導(dǎo)致次優(yōu)結(jié)果和模型參數(shù)冗余。

在此基礎(chǔ)上,團(tuán)隊(duì)提出了TIMotion,這是一種高效、出色的雙人運(yùn)動(dòng)生成方法。

具體來說,他們首先提出了Causal Interactive Injection,利用時(shí)序和因果屬性將兩個(gè)獨(dú)立的擔(dān)任序列建模為一個(gè)因果序列。

此外,還提出了Role-Evolving Mixing來適應(yīng)整個(gè)互動(dòng)過程中的動(dòng)態(tài)角色,并設(shè)計(jì)了Localized Pattern Amplification來捕捉短期運(yùn)動(dòng)模式,從而生成更平滑、更合理的運(yùn)動(dòng)。

TIMotion在兩個(gè)大規(guī)模雙人運(yùn)動(dòng)生成的數(shù)據(jù)集InterHuman和InterX上均達(dá)到了SOTA的效果,證明了論文所提出方法的有效性。

因此,TIMotion為Human-human motion generation提供了一個(gè)有效的解決方案。

論文:
https://arxiv.org/abs/2408.17135
項(xiàng)目主頁:
https://aigc-explorer.github.io/TIMotion-page/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-01-13 12:33:42

2024-01-18 12:37:31

SOTA3D方法

2024-08-06 11:30:00

2022-11-08 15:05:49

模型參數(shù)

2025-01-26 10:27:50

生成AI模型

2021-09-15 15:04:13

數(shù)據(jù)視頻技術(shù)

2024-12-23 15:30:00

模型AI測試

2025-03-21 09:30:42

2023-07-27 13:58:19

2024-01-12 13:10:06

AI數(shù)據(jù)

2025-01-26 10:50:00

模型視頻生成

2023-03-09 14:04:00

谷歌研究

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2025-04-25 09:05:00

2021-12-01 10:05:12

模型人工智能計(jì)算

2025-03-10 08:47:00

模型AI訓(xùn)練

2025-03-07 08:50:00

AI生成技術(shù)

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-12-27 10:00:00

數(shù)據(jù)自動(dòng)駕駛

2023-12-08 14:14:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 97精品国产一区二区三区 | 亚洲视频一区 | 羞视频在线观看 | 日韩三级一区 | 韩国主播午夜大尺度福利 | 一区二区三区免费 | 视频一区二区在线 | 国产在线一区二 | 在线播放国产一区二区三区 | 91av国产在线视频 | 日韩二区 | 国产精品久久久久久久一区探花 | 日韩国产中文字幕 | 亚洲激情一级片 | 日韩一区二区三区在线 | 国产999精品久久久影片官网 | 久久免费视频观看 | 亚洲精选一区 | 99在线资源| 97精品超碰一区二区三区 | 欧美日韩亚 | 手机av在线 | 亚洲国产18| 国产99久久| 欧美日韩国产一区二区三区 | 日韩中文在线 | 国产精品亚洲一区二区三区在线 | 日本免费一区二区三区视频 | 欧美日韩免费在线 | 欧美区在线 | 免费 视频 1级 | 在线视频一区二区三区 | 夜夜精品视频 | 99国产精品99久久久久久粉嫩 | 91私密视频 | 人碰人操| 中文字幕精品一区久久久久 | 国产一级电影在线 | 日韩欧美一区二区三区免费看 | 亚洲一区二区三区高清 | 美女视频黄的 |