雙人動(dòng)作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025
雙人動(dòng)作生成新SOTA!
針對(duì)Human-human motion generation問題,浙江大學(xué)提出了一種對(duì)雙人運(yùn)動(dòng)序列進(jìn)行時(shí)序和因果建模的架構(gòu)TIMotion,論文已發(fā)表于CVPR 2025。
具體來說,通過分別利用運(yùn)動(dòng)序列時(shí)間上的因果關(guān)系和兩人交互過程中的主動(dòng)被動(dòng)關(guān)系,TIMotion設(shè)計(jì)了兩種有效的序列建模方式。
此外還設(shè)計(jì)了局部運(yùn)動(dòng)模式增強(qiáng),使得生成的運(yùn)動(dòng)更加平滑自然。
同一提示詞下,使用TIMotion和當(dāng)前SOTA方法Intergen對(duì)比如下:
(翻譯版)這兩個(gè)人傾斜著身子,面對(duì)面,玩起了石頭剪刀布。與此同時(shí),有一個(gè)人選擇出布。
仔細(xì)對(duì)比手部動(dòng)作,可以看出TIMotion的生成效果更好。
除此之外,實(shí)驗(yàn)結(jié)果顯示,TIMotion在InterHuman和InterX數(shù)據(jù)集上均達(dá)到了SOTA效果。
下面具體來看。
全新瞄準(zhǔn)雙人動(dòng)作生成
在生成式計(jì)算機(jī)視覺領(lǐng)域,人類動(dòng)作生成對(duì)計(jì)算機(jī)動(dòng)畫、游戲開發(fā)和機(jī)器人控制都具有重要意義。
近年來,在用戶指定的各種條件的驅(qū)動(dòng)下,人類動(dòng)作生成技術(shù)取得了顯著進(jìn)步。其中,許多利用大語言模型和擴(kuò)散模型的方法得益于其強(qiáng)大的建模能力,在生成逼真而多樣的動(dòng)作方面取得了令人矚目的成果。
盡管取得了這一進(jìn)展,但現(xiàn)有的大多數(shù)方法主要是針對(duì)單人運(yùn)動(dòng)場景而設(shè)計(jì)的,因此忽略了人體運(yùn)動(dòng)的一個(gè)關(guān)鍵因素:人與人之間復(fù)雜而動(dòng)態(tài)的互動(dòng)。
為了更好地探索雙人動(dòng)作生成,研究團(tuán)隊(duì)首先抽象出了一個(gè)通用框架MetaMotion,如圖1左側(cè)所示,它由兩個(gè)階段組成:時(shí)序建模和交互混合。
以往的方法優(yōu)先考慮的是交互混合而非時(shí)序建模,主要分為以下兩類:
- 基于單人生成方法的擴(kuò)展
- 基于單人建模的方法
如圖(a)所示,基于單人生成方法的擴(kuò)展會(huì)將兩個(gè)人合并成一個(gè)人,然后將其輸入現(xiàn)有的單人運(yùn)動(dòng)生成模塊之中。基于單人建模的方法如圖(b)所示,是對(duì)兩個(gè)個(gè)體單獨(dú)建模,然后分別使用自我注意和交叉注意機(jī)制,從兩個(gè)個(gè)體自身和對(duì)方身上提取運(yùn)動(dòng)信息。
按照MetaMotion的一般邏輯,團(tuán)隊(duì)提出了 “時(shí)空交互框架”(Temporal and Interactive Framework),如圖(c)所示,該框架模擬了人與人之間的因果互動(dòng),這種有效的時(shí)序建模方法可以簡化交互混合模塊的設(shè)計(jì),減少可學(xué)習(xí)參數(shù)的數(shù)量。
提出雙人動(dòng)作生成架構(gòu)TIMotion
團(tuán)隊(duì)首次提出了用于雙人動(dòng)作生成的核心概念 “MetaMotion”。
如上圖所示,他們將雙人運(yùn)動(dòng)生成過程抽象為兩個(gè)階段:時(shí)序建模和交互混合。
具體來說,兩個(gè)單人序列通過時(shí)序建模模塊得到輸入序列。然后,輸入序列被送入交互混合模塊,這一過程可表示為其中,InteractionMixing通常是Transformer結(jié)構(gòu),包括自注意和交叉注意機(jī)制。
值得注意的是,InteractionMixing也可以是一些新興結(jié)構(gòu),比如Mamba、RWKV等等。
TIMotion
TIMotion的整體架構(gòu)如下圖所示,主要包含三個(gè)部分:(1) Causal Interactive Injection; (2) Role-Evolving Scanning; (3) Localized Pattern Amplification。
Causal Interactive Injection
運(yùn)動(dòng)的自我感知以及與他人運(yùn)動(dòng)的交互感知是雙人運(yùn)動(dòng)生成的關(guān)鍵要素。
考慮到運(yùn)動(dòng)的因果屬性,團(tuán)隊(duì)提出了 “因果互動(dòng)注入”(Causal Interactive Injection)這一時(shí)序建模方法,以同時(shí)實(shí)現(xiàn)對(duì)自我運(yùn)動(dòng)的感知和兩人之間的互動(dòng)。
具體來說,團(tuán)隊(duì)用表示兩個(gè)單人運(yùn)動(dòng)序列,其中
和
是各自的運(yùn)動(dòng)序列,L是序列的長度。
由于兩個(gè)人在當(dāng)前時(shí)間步的運(yùn)動(dòng)是由他們在之前時(shí)間步的運(yùn)動(dòng)共同決定的,因此團(tuán)隊(duì)將兩個(gè)人的運(yùn)動(dòng)序列建模為一個(gè)因果交互序列,符號(hào) // 表示除法后四舍五入,k可以通過下式獲得:
然后,團(tuán)隊(duì)可以將它們注入交互混合模塊,并根據(jù)k的定義將兩個(gè)個(gè)體的動(dòng)作特征從輸出結(jié)果中分離出來。
Role-Evolving Scanning
人類在交互過程中通常存在一定的內(nèi)在順序,例如,“握手”通常由一個(gè)人先伸出手,這意味著交互動(dòng)作可以被分為主動(dòng)運(yùn)動(dòng)和被動(dòng)運(yùn)動(dòng)。
一些方法將文本描述分為主動(dòng)和被動(dòng)語態(tài)。
然而,隨著互動(dòng)的進(jìn)行,“主動(dòng)方”和“被動(dòng)方”不斷在兩人之間交換,如圖3所示。
為了避免冗余的文本預(yù)處理并且適應(yīng)角色的不斷變化,論文設(shè)計(jì)了一種高效且有效的方法:角色演變掃描(Role-Evolving Scanning)。
對(duì)于在Causal Interactive Injection中定義的因果交互序列x,顯然a和b分別代表了主動(dòng)方運(yùn)動(dòng)序列和被動(dòng)方運(yùn)動(dòng)序列。然而這種關(guān)于主動(dòng)和被動(dòng)序列的假設(shè)并不總是符合實(shí)際順序。
為了應(yīng)對(duì)角色的變化,論文將因果交互序列重新建模為對(duì)稱因果交互序列,k’由下式得到:
給定因果交互序列和對(duì)稱因果交互序列,論文通過角色演變掃描得到最終的雙人交互序列:
然后序列X被送入交互混合模塊得到動(dòng)作的特征。
接下來,分別按照特征通道和時(shí)間的維度將兩個(gè)人的特征取出,并按照元素相加得到兩人交互后的最終特征,特征split和fuse過程如下式:
其中表示按元素相加。
通過利用 “角色演變掃描 ”技術(shù)讓兩個(gè)人同時(shí)扮演主動(dòng)和被動(dòng)角色,網(wǎng)絡(luò)可以根據(jù)文本的語義和動(dòng)作的上下文動(dòng)態(tài)調(diào)整兩個(gè)人的角色。
Localized Pattern Amplification
因果交互注入和角色演變掃描主要基于雙人互動(dòng)之間的因果關(guān)系來建模整體運(yùn)動(dòng),但忽視了對(duì)局部運(yùn)動(dòng)模式的關(guān)注。
為了解決這個(gè)問題,論文提出了局部運(yùn)動(dòng)模式增強(qiáng)(Localized Pattern Amplification),通過捕捉每個(gè)人的短期運(yùn)動(dòng)模式,使得生成更加平滑和合理的運(yùn)動(dòng)。
具體來說,論文利用一維卷積層和殘差結(jié)構(gòu)來實(shí)現(xiàn)局部運(yùn)動(dòng)模式增強(qiáng)。給定條件嵌入和兩個(gè)單人的運(yùn)動(dòng)序列,可以建立下式的結(jié)構(gòu):
其中Convk表示卷積核為k的一維卷積,AdaLN為自適應(yīng)層正則化。
得到全局輸出和局部輸出
后,兩者通過特征通道維度的進(jìn)行Concat,然后通過線性層對(duì)特征進(jìn)行轉(zhuǎn)換,得到最終輸出特征:
通過這種方式,能夠捕捉每個(gè)人的短期動(dòng)作模式,并將其與條件嵌入結(jié)合,從而生成更平滑和更合理的動(dòng)作序列。
目標(biāo)函數(shù)
論文采用了常見的單人動(dòng)作損失函數(shù),包括足部接觸損失和關(guān)節(jié)速度損失。
此外,還使用了與InterGen相同的正則化損失函數(shù),包括骨長度損失、掩碼關(guān)節(jié)距離圖損失和相對(duì)方向損失。
最終,總體損失定義為:
實(shí)驗(yàn)結(jié)果
在InterHuman數(shù)據(jù)集上,TIMotion在三個(gè)不同的交互混合結(jié)構(gòu)(Transformer, Mamba, RWKV)上都獲得了較好的表現(xiàn),其中TIMotion和RWKV結(jié)構(gòu)相結(jié)合FID達(dá)4.702,Top1 R precision達(dá)到0.501,達(dá)到了SOTA。
在InterX數(shù)據(jù)集上,TIMotion在R precision,F(xiàn)ID, MM Dist等度量指標(biāo)上也達(dá)到了最優(yōu)的表現(xiàn)。
在計(jì)算復(fù)雜度方面,論文將TIMotion與當(dāng)前最先進(jìn)的方法InterGen進(jìn)行了比較。
與InterGen相比,TIMotion所需的參數(shù)和FLOPs更少,但在綜合指標(biāo)FID和R Precision方面優(yōu)于InterGen。
值得注意的是,使用與InterGen類似的Transformer架構(gòu),TIMotion每個(gè)樣本的平均推理時(shí)間僅為0.632秒,而InterGen則需要1.991秒。
論文在InterHuman的測試集上進(jìn)行了運(yùn)動(dòng)編輯的實(shí)驗(yàn),通過給定序列的前10%和后10%幀讓模型預(yù)測額外80%幀的序列來進(jìn)行評(píng)估方法的可編輯性。
Table 6顯示了TIMotion在運(yùn)動(dòng)插值編輯任務(wù)中,在所有度量指標(biāo)上都超越了InterGen。
總結(jié)
論文將雙人運(yùn)動(dòng)生成過程抽象為一個(gè)通用框架MetaMotion,其中包括兩個(gè)階段:時(shí)間建模和交互混合。
研究發(fā)現(xiàn),由于目前的方法對(duì)時(shí)序建模的關(guān)注不足,導(dǎo)致次優(yōu)結(jié)果和模型參數(shù)冗余。
在此基礎(chǔ)上,團(tuán)隊(duì)提出了TIMotion,這是一種高效、出色的雙人運(yùn)動(dòng)生成方法。
具體來說,他們首先提出了Causal Interactive Injection,利用時(shí)序和因果屬性將兩個(gè)獨(dú)立的擔(dān)任序列建模為一個(gè)因果序列。
此外,還提出了Role-Evolving Mixing來適應(yīng)整個(gè)互動(dòng)過程中的動(dòng)態(tài)角色,并設(shè)計(jì)了Localized Pattern Amplification來捕捉短期運(yùn)動(dòng)模式,從而生成更平滑、更合理的運(yùn)動(dòng)。
TIMotion在兩個(gè)大規(guī)模雙人運(yùn)動(dòng)生成的數(shù)據(jù)集InterHuman和InterX上均達(dá)到了SOTA的效果,證明了論文所提出方法的有效性。
因此,TIMotion為Human-human motion generation提供了一個(gè)有效的解決方案。
論文:
https://arxiv.org/abs/2408.17135
項(xiàng)目主頁:
https://aigc-explorer.github.io/TIMotion-page/