AI跳舞哪家強?谷歌3D舞者聞歌起舞,挑戰(zhàn)DanceNet
這次,Transformer 參與了舞蹈生成任務(wù)。
在藝術(shù)領(lǐng)域,AI 有著各式各樣的應(yīng)用,如 AI 生成音樂、AI 繪畫。
跳舞,也是 AI 努力學習的一種能力。
此前,以音樂的風格、節(jié)奏和旋律作為控制信號來生成 3D 舞蹈動作的 DaceNet 曾紅極一時。
如今,DanceNet 迎來了新的挑戰(zhàn)者——來自谷歌的最新研究 AI Choreographer:給定一段 2 秒的指導(dǎo)動作,AI 模型可以按照音樂節(jié)奏生成一長段自然的舞蹈動作。
生成的舞蹈效果是這樣的(遺憾的是動圖沒有聲音):
而和 DanceNet 這些同類研究相比,谷歌新方法的效果更為明顯。左邊兩種方法生成的舞蹈動作像「抽風」,該新方法則更加流暢自然:
值得注意的是,這還是一個基于 Transformer 的模型。
論文地址:https://arxiv.org/pdf/2101.08779v1.pdf
項目地址:https://google.github.io/aichoreographer/
下面讓我們看下論文細節(jié):
通過編排與音樂節(jié)拍一致的動作模式來跳舞是人類的一項基本能力。舞蹈是所有文化中的通用語言,如今,許多人在多媒體平臺上通過舞蹈來表現(xiàn)自己。在 YouTube 上最受歡迎的視頻是以舞蹈為主的音樂視頻,例如 Baby Shark Dance、江南 Style,在互聯(lián)網(wǎng)信息傳播中,舞蹈成為強大的傳播工具。
然而,舞蹈是一種藝術(shù)形式,即使是人類,也需要專業(yè)培訓才能使舞蹈演員掌握豐富的舞蹈動作曲目,創(chuàng)造出富有表現(xiàn)力的舞蹈編排。從計算方面來講更具有挑戰(zhàn)性,因為該任務(wù)需要有能力生成一個連續(xù)的高運動學復(fù)雜度動作,捕捉與伴奏音樂的非線性關(guān)系。
在這項研究中,來自南加州大學、谷歌研究院、加州大學伯克利分校的研究者提出了一個基于 transformer 的跨模態(tài)學習架構(gòu)和一個新的 3D 舞蹈動作數(shù)據(jù)集 AIST++,該數(shù)據(jù)集用來訓練一個生成 3D 舞蹈動作的模型。
具體來說,給定一段音樂和一個短的(2 秒)種子動作(seed motion),本文模型能夠生成一個長序列的逼真 3D 舞蹈動作。該模型有效地學習了音樂動作的相關(guān)性,并且可以生成不同輸入音樂的舞蹈序列。研究者將舞蹈表示為一個由關(guān)節(jié)旋轉(zhuǎn)和全局平移組成的 3D 動作序列,這使得輸出可以很容易地遷移至動作重定向等應(yīng)用,具體流程如下圖 1 所示:
在學習框架方面,該研究提出了一種新的基于 transformer 的跨模態(tài)架構(gòu)來生成基于音樂的 3D 動作。該架構(gòu)建立在已被證明對長序列生成特別有效的基于注意力的網(wǎng)絡(luò) [15, 62, 3, 71]上,并從視覺和語言的跨模態(tài)文獻 [71] 中獲得靈感,設(shè)計了一個使用三個 transformer 的框架,分別用于音頻序列表示、動作表示和跨模態(tài)音頻 - 動作表示。其中動作和音頻 transformer 對輸入序列進行編碼,而跨模態(tài) transformer 學習這兩種模態(tài)之間的相關(guān)性,并生成未來的動作序列。
該研究精心設(shè)計的新型跨模態(tài) transformer 具有自回歸特性,但需要全注意力(full-attention)和 future-N 監(jiān)督,這對于防止 3D 運動在多次迭代后凍結(jié)或漂移非常關(guān)鍵,正如先前關(guān)于 3D 運動生成所述[4,3]。由此生成模型為不同的音樂生成不同的舞蹈序列,同時生成長時間的逼真動作,在進行推理時不受漂移凍結(jié)的影響。
AIST++ 數(shù)據(jù)集
為了訓練模型,該研究還創(chuàng)建了一個新的數(shù)據(jù)集:AIST++。該數(shù)據(jù)集在 AIST(多視角舞蹈視頻庫) [78]基礎(chǔ)上進行構(gòu)建。研究者利用多視角信息從數(shù)據(jù)中恢復(fù)可靠的 3D 動作。注意,雖然這個數(shù)據(jù)集具有多視角照片,但相機并未校準,這使得 3D 重建非常具有挑戰(zhàn)性。
AIST++ 數(shù)據(jù)集包含高達 110 萬幀伴有音樂的 3D 舞蹈動作,據(jù)了解,這是此類數(shù)據(jù)集中最大的一個。AIST++ 還跨越了 10 種音樂類型、30 個主題和 9 個視頻序列,并具有恢復(fù)的相機內(nèi)在特性,這對于其他人體和動作研究具有很大的潛力。
數(shù)據(jù)集地址:https://google.github.io/aistplusplus_dataset/
該研究創(chuàng)建的 AIST++ 是一個大規(guī)模 3D 舞蹈動作數(shù)據(jù)集,包含大量伴隨音樂的 3D 舞蹈動作。其中每一幀都具備以下額外標注:
- 9 種視角,包括攝像機的內(nèi)外參數(shù);
- 17 種 COCO 格式的人類關(guān)節(jié)位置,包含 2D 和 3D 形式;
- 24 個 SMPL 姿勢參數(shù),以及全局擴展和平移。
下表 1 對比了 AIST++ 和其他 3D 動作與舞蹈數(shù)據(jù)集,AIST++ 對于現(xiàn)有的 3D 動作數(shù)據(jù)集是一種補充。
此外,AIST++ 數(shù)據(jù)集包含 10 個舞種:Old School(Break、Pop、Lock 和 Waack)和 New School(Middle Hip-hop、LA-style Hip-hop、House、Krump、Street Jazz 和 Ballet Jazz),參見下圖 3:
基于音樂的 3D 舞蹈生成
問題描述:給定一個 2 秒的動作種子示例 X = (x_1, . . . , x_T) 和音樂序列 Y = (y_1, . . . , y_T'),生成時間步 T + 1 到 T' 期間的未來動作序列 X'= (x_T+1, . . . , x_T'),T' >> T。
跨模態(tài)動作生成 Transformer
該研究提出一種基于 Transformer 的網(wǎng)絡(luò)架構(gòu),它可以學習音樂 - 動作關(guān)聯(lián),生成不凝滯的逼真動作序列。架構(gòu)圖參見下圖 2:
該模型具備三個 transformer:
- 動作 transformer f_mot(X):將動作特征 X 轉(zhuǎn)換為動作嵌入 h^x_1:T;
- 音頻 transformer f_audio(Y):將音頻特征 Y 轉(zhuǎn)換為音頻嵌入 h^y_1:T';
- 跨模態(tài) transformer f_cross(h^xy_1:T +T'):學習動作和音頻兩個模態(tài)之間的對應(yīng),并生成未來動作 X'。
為了更好地學習兩個模態(tài)之間的關(guān)聯(lián),該研究使用了一個深度為 12 層的跨模態(tài) transformer。研究者發(fā)現(xiàn),跨模態(tài) transformer 的深度越大,模型對兩種模態(tài)的關(guān)注越多(參見下圖 6)。
實驗
定量評估
研究者報告了該方法與兩種基線方法在 AIST++ 測試集上的定量評估結(jié)果,見下表 2:
動作質(zhì)量:從上表中可以看出,該方法生成的動作序列關(guān)節(jié)和速度分布更接近真值動作。
動作多樣性:表 2 展示了,相比基線方法,該研究提出的方法能夠生成更多樣的舞蹈動作。控制變量研究結(jié)果表明,網(wǎng)絡(luò)設(shè)計,尤其跨模態(tài) transformer,是帶來這一差異的主要原因。研究者將該方法生成的多樣化舞蹈動作進行了可視化,參見下圖 7:
動作 - 音樂關(guān)聯(lián):從表 2 中還可以看出,該方法生成的動作與輸入音樂的關(guān)聯(lián)性更強。下圖 5 中的示例展示了生成動作的運動節(jié)拍與音樂節(jié)拍能夠?qū)崿F(xiàn)很好地匹配。
但是,在與真實數(shù)據(jù)進行對比時,這三種方法都有很大的改進空間。這表明,音樂動作關(guān)聯(lián)仍然是一個極具挑戰(zhàn)性的問題。
控制變量研究
跨模態(tài) Transformer:該論文利用三種不同設(shè)置研究跨模態(tài) Transformer 的功能:1)14 層動作 transformer;2)13 層動作 / 音頻 transformer 和 1 層跨模態(tài) Transformer;3)2 層動作 / 音頻 transformer 和 12 層跨模態(tài) Transformer。
下表 3 表明跨模態(tài) Transformer 對于生成與輸入音樂關(guān)聯(lián)性強的動作至關(guān)重要。
如圖 6 所示,更深的跨模態(tài) Transformer 能夠更加關(guān)注輸入音樂,從而帶來更好的音樂 - 動作關(guān)聯(lián)度。
因果注意力或完全注意力 Transformer:研究者還探索了完全注意力機制和 future-N 監(jiān)督機制的效果。從下表 4 中可以看出,在使用因果注意力機制執(zhí)行 20 秒長程生成時,生成動作和真值動作的分布差異很大。對于 future-1 監(jiān)督設(shè)置下的完全注意力機制而言,長程生成期間的結(jié)果會出現(xiàn)快速漂移,而在 future-10 或 future-20 監(jiān)督設(shè)置下,模型可以生成高質(zhì)量的長程動作。