成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

網易互娛AI Lab落地全球首個舞蹈動畫合成系統

云計算
近日,網易互娛AI Lab在SIGGRAPH 2021官方的精選預告片上展現了其首個能符合實際生產環境應用要求的舞蹈動畫合成系統ChoreoMaster。

AI合成舞蹈的方法百家爭鳴,能真正落地、用于實際生產的成熟系統卻是初次面世。近日,網易互娛AI Lab在SIGGRAPH 2021官方的精選預告片上展現了其首個能符合實際生產環境應用要求的舞蹈動畫合成系統ChoreoMaster。該系統可依據音樂風格生成爵士、二次元、街舞等不同類型的舞蹈動畫,目前已為網易旗下的多款游戲項目產出了數個小時的高質量舞蹈動作資源,先來看段精彩的demo吧。

舞蹈動畫在游戲和影視行業已非常普遍,目前業內制作舞蹈動畫大多采用的是手K或動捕,因此生產一段高質量的舞蹈動畫依然需要耗費大量精力和時間。在這種情況下,AI合成舞蹈成為了時下熱門的研究課題。但舞蹈作為一種獨立的藝術形式,其動作與配樂在風格、節奏和結構等方面無一不透露出編舞學的專業知識,想要穩定輸出高質量的結果并非易事。盡管業界也曾出現過多項紅極一時的研究成果,如AI Choreographer和DanceNet3D,然而這些方案或多或少都存在局限性,且并未落地于實際商業生產應用。

 

(從左到右分別為AI Choreographer、DanceNet3D和ChoreoMaster輸入hip hop樂曲后,生成的效果對比)

 

經歷了兩年多的潛心研發,網易互娛AI LAB的研發團隊終于找到了一種能符合實際生產環境應用要求的AI舞蹈動畫合成方案ChoreoMaster,該方案的亮點在于:除了能夠快速穩定地輸出一段符合編舞美學、符合多種舞種風格、連貫自然的舞蹈動畫,還靈活支持豐富的約束方式來指導算法按照用戶期望的方向合成舞蹈動畫,如可替換或刪除指定片段、預設舞蹈軌跡和限制舞蹈范圍等。

那么ChoreoMaster是如何做到這一切的呢?網易互娛AI LAB的研究人員們從打造實際生產力工具的角度對AI舞蹈合成問題進行了新的思考。作為一款美術資源生產工具,美術同事對舞蹈動畫合成系統有兩方面的期待。首先,必須能夠持續、穩定地輸出符合落地質量標準的舞蹈動作資源;其次,合成的過程必須具備足夠的可解釋性和可控性,能以最直觀的方式讓用戶快速獲得期望的結果。

近日,網易互娛AI LAB與清華大學合作對該方案進行了系統性技術梳理,并撰寫文章《ChoreoMaster: Choreography-Oriented Music-Driven Dance Synthesis》。該文章被SIGGRAPH 2021錄用,入選SIGGRAPH 2021 Technical Papers Preview Trailer(精選預告片),同時也將在計算機動漫節 Computer Animation Festival (CAF) 上播放。

 

 

以下為研究內容分享:

已有方案

雖然目前學術界已經有大量關于“基于音樂的舞蹈合成問題”的研究工作,遺憾的是,沒有一個已有算法框架能符合上述兩方面的期待。從技術原理上劃分,目前的方案可以被分成兩個流派:基于傳統圖優化的方案和基于深度生成模型的方案。

基于傳統圖優化的方案構建于“graph-based motion synthesis”框架。其思路為對已有舞蹈動作數據進行切割分,形成大量舞蹈動作片段,并構建一個關于舞蹈動作片段的動作圖(motion graph),圖的每個節點對應一個舞蹈動作片段,圖的每條有向邊標記了兩個鄰接節點之間的過渡代價。這個過渡代價度量了一個動作片段是否能平滑地銜接在另一個動作片段后面。通過定義一個關于音樂片段和舞蹈動作片段匹配度的經驗函數,基于音樂的舞蹈動畫合成問題就轉化成了在動作圖中尋找一條與輸入音樂匹配度盡量高、同時內部過渡代價盡量小的路徑(walk)。該優化問題可以用標準的隱馬爾可夫模型(HMM)進行建模,并使用Viterbi或Beam-Search算法高效求解。這套圖優化框架具備優雅、完備的理論保障,可以以魯棒、可解釋、可控的方式合成平滑的動作,也因此成為了圖形學領域處理動作合成問題的標準解決方案。然而,目前基于圖優化的方法生成的舞蹈動作遠遠達不到專業美術的審美標準。一方面,基于淺層人工特征定義的音樂-舞蹈匹配度并不能真實地刻畫音樂和舞蹈的內在關聯;另一方面,一段完整的舞蹈也遠遠不止將一批舞蹈動作片段平滑地拼接在一起那么簡單,即使每個片段都非常美觀。專業美術在看了這些方法合成的結果后,都會給出 “動作拼湊感強”、“音樂動作契合度差”、“缺乏編舞合理性”等反饋。

在深度學習技術興起后,深度生成模型在圖像、語音、文本等諸多領域的任務中取得了令人矚目的成績,也很自然地被應用到了基于音樂的舞蹈合成任務中。從生成模型的角度來看,基于音樂的舞蹈合成任務屬于經典的針對時序數據的跨模態翻譯問題,前文展示的DanceNet3D和AI Choreographer的方案都遵循這一思路。得益于深度人工神經網絡在特征提取和表征方面的強大能力,只要數據充足并且訓練充分,這類方法都可以在一定程度上學習到音樂和舞蹈之間的一些深層次關聯。然而,就跟其他領域面臨的問題一樣,基于深度生成模型的方法想要在實際生產環境落地還有很長的路要走。首先,人工神經網絡屬于眾所周知的黑盒模型,其合成的結果幾乎沒有任何的可解釋性和可控性。其次,從機器學習的角度來說,人工神經網絡理解數據本質屬性的方式是將其投影到低維隱空間。在這個投影過程中,屬于高頻分量的動作細節往往會被當成不重要的噪音而被故意丟棄。由于丟失了這些高頻信息,深度生成模型合成的舞蹈動作很容易表現得很“呆滯”,甚至有些時候連流暢性都難以保證,更不要說達到專業美術的預期。最后,高質量三維舞蹈動作數據的生產成本要遠遠高于圖像、語音、文字等形式的數據,可供訓練的高質量音樂-舞蹈數據非常有限。舞蹈本身又是一門比較復雜的藝術形式,這導致了目前所有的深度生成模型的泛化性都很受限,模型在處理訓練數據集之外的音樂時,效果難以保證,很容易輸出奇怪的結果。

 

編舞學(Choreography)規律

在嘗試了多種方案、但合成的結果屢屢不盡如人意之后,網易互娛AI LAB的研究團隊開始從舞蹈藝術角度對結果進行審視,并系統性地學習了一門叫做編舞學(Choreography)的獨立學科。研究人員們從編舞學龐雜的主觀經驗性規律中,總結出了一些普適規則。在與專業美術持續不斷的迭代中,大家發現只要合成的舞蹈能夠遵循這些規律,就能達到美術的質量要求,甚至能夠獲得專業編舞老師的認可。

這些普適的編舞規則可以總結為:

風格相契合,即音樂和舞蹈動作所傳達出來的情緒和氛圍應該是相似的;

節奏相匹配,即音樂的節奏點和舞蹈的節奏點應該是同步的(也就是俗稱的“踩點”),并且這些節奏點出現的模式一般呈現明顯的規律性和周期性;

結構相呼應,即音樂和動作的組織結構應該是一致的,如重復的音樂段落(主歌、副歌等)對應的舞蹈動作段落一般也是重復的,重復的音樂小節對應的舞蹈動作小節一般是鏡像對稱的。

 

ChoreoMaster方案

基于這些編舞學規則、并結合已有方案的優缺點,網易互娛AI LAB的研究人員們提出了一種全新的基于音樂的舞蹈合成系統——ChoreoMaster。該系統能夠以穩定、可解釋、可控的方式持續輸出符合落地標準的高質量舞蹈動作,是業界首個production-ready的舞蹈合成工具。

 

 

ChoreoMaster的技術方案如上圖所示,包含兩個模塊:面向編舞的音樂-舞蹈Embedding(左)和面向編舞的舞蹈動作合成(右)。其中,音樂-舞蹈Embedding模塊利用深度學習技術,從高質量音樂/舞蹈數據庫中構建音樂-舞蹈在風格、節奏契合度方面的度量,用于定量描述音樂片段和舞蹈片段之間的風格匹配度和節奏匹配度;而舞蹈動作合成模塊則對傳統的圖優化框架進行擴展,在動作圖構建和優化目標函數中融入風格、節奏和結構方面的編舞學規律。下面分別對這兩個模塊進行簡單介紹。

 

a)面向編舞的音樂-舞蹈Embedding

該模塊的目標是將音樂和舞蹈的風格相契合和節奏匹配度這兩條主觀性規律轉化成可計算的客觀定量表達。因此,該模塊整體是一個跨模態 Embedding架構,包含Style(風格)和Rhythm(節奏)兩個分支,分別用于將音樂/動作片段從各自的模態空間映射為同一低維空間(32維)的Style Embedding和同一低維空間(8維)的Rhythm Embedding。網絡結構如下圖所示。

 

 

在Style方面,ChoreoMaster首先利用有風格標簽的音樂數據和動作數據獨立訓練兩個分類網絡,音樂分類網絡采用了在music tagging領域的屬于state-of-art的convolutional recurrent backbone,包含四個卷積層和兩個GRU層。動作分類網絡則采用了對稱的設計,只是將其中的卷積層替換成了經常應用于骨骼動畫數據的圖卷積層。由于這兩個網絡獨立訓練,所以這個階段并不需要配對的音樂舞蹈數據。在兩個分支各自訓練到收斂的基礎上,ChoreoMaster利用配對的音樂和舞蹈數據對這兩個分支進行聯合訓練,訓練目標是讓兩個網絡在盡量保持自身分類準確率的前提下,將配對的音樂和舞蹈數據映射為距離盡量小的特征向量。經過獨立+聯合兩階段的訓練,音樂和動作兩個分支最后一層輸出的32維向量就構成了音樂和動作的Style Embedding,兩個Style Embedding之間的歐氏距離就可以定量度量音樂-音樂、音樂-動作、動作-動作之間的風格契合度。

與Style不同的是,音樂的Rhythm是可以從樂理角度給出明確的定義的。在編曲時,音樂都會按均等的時間單位進行組織,其中最小的單位就是一拍。所謂Rhythm指的就是音樂中強拍和弱拍的組合規律。一首音樂中的強、弱拍的組合并不是雜亂無章的,而是會呈現出一定的規律,表達這種規律的最小單位是小節(meter),同一首音樂中每小節的長度也是固定的。例如3/4拍音樂,指的是4分音符為一拍,每小節3拍。2/4、3/4、4/4這種拍號標記稱為音樂的Time Signature。由于頓音符、連音符、修飾符等標記的存在,在實際演奏的音樂中,小節內的重拍并不一定嚴格出現在 Time Signature所定義的位置,還會存在空拍、半拍等情況。因此ChoreoMaster將Rhythm Embedding表示為一個稱為Rhythm Signature 的0-1向量,其中的偶數位和奇數位分別對應音樂Time Signature中的主拍和半拍位置,每個位置的值則表示該位置是否存在實際的樂器節奏點(1:存在,0不存在)。Rhythm Signature中連續的0對應了樂譜中的連奏(legato)。由于收集的數據集和業務實際需求基本都是4拍音樂,因此在ChoreoMaster目前的實現中,Rhythm Signature被定義為8位,如下圖所示。

 

兩個Rhythm Signature之間的距離可以定義為帶權曼哈頓距離(偶數位權重1,奇數位權重0.5)。這樣,8位的Rhythm Signature天然構成了一種低維Embedding。理論上所有可能的Rhythm Signature多達256種,但是在讓專業人員對數據庫中所有成對的音樂和舞蹈數據進行標注后,研究人員統計發現,常見的Rhythm Signature其實只有13種。因此Rhythm分支的目標可以通過一個簡單的分類網絡進行實現,該網絡同樣包含音樂和動作兩個分支,各自以2個卷積層+1個全連接層進行特征提取,之后送入權重共享的3個全連接層進行分類。與Style分支不同的是,節奏信息更直觀的反應在音樂的強弱變化和動作的速度、加速度等信息中,因此Rhythm分支以音樂信號的energy、onset和動作數據骨骼點的速度、加速、觸地等高層信息作為輸入。此外,由于Rhythm Signature的分布與音樂/舞蹈的風格存在明顯的相關性(如國風舞蹈的Rhythm Signature中會包含更多的0,街舞的Rhythm Signature中則會包含更多的半拍),因此音樂/舞蹈的Style Embedding信息也被送入了Rhythm分支,跟Rhythm特征拼接在一起,送入權重共享的三個全連接分類層。

從前面的介紹中可以發現,ChoreoMaster沒有像很多其他基于深度學習的音樂舞蹈合成框架一樣,用一個統一的網絡來構建音樂-舞蹈之間的跨模態關聯,而是采用了一種解耦的方式來處理Style和Rhythm。站在實用的角度來看,ChoreoMaster的這種設計有兩方面考慮:一方面,將Style和Rhythm解耦,可以提升后續合成算法的可解釋性和可控性;另一方面,獨立的Rhythm分支也可以更好地融入樂理先驗,提升網絡的可用性和泛化性。

 

b)面向編舞的舞蹈動作合成

 

為了保證系統的魯棒性、可解釋性和可控性,ChoreoMaster選擇了圖優化框架來實現舞蹈動作的合成。與之前的圖優化方案不同的是,ChoreoMaster在音樂舞蹈合成場景下,對“graph-based motion synthesis”框架做了充分的擴展,將風格、節奏和結構方面的編舞學規律融入到了動作圖構建和圖優化目標函數中。前文已經簡單介紹過基于圖優化的舞蹈合成思路,這里重點列舉一下ChoreoMaster的不同點。

在動作圖構建方面:

1)對舞蹈動作以小節(meter)為單位進行切分,而不是以節拍(beat)為單位進行切分,也就是說動作圖的每個節點對應了一個完整的舞蹈動作小節,這樣可以保證合成的舞蹈動作中每個小節內部組織方式的合理性。

2)在計算動作圖節點之間的過渡代價時,除了傳統的連續性代價,還引入了以32維Style Embedding進行度量的風格兼容性代價,這樣可以有效避免合成的舞蹈動作中出現突兀的風格跳變。如下圖中展示的一樣,如果只有動作連續性的代價,可愛風動作很容易過渡到性感風或炫酷風動作。

 

 

3)采用了一些數據曾廣手段,對動作圖的節點數進行擴充,擴充方式包括左右鏡像(下圖左),上下半身融合(下圖右)和小節重組。其中,小節重組指的是從“1234”和“abcd”兩個小節,生成兩個新的小節“12cd”和“ab34”,前提是“1234”和“abcd”的Rhythm Signature一致、Style Embedding非常接近,并且“12”和“cd”、“ab”和“34”可以平滑的拼接在一起。上下半身融合和小節重組生成的新數據,全部都進行了人工校驗。

 

 

 

在優化目標方面:

1)以Style Embedding和Rhythm Signature之間的距離來度量音樂和舞蹈小節之間的匹配度,即HMM(隱馬爾可夫模型)中的data term

2)以動作圖邊上保存的過渡代價來定義HMM的transition term

3)音樂和舞蹈的結構一致性規律則被轉化成了重復(repeat)和鏡像(mirror)兩種約束,并松弛為懲罰項融入了HMM的目標函數中。兩種約束都只會發生在內容非常相似的音樂小節之間。當檢測到兩個音樂小節內容一致時,如果這兩個小節屬于不同的音樂章節(也叫樂句,phrase),則這兩個小節對應的舞蹈動作應該是重復的,如重復的主歌、副歌對應的動作也是重復的;如果這兩個小節屬于相同的音樂章節,則這兩個小節對應的舞蹈動作應該是互相鏡像的,如左手一個慢動作、右手一個慢動作。

 

最后,我們通過三組對比實驗來直觀感受一下風格、節奏和結構這三條編舞規律對合成結果的影響。

以上只是粗略介紹了ChoreoMaster的基本思路,實現細節和更多結果展示詳見項目主頁:

https://netease-gameai.github.io/ChoreoMaster/ 

責任編輯:趙立京 來源: 網絡
相關推薦

2022-09-06 09:29:43

監控系統

2024-05-11 07:48:46

騰訊抽象耦合度

2018-11-02 17:14:41

百度AI公園海淀區

2009-07-28 09:33:51

云計算平臺

2014-08-14 10:05:01

游戲大數據

2017-01-19 18:13:11

華為

2018-08-28 18:12:58

華為云

2019-01-10 15:16:20

AI數據科技

2020-09-24 15:35:25

圖分析AITigerGraph

2014-07-30 17:05:02

芒果互娛

2025-04-15 09:08:51

系統數據模型

2023-05-25 14:28:47

DarkBERT自暗網AI

2020-05-22 09:05:32

3DAI 代碼

2024-07-17 09:27:28

2015-11-12 14:30:05

聲網

2010-11-08 11:49:54

2009-07-16 16:29:46

LTE商用版本華為
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区三区免费 | 欧美va大片 | 99re99| 欧美二区在线 | 日韩在线91| 日韩av一区二区在线观看 | av网站免费看 | 毛片网站在线观看 | www视频在线观看 | 无吗视频 | 国产精品一区二区av | 午夜精品一区二区三区三上悠亚 | 亚洲精品成人av久久 | 日本不卡高字幕在线2019 | 91网视频 | 暴草美女 | 亚洲精品视频在线播放 | 欧美天堂在线观看 | 国产精品爱久久久久久久 | 欧美日韩免费 | www.国产| 精品国产一区二区三区性色 | 玖玖精品| 国产精品麻 | 成人国产在线观看 | 美女久久| 激情国产| 国产乱码高清区二区三区在线 | 国产在线a视频 | 91免费高清| 欧美亚洲高清 | 国产欧美一区二区三区在线看 | www97影院| 久久久久国产一区二区三区 | 天堂一区在线 | 一级黄色毛片免费 | 成人免费影院 | 精品久久久久久亚洲精品 | a在线观看免费 | 欧美精品一区三区 | a级在线免费观看 |