讓數字人視頻告別"恐怖谷"!字節團隊最新DreamActor-M1實現人類表情動作像素級操控
論文鏈接:https://arxiv.org/pdf/2504.01724
項目鏈接:https://grisoon.github.io/DreamActor-M1/
亮點直擊
- 提出了一個整體的基于DiT的框架和一種漸進的訓練策略,用于支持靈活多尺度合成的人像動畫。
- 設計了混合控制信號,結合了隱式面部表征、顯式3D頭部球體和身體骨架,以實現富有表現力的身體和面部動作合成,同時支持多樣化的角色風格。
- 開發了互補的外觀引導,以緩解視頻片段之間未見區域的信息差距,從而實現長時間段內的一致視頻生成。
總結速覽
解決的問題
最近的基于圖像的人像動畫方法在逼真的身體和面部動作合成方面取得了一定進展,但在細粒度整體可控性、多尺度適應性和長期時間一致性上仍存在不足,導致表現力和魯棒性較低。
提出的方案
提出了一個基于 diffusion transformer (DiT)的框架,DreamActor-M1,并結合混合引導來解決這些限制。
應用的技術
- 動作引導:使用混合控制信號,整合隱式面部表征、3D頭部球體和3D身體骨架,實現穩健的面部表情和身體動作控制。
- 尺度適應:采用漸進的訓練策略,處理從肖像到全身視圖的各種身體姿勢和圖像尺度。
- 外觀引導:整合連續幀的運動模式與互補的視覺參考,確保在復雜運動中未見區域的長期時間一致性。
達到的效果
實驗結果表明,該方法在肖像、上半身和全身生成方面優于現有最先進技術,提供了表現力強且具有穩健長期一致性的動畫效果。
方法
預備知識
如下圖2所示,整體框架遵循隱空間擴散模型(LDM),在預訓練的3D變分自編碼器(VAE)的隱空間中訓練模型。本文使用MMDiT作為骨干網絡,該網絡已在文本到視頻和圖像到視頻任務上進行了預訓練,Seaweed。注意,本文采用流匹配作為訓練目標。
混合動作引導
為了實現富有表現力和魯棒性的人體動畫,本文精細地設計了動作引導,并提出了由隱式面部表征、3D頭部球體和3D身體骨架組成的混合控制信號。
3D頭部球體。由于隱式面部表征僅用于控制面部表情,本文引入了額外的3D頭部球體來獨立管理頭部姿態。這種雙重控制策略確保面部表情和頭部運動的解耦,實現更精確和靈活的動畫。具體來說,本文利用現成的面部跟蹤方法 [44] 從驅動視頻中提取3D面部參數,包括攝像機參數和旋轉角度。然后使用這些參數將頭部渲染為投影到二維圖像平面上的彩色球體。球體的位置與視頻幀中驅動頭部的位置精確對齊,確保空間一致性。此外,球體的大小按比例縮放以匹配參考頭部的大小,而其顏色則由驅動頭部的方向動態確定,提供頭部旋轉的視覺提示。這種3D球體表示提供了一種高度靈活和直觀的頭部姿態控制方式,通過將復雜的3D頭部運動抽象為簡單而有效的2D表示,顯著降低了模型的學習復雜性。這種方法在保留參考角色獨特頭部結構方面特別有利,尤其是那些來自動漫和卡通領域的角色。
3D身體骨架。為了實現身體控制,本文引入了具有骨骼長度調整的3D身體骨架。具體來說,本文首先使用4DHumans 和 HaMeR 來估計SMPL-X 模型的身體和手部參數。然后,本文選擇身體關節,將其投影到二維圖像平面上,并用線條連接它們以構建骨架圖。本文選擇使用骨架而不是像Champ那樣渲染完整的身體,以避免為模型提供關于身體形狀的強引導。通過利用骨架,本文鼓勵模型直接從參考圖像中學習角色的形狀和外觀。這種方法不僅減少了由預定義身體形狀引入的偏差,還增強了模型在不同身體類型和姿勢上的泛化能力,從而實現更靈活和真實的結果。身體骨架和頭部球體在通道維度上連接,并輸入到姿勢編碼器Ep中以獲得姿勢特征。然后將姿勢特征和加噪視頻特征連接并通過MLP層處理以獲得噪聲 token 。
在推理過程中,為了解決不同主體間骨骼比例的變化,本文采用歸一化過程來調整骨骼長度。首先,本文使用一個預訓練的圖像編輯模型 [35] 將參考和驅動圖像轉換為標準的A姿勢配置。接下來,本文利用RTMPose [17] 計算驅動主體和參考主體的骨骼比例。最后,通過按比例調整驅動主體的骨骼長度以匹配參考主體的骨骼測量,進行解剖對齊。
補充的外觀引導
本文提出了一種新穎的多參考注入協議,以增強模型在多尺度、多視圖和長期視頻生成中的魯棒性。該方法解決了在不同視角和延長時間框架內保持時間一致性和視覺保真度的挑戰。在訓練過程中,本文計算輸入視頻中所有幀的旋轉角度,并根據它們的z軸旋轉值(偏航)進行排序。從這個排序集中,本文戰略性地選擇三個關鍵幀,分別對應于最大、最小和中位數的z軸旋轉角度。這些幀作為代表性視點,確保對對象方向的全面覆蓋。此外,對于包含全身構圖的視頻,本文引入了一個額外步驟:隨機選擇一個單幀并裁剪為半身肖像格式,然后將其作為輔助參考幀加入。這一步豐富了模型對全局和局部結構細節的理解。
在推理過程中,本文的協議提供了一種可選的兩階段生成模式,以處理具有挑戰性的場景,例如參考圖像是單一正面半身肖像,而驅動視頻包含復雜運動如轉身或側視的全身幀。首先,利用模型從單一參考圖像合成一個多視圖視頻序列。這個初始輸出捕捉了一系列可能的視點,并作為進一步優化的基礎。本文應用與訓練時相同的幀選擇策略,選擇最具信息量的幀。然后將這些選定的幀重新整合到模型中作為補充的外觀引導,從而生成一個在空間和時間上具有增強一致性的最終輸出。這種迭代方法不僅提高了模型的魯棒性,還確保即使在受限輸入條件下也能獲得高質量的結果。
漸進的訓練過程
本文訓練過程分為三個不同的階段,以確保模型的逐步和有效適應。在第一階段,僅使用兩個控制信號:3D身體骨架和3D頭部球體,故意排除隱式面部表征。這個初始階段旨在促進基礎視頻生成模型向人體動畫任務的過渡。通過避免過于復雜的控制信號可能對模型學習過程的干擾,允許模型建立對任務的堅實基礎理解。在第二階段,引入隱式面部表征,同時保持所有其他模型參數凍結。在此階段,僅訓練面部運動編碼器和面部注意力層,使模型能夠專注于學習面部表情的細節,而不受其他變量的干擾。最后,在第三階段,本文解凍所有模型參數并進行全面的訓練,以通過聯合優化所有組件來微調模型性能。這種分階段的方法確保了一個穩健和穩定的訓練過程,最終導致一個更有效和適應性更強的模型。
實驗
實驗設置
數據集。 為了訓練,通過從各種來源收集視頻數據構建了一個綜合數據集,總計500小時的視頻素材。該數據集涵蓋了多種場景,包括舞蹈、體育、電影場景和演講,確保對人類運動和表情的廣泛覆蓋。數據集在構圖方面是平衡的,全身鏡頭和半身鏡頭各占數據的約50%。此外,本文利用Nersemble 進一步提高面部合成質量。為了評估,使用本文收集的數據集,該數據集提供了一個多樣且具有挑戰性的基準,能夠對模型在不同場景下的泛化能力進行穩健評估。
評估指標。 本文遵循先前研究中采用的評估指標,包括FID、SSIM、LPIPS、PSNR和FVD。前四個用于評估每幀的生成質量,而最后一個用于評估視頻保真度。
與現有方法的比較
為了全面展示本文工作的有效性,本文在身體動畫和肖像動畫任務上進行了實驗。注意,本文的方法在大多數情況下僅使用單個參考圖像就表現出強大的性能。為了確保與其他方法的公平比較,本文僅在消融研究中使用多個參考圖像,而在比較分析中使用單個參考圖像。本文強烈建議讀者查看補充視頻。
與身體動畫方法的比較。 本文對DreamActor-M1進行了定性和定量評估,并與現有的身體動畫方法進行比較,包括Animate Anyone、Champ、MimicMotion和DisPose,如下表1和下圖4所示。本文可以看到,本文提出的DreamActor-M1優于當前的最新結果。
與肖像動畫方法的比較。 本文還將DreamActor-M1與最先進的肖像動畫方法進行比較,包括LivePortrait、XPortrait、SkyReels-A1和Act-One,如下表2和下圖5所示。正如下表2所示,在本文收集的數據集上,視頻驅動的結果在所有指標上始終優于所有競爭方法。
雖然在本文的框架中面部表情和頭部姿態是解耦的,但本文的方法也可以擴展到音頻驅動的面部動畫。具體來說,本文訓練了一個面部運動編碼器,將語音信號映射到面部運動 token ,從而實現逼真和同步的動畫。作為一個擴展應用,本文省略了定量比較。
消融研究
本文進行了全面的消融研究,以評估本文方法的幾個核心組件的影響。
多參考協議。 本文比較了兩種設置:(a)使用單個參考圖像進行推理,(b)如前文所述的兩階段推理方法,首先生成偽參考圖像,然后進行多參考推理。結果如下表3所示。它表明偽多參考推理在長時間視頻生成質量和時間一致性方面優于單參考推理。這是因為在擴展的視頻生成過程中,補充的參考圖像提供了關于未見區域的額外視覺信息,使視頻生成過程能夠利用參考細節。這有助于避免信息丟失,從而在整個視頻中保持一致性。然而,單個參考圖像達到的性能仍然具有競爭力,表明它足以應對大多數場景。
混合控制信號。 本文進一步通過消融關鍵組件來研究混合控制信號的貢獻:(a)用3D網格替換3D頭部球體和骨架,(b)用3D面部標志替換隱式面部表示。結果如下圖6所示。這些設置下的顯著性能下降強調了本文混合控制框架中每個組件的重要性。具體來說,具有骨長調整的3D骨架提供了更準確的空間指導,而隱式面部表示比傳統標志更有效地捕捉細微的表情細節。這些發現證明了本文提出的混合控制信號在實現高質量和逼真人像動畫方面的有效性和優越性。
結論
本文提出了一個全面的人像動畫框架DreamActor-M1,解決了多尺度適應、細粒度面部表情和身體運動控制,以及未見區域的長期一致性。本文采用漸進式訓練策略,使用具有不同分辨率和尺度的數據來處理從肖像到全身視圖的各種圖像尺度。通過混合控制信號解耦身份、身體姿勢和面部表情,本文的方法在保持角色身份的同時,實現了精確的面部動態和生動的身體運動。所提出的補充外觀指導解決了跨尺度動畫和未見區域合成中的信息缺口。相信這些創新為復雜動作建模的未來研究和表達性人像動畫的實際部署提供了潛在的見解。
局限性。 本文的框架在控制動態攝像機運動方面面臨固有的困難,無法生成與環境物體的物理交互。此外,本文的方法使用[35]進行的骨長調整在極端情況下表現出不穩定性,需要多次迭代手動選擇以獲得最佳結果。這些挑戰仍需在未來的研究中解決。
本文轉自AI生成未來 ,作者:AI生成未來
