字節最新單圖視頻驅動成果X-Portrait 2:一鍵生成相同表情神態,效果逼真
單圖視頻驅動技術為創作富有表現力、逼真的角色動畫和視頻片段提供了一種成本極低且高效的方法:只需一張靜態照片和一段驅動視頻即可生成高質量、電影級的視頻。
字節跳動智能創作團隊近期推出最新單圖視頻驅動技術X-Portrait 2,基于前一代的X-Portrait研究成果,將人像驅動的表現力提升到了一個全新的高度。
該模型不僅能保留原圖的ID,還能準確捕捉并逼真遷移從細微到夸張的表情和情緒,呈現高度真實的效果,大幅簡化了現有動作捕捉、角色動畫和內容創作流程。
項目網頁:https://byteaigc.github.io/X-Portrait2/
整體方案
不同于以往依賴人臉關鍵點檢測的單圖驅動方法,X-Portrait 2構建了一個最先進的表情編碼器模型,通過一種創新的端到端自監督訓練框架,能夠從大量人像視頻中自學習ID無關的運動隱式表征。
進一步將這個編碼器與強大的生成式擴散模型相結合,即可生成流暢且富有表現力的視頻。
經過在大規模高質量表情視頻上的訓練,X-Portrait 2在運動表現力和ID保持性方面顯著優于先前技術。
算法能夠從驅動視頻中提取不同顆粒度的表情特征(如挑眉、咬唇、吐舌、皺眉),并有效遷移到擴散模型,實現精準的表情動作控制,進而能實現驅動視頻中人物情感的高保真遷移。
外觀與運動解耦
在訓練表情編碼器時,為了讓編碼器關注驅動視頻中與表情相關的信息,X-Portrait 2較好地實現了外觀和運動的解耦。
通過為模型設計過濾層,編碼器能有效過濾運動表征中的ID相關信號,使得即使ID圖片與驅動視頻中的形象和風格差異較大,模型仍可實現跨ID、跨風格的動作遷移,涵蓋寫實人像和卡通圖像。
這使得X-Portrait 2能高度適應各種各樣的應用場景,包括現實世界中的敘事創作、角色動畫、虛擬形象以及視覺特效等。
技術對比
與前一代X-Portrait以及最近發布的 Runyway Act-One 等業界領先的方法相比,X-Portrait 2能夠如實表現快速的頭部動作、細微的表情變化以及強烈的個人情感,這些方面對于高質量的內容創作(比如動畫和電影制作)至關重要。
安全說明
此工作僅以學術研究為目的,會嚴格規范模型的應用,防止惡意利用。文中使用的圖片/視頻,如有侵權,請聯系作者及時刪除。