ICLR2025 | 同濟提出無需訓練的肖像動畫框架FaceShot,讓表情包、動漫人物、玩具等“開口說話”
今天和大家分享同濟大學的最新研究FaceShot: 一舉打破肖像動畫模型“驅(qū)動真人”的局限,F(xiàn)aceShot 的動畫效果可應用于各個領域的角色,包括 3D 動漫、表情符號、2D 動漫、玩具、動物等等。每個角色都能流暢地跟隨行車視頻的面部動作,同時保留其原始身份,從而產(chǎn)生出色的動畫效果。
FaceShot 的可視化結果。對于任意角色和任意驅(qū)動視頻,F(xiàn)aceShot 都能有效捕捉細微的面部表情,并為每個角色生成穩(wěn)定的動畫。尤其對于表情符號和玩具等非人類角色,F(xiàn)aceShot 展現(xiàn)出卓越的動畫能力。
單角色+多驅(qū)動視頻
多個角色+單驅(qū)動視頻
時長超過 5 秒的視頻
比較
相關鏈接
- 論文:https://arxiv.org/pdf/2503.00740
- 主頁:https://faceshot2024.github.io/faceshot/
- 代碼:https://github.com/open-mmlab/FaceShot
論文介紹
FaceShot:讓任何角色都栩栩如生
論文介紹的FaceShot是一種無需訓練的新型肖像動畫框架,旨在無需微調(diào)或再訓練即可讓任何驅(qū)動視頻中的任何角色栩栩如生。我們通過從外觀引導的地標匹配模塊和基于坐標的地標重定向模塊提供精確而強大的重新定位地標序列來實現(xiàn)這一點。這些組件共同利用潛在擴散模型的強大語義對應關系來生成各種角色類型的面部運動序列。之后,我們將地標序列輸入到預先訓練的地標驅(qū)動動畫模型中以生成動畫視頻。憑借這種強大的泛化能力,F(xiàn)aceShot 可以突破任何風格化角色和驅(qū)動視頻的真實肖像地標檢測的限制,從而顯著擴展肖像動畫的應用。此外,F(xiàn)aceShot 與任何地標驅(qū)動的動畫模型兼容,顯著提高了整體性能。在新構建的角色基準 CharacBench 上進行的大量實驗證實,F(xiàn)aceShot 在任何角色領域都始終超越最先進 (SOTA) 方法。
方法
FaceShot 首先利用外觀引導生成目標角色的精確面部特征點。接下來,應用基于坐標系的特征點重定位模塊生成特征點序列。最后,將該特征點序列輸入動畫模型,為任意駕駛視頻中的任意角色制作動畫。
實驗結果
與 SOTA 肖像動畫方法進行定性比較。斜線框表示該方法未能為該角色生成動畫。
結論
論文介紹了 FaceShot,這是一個無需訓練的肖像動畫框架,可以為任何驅(qū)動視頻中的任意角色制作動畫。通過利用潛在擴散模型特征中的語義對應關系,F(xiàn)aceShot 解決了現(xiàn)有地標驅(qū)動方法的局限性,實現(xiàn)了精確的地標匹配和地標重定向。這一強大功能不僅將肖像動畫的應用擴展到了傳統(tǒng)界限之外,還增強了地標驅(qū)動模型中動畫的真實感和一致性。FaceShot 還可以作為插件與任何地標驅(qū)動的動畫模型兼容。此外,在包含多樣化角色的基準測試 CharacBench 上的實驗結果表明,F(xiàn)aceShot 的表現(xiàn)始終優(yōu)于當前的 SOTA 方法。