上海AI Lab 震撼發布 FaceShot:無需訓練,秒級生成高質量肖像動畫
在人工智能快速發展的今天,肖像動畫生成技術已經成為影視、游戲、教育等多個領域的重要應用。然而,現有的肖像動畫生成方法大多依賴于復雜的訓練過程和大量數據,難以快速適應多樣化的角色和場景。FaceShot 作為一項創新技術,突破了傳統方法的限制,為肖像動畫生成帶來了新的可能性。
一、項目概述
FaceShot 是由同濟大學、上海 AI Lab 和南京理工大學聯合推出的一種新型無需訓練的肖像動畫生成框架。它通過外觀引導的地標匹配模塊和基于坐標的地標重定位模塊,為各種角色生成精確且魯棒的地標序列,并利用潛在擴散模型的語義對應關系,跨越廣泛的角色類型生成面部動作序列。FaceShot 不僅能夠為人類角色生成動畫,還能為非人類角色(如玩具、動物等)生成生動的動畫效果,顯著提升了肖像動畫生成的通用性和靈活性。
二、技術原理
(一)外觀引導的地標匹配模塊
FaceShot 利用潛在擴散模型的語義對應關系,結合外觀先驗知識,為任意角色生成精確的面部地標。通過 DDIM 逆過程從參考圖像和目標圖像中提取擴散特征,減少不同領域之間的外觀差異,并使用余弦距離進行地標匹配,確保地標在語義上的一致性。此外,引入外觀畫廊進一步優化匹配效果,提升地標匹配的準確性和魯棒性。
(二)基于坐標的地標重定位模塊
該模塊通過坐標系變換捕捉驅動視頻中的細微面部動作,生成與之對齊的地標序列。模塊分為全局運動和局部運動兩個階段:全局運動負責計算面部的整體平移和旋轉,局部運動則分別對眼睛、嘴巴、鼻子、眉毛和面部邊界等部分進行相對運動和點運動的重定位。這種設計能夠精確捕捉面部的全局和局部運動,生成穩定的地標序列。
(三)地標驅動的動畫模型
將生成的地標序列輸入預訓練的動畫模型(如MOFA-Video),生成最終的動畫視頻。通過將地標序列作為額外條件輸入到動畫模型的 U-Net 中,確保模型能夠精確跟蹤地標序列中的運動,從而生成與驅動視頻一致的動畫效果,同時保持角色的視覺身份。
三、主要功能?
(一)角色動畫生成
FaceShot能為各類角色打造自然流暢的面部動畫,精準保留原始特征。對于人類角色,它可細膩捕捉豐富表情,如喜怒哀樂,還能還原面部紋理、膚色和輪廓。比如為影視劇中的人物生成逼真的情感表達。對于非人類角色,像玩具、動物等,能依據其特點賦予生動動作。如讓毛絨玩具眨眼、張嘴,為動物模擬奔跑、吼叫等,極大提升了肖像動畫生成的通用性與靈活性,讓不同角色都充滿生命力。
(二)跨領域動畫
FaceShot的跨領域動畫功能打破傳統局限,可利用人類視頻驅動非人類角色動畫。在兒童教育視頻里,以孩子表情動作驅動玩具角色,孩子微笑時玩具同步開心,做鬼臉時玩具也滑稽互動,增添趣味性。影視創作中,能借人類演員表演驅動動物角色,創造更逼真場景。此功能拓展了肖像動畫應用范圍,讓不同角色在同一動畫中協同互動,豐富了表現形式。
(三)無需訓練
傳統動畫生成依賴復雜訓練和大量數據,耗時耗力且難適應多樣角色場景。而FaceShot無需針對每個角色或驅動視頻額外訓練微調,直接生成高質量動畫,大幅提高效率。緊急廣告制作時,若用傳統方法為新品牌吉祥物生成動畫需數天甚至數周,用FaceShot則能快速完成,短時間內將吉祥物圖像和驅動視頻轉化為生動動畫,滿足項目時間要求,降低成本。
(四)兼容性
FaceShot兼容性良好,可作為插件與任何地標驅動的動畫模型無縫集成。它將生成的精確地標序列作為額外輸入,與其他模型優勢互補。和在動作細節處理出色的模型結合時,能為其提供更準確面部動作信息,提升動畫流暢與準確性。還可借助其他模型在色彩、光影處理特長,豐富視覺效果。通過這種集成,FaceShot與其他模型共同為用戶提供更優質動畫生成服務。
四、應用場景
(一)影視娛樂
在影視娛樂領域,FaceShot應用廣泛。電影制作中,科幻片的外星生物、機器人等虛擬角色,它能依據設計特點生成精確生動動畫,讓外星生物更神秘真實。電視劇里可為特效或配角增添動畫,增強趣味性。動畫電影中,能為迪士尼式的動物角色打造豐富表情動作,如讓兔子靈動跳躍、眨眼。它為影視帶來更豐富精彩的視覺體驗,提升了作品的觀賞性。
(二)游戲開發
游戲開發中,FaceShot能快速生成游戲角色動畫,提升趣味性和沉浸感。大型多人在線角色扮演游戲里,可為玩家角色、NPC、怪物和寵物等生成多樣動畫。玩家操作技能時角色有炫酷動作表情,NPC有日常活動動畫。休閑游戲如寵物養成中,能讓寵物可愛互動。高質量動畫讓玩家仿佛置身真實游戲世界,增強了游戲的吸引力和玩家體驗。
(三)教育領域
FaceShot讓教育內容更生動,提高學生學習興趣和教學互動性。中小學教學視頻中,語文可將故事角色動畫化,如《小紅帽》角色生動呈現;數學能用動畫演示幾何圖形變換和數字運算。高等和職業教育里,醫學可展示人體器官工作原理,編程可演示代碼邏輯。它把抽象知識轉化為形象動畫,促進學生理解,推動教學互動開展。
(四)廣告營銷
廣告營銷中,FaceShot可生成品牌吉祥物動畫,提升品牌形象和用戶參與感。以運動品牌吉祥物為例,能制作活力四射的運動動畫,如跑步、跳躍等,搭配歡快表情音樂,營造積極氛圍。社交媒體營銷時,吉祥物動畫能與用戶互動,用戶點贊評論時做出回應,增加參與粘性。它助力企業打造鮮活品牌形象,提高市場競爭力。
(五)VR/AR應用
在VR/AR應用中,FaceShot生成的虛擬角色動畫可提升沉浸感和交互體驗。VR游戲里,玩家與虛擬NPC互動時,NPC能根據玩家動作語音做出表情動作反應,如點頭、微笑,讓交流更真實。AR教育應用中,虛擬歷史人物能通過動畫展示生活場景和故事。它為VR/AR技術帶來更真實豐富體驗,推動其在各領域廣泛應用。
五、快速使用?
(一)克隆代碼倉庫
git clone https://github.com/open-mmlab/FaceShot.git
cd FaceShot
(二)環境設置
FaceShot 支持 CUDA 12.4,建議使用以下命令創建和激活 Python 環境:
conda create -n faceshot pythnotallow==3.10
conda activate faceshot
pip install -r requirements.txt
pip install "git+https://github.com/facebookresearch/pytorch3d.git"
pip install "git+https://github.com/XPixelGroup/BasicSR.git"
(三)下載預訓練模型
1. 下載 MOFA-Video 的預訓練模型,并將其放置到 `./models/cmp/experiments/semiauto_annot/resnet50_vip+mpii_liteflow/checkpoints` 文件夾中。
2. 下載 `ckpts` 文件夾中的預訓練模型,并將其放置到 `./ckpts` 文件夾中。可以使用 `git lfs` 下載整個 `ckpts` 文件夾。
(四)運行推理腳本
chmod 777 inference.sh
./inference.sh
運行完成后,FaceShot 將生成動畫視頻,用戶可以根據需要調整輸入參數以生成不同風格的動畫。
六、結語?
FaceShot 作為一種無需訓練的肖像動畫生成框架,為動畫生成領域帶來了新的突破。它不僅能夠為人類角色生成高質量的動畫,還能為非人類角色生成生動的動畫效果,極大地擴展了肖像動畫的應用范圍。FaceShot 的高效性和兼容性使其成為動畫生成領域的有力工具,為影視、游戲、教育等多個行業帶來了新的機遇。
七、項目地址
項目官網:??https://faceshot2024.github.io/faceshot/??
GitHub 倉庫:??https://github.com/open-mmlab/FaceShot??
技術論文:???https://arxiv.org/pdf/2503.00740??
本文轉載自??小兵的AI視界??,作者:AGI小兵
