FlashFace: 具有高保真身份保存的人像個(gè)性化方法,效果超越InstantID,人臉定制化更逼真了! 精華
FlashFace技術(shù)是由香港大學(xué)、阿里巴巴集團(tuán)、螞蟻集團(tuán)共同研發(fā)的一項(xiàng)實(shí)用工具,用戶可以通過提供一張或幾張參考面部圖像和文本提示,就可以輕松地即時(shí)個(gè)性化自己的相片。
與現(xiàn)有的人像定制方法相比,F(xiàn)lashFace方法具有更高保真度的身份保留性。能夠精確地保留參考人臉的特征,包括紋身、疤痕等。
這意味著,無論是真實(shí)人物還是虛擬角色,F(xiàn)lashFace都能夠準(zhǔn)確地捕捉到他們獨(dú)特的面部特征,如罕見的臉型等。
下面展示一些FlashFace的效果:
人像個(gè)性化結(jié)果
FlashFace可以產(chǎn)生多樣的人像個(gè)性化結(jié)果。
- 在很大程度上保留參考面孔的身份(例如,紋身、疤痕,甚至是虛擬人物罕見的臉型)
- 準(zhǔn)確地遵循指示,特別是當(dāng)文本提示與參考圖像相矛盾時(shí)(例如,將成人定制為兒童或老人)。
改變年齡或性別
虛擬角色生成真人
真人生成藝術(shù)品
身份混合
語言控制面部交換
相關(guān)鏈接
- 項(xiàng)目地址:https://jshilong.github.io/flashface-page/
- 論文鏈接:https://arxiv.org/abs/2312.02928
- Demo鏈接:https://github.com/XavierCHEN34/LivePhoto
- Code地址:https://github.com/jshilong/FlashFace
論文閱讀
高保真身份保存的人類形象個(gè)性化
摘要
這項(xiàng)工作展示了FlsahFace這是一個(gè)實(shí)用的工具,用戶可以通過提供一個(gè)或幾個(gè)參考面圖像和一個(gè)文本提示,輕易地將自己的照片個(gè)性化。
FlsahFace方法不同于人類現(xiàn)有的照片定制方法,這主要從高忠誠身份保存和更好的指導(dǎo)從兩個(gè)微妙的設(shè)計(jì)中獲益。
首先, FlsahFace將面孔標(biāo)識編碼成一系列特征映射,而不是像以前的藝術(shù)中那樣使用一個(gè)圖像標(biāo)記,這樣模型就可以保留更多的參考面孔細(xì)節(jié)(例如疤痕,紋身,面部形狀)。
其次,我們引入了一個(gè)解糾纏整合策略,在文本到圖像生成過程中平衡文本和圖像引導(dǎo),緩解參考面和文本提示之間的沖突(例如:將成年人個(gè)性化為"兒童"或"老人")。
廣泛的實(shí)驗(yàn)結(jié)果證明了該方法在各種應(yīng)用中的有效性,包括人類形象的個(gè)性化、語言提示下的面部交換、虛擬人物的真實(shí)化等。
方法
FlashFace的整體pipeline:
在訓(xùn)練過程中,隨機(jī)選擇B ID聚類,從每個(gè)聚類中選擇N+1張圖像。從N幅圖像中裁剪人臉區(qū)域作為參考,并留下一張作為目標(biāo)圖像。該目標(biāo)圖像用于計(jì)算損失。Face ReferenceNet的輸入潛函數(shù)的形狀為(B*N) × 4 × h × w。
將自注意層之后的參考人臉特征存儲在中間塊和解碼器塊中。將人臉位置掩碼連接到目標(biāo)潛影以指示所生成的人臉的位置。
在目標(biāo)潛信號通過U-Net中相應(yīng)位置轉(zhuǎn)發(fā)的過程中,使用額外的參考注意層合并參考特征。在推理過程中,用戶可以通過提供人臉位置(可選)、人物的參考圖像和所需圖像的描述來獲得所需圖像。
面部參考項(xiàng)的輸入潛藏有形狀 (b*n)x4xHxW。在自我注意層之后,在中間塊和解碼塊中存儲參考面特征。一個(gè)面位掩碼連接到目標(biāo)潛伏,以指示生成的面的位置。在通過Unet的相應(yīng)位置轉(zhuǎn)發(fā)目標(biāo)的過程中,使用額外的參考注意層來整合參考特性。在推理過程中,用戶可以通過提供一個(gè)面部位置(可選)、一個(gè)人的參考圖像和一個(gè)對所需圖像的描述來獲得所需的圖像。
本文轉(zhuǎn)載自??AIGC Studio??,作者:AIGC Studio
