快手可靈團(tuán)隊(duì)最新開源項(xiàng)目火了:大叔實(shí)時(shí)變身少女,GitHub狂攬7.5K星 精華
離大譜?。〔豢匆曨l完整版誰知道里面的美少女竟是一位大叔。
好嘛,原來這是用了快手可靈團(tuán)隊(duì)的可控人像視頻生成框架——LivePortrait。
LivePortrait開源即爆火,短短時(shí)間已在GitHub狂攬7.5K星標(biāo)。
還引來HuggingFace首席戰(zhàn)略官Thomas Wolf親自體驗(yàn):
甚至目前仍在HuggingFace全部應(yīng)用里排在趨勢(shì)第一:
所以,為啥LivePortrait能夠瘋狂引人關(guān)注?
還得從它讓人眼前一亮的表現(xiàn)說起……
讓表情“移花接木”
LivePortrait由快手可靈大模型團(tuán)隊(duì)開源,只需1張?jiān)瓐D就能生成動(dòng)態(tài)視頻。
先來看一組官方輸出。
從最簡(jiǎn)單的開始,丟一張靜態(tài)圖像,LivePortrait可以讓肖像眨眼、微笑或轉(zhuǎn)頭。
還可以施展“移花接木”,也就是將表情、動(dòng)態(tài)等復(fù)制到其他人身上,還是不限風(fēng)格(寫實(shí)、油畫、雕塑、3D渲染)和尺寸那種~
當(dāng)然了,這種“魔法”不限于單人,搞個(gè)全家福也不是不行。[doge]
除了從靜態(tài)圖→視頻,我們還可以讓一個(gè)或多個(gè)視頻實(shí)現(xiàn)“笑容增加術(shù)”。
比如提供一段寶寶沒有表情的視頻(最右側(cè)),我們可以讓寶寶按照參照視頻wink或微笑。
對(duì)了,不僅限于人物肖像,小貓小狗也能開始撒嬌賣萌了。
總之,LivePortrait可以實(shí)現(xiàn)人物表情精確控制,比如嘴角上揚(yáng)的弧度,雙眼放大程度都能開啟自選。
舉個(gè)栗子,下面這兩個(gè)是不同參數(shù)設(shè)置下,人物眼睛大小的變化:
看來小說里的“三分涼薄,三分譏笑,四分漫不經(jīng)心”也不是不能實(shí)現(xiàn)。[doge]
看完這些不知道你有沒有心動(dòng),反正網(wǎng)友們整活兒的心是擋不住了。
比如配個(gè)燈光花式扮鬼臉,有恐怖片那味兒了:
再比如實(shí)時(shí)化身二刺猿:
看完這些例子,接下來我們挖一挖背后的技術(shù)原理。
爆火開源框架
和當(dāng)前主流基于擴(kuò)散模型的方法不同,LivePortrait探索和擴(kuò)展了基于隱式關(guān)鍵點(diǎn)的框架的潛力。
具體而言,LivePortrait不依賴于圖像中明確可見的標(biāo)記或特征點(diǎn),而是通過學(xué)習(xí)數(shù)據(jù)集中的模式來隱式地推斷出關(guān)鍵點(diǎn)的位置。
在此基礎(chǔ)上,LivePortrait通過兩個(gè)階段從頭開始訓(xùn)練模型。
先說第一階段,LivePortrait對(duì)基于隱式點(diǎn)的框架(如Face Vid2vid),做了一系列改進(jìn)。
這些改進(jìn)包括高質(zhì)量數(shù)據(jù)整理、混合圖像和視頻訓(xùn)練、升級(jí)網(wǎng)絡(luò)架構(gòu)、可擴(kuò)展運(yùn)動(dòng)變換、地標(biāo)引導(dǎo)的隱式關(guān)鍵點(diǎn)優(yōu)化以及級(jí)聯(lián)損失項(xiàng)的應(yīng)用等。
有了這些,模型的泛化能力、表達(dá)能力和紋理質(zhì)量都能進(jìn)一步提升。
再說第二階段,通過貼合模塊和重定向模塊的訓(xùn)練,模型能夠更精確地處理面部表情的細(xì)節(jié)。
貼合模塊通過跨身份動(dòng)作訓(xùn)練增強(qiáng)泛化性,估計(jì)表情變化并優(yōu)化關(guān)鍵點(diǎn)。
眼部和嘴部重定向模塊則分別處理眼部和嘴部的變形變化,通過獨(dú)立的目標(biāo)函數(shù)計(jì)算像素一致性和正則損失,提升模型在復(fù)雜表情處理上的靈活性和精確度。
那么,LivePortrait具體表現(xiàn)如何呢?
研究顯示,在同身份驅(qū)動(dòng)對(duì)比結(jié)果中,與已有方法相比,LivePortrait具有較好的生成質(zhì)量和驅(qū)動(dòng)精確度,可以捕捉驅(qū)動(dòng)幀的眼部和嘴部細(xì)微表情,同時(shí)保有參考圖片的紋理和身份。
且在跨身份驅(qū)動(dòng)對(duì)比結(jié)果中同樣表現(xiàn)較好,雖然在生成質(zhì)量上略弱于基于擴(kuò)散模型的方法AniPortrait。但與后者相比,LivePortrait具有極快的推理效率且需要較少的FLOPs。
總之,在RTX 4090 GPU上,LivePortrait的生成速度達(dá)到了每幀12.8毫秒,顯著高于現(xiàn)有的擴(kuò)散模型方法。
One More Thing
補(bǔ)一條官方最新預(yù)告:可靈AI即將在全球范圍內(nèi)推出其服務(wù)。
Sora還沒來,可靈這回倒是先走出去了~
LivePortrait體驗(yàn)地址:??https://huggingface.co/spaces/KwaiVGI/LivePortrait???
項(xiàng)目主頁(yè):???https://liveportrait.github.io???
論文:???https://arxiv.org/abs/2407.03168??
本文轉(zhuǎn)自 量子位,作者:量子位
