從頻率到細節:ConsisID實現無縫身份一致的文本到視頻生成
文章鏈接:https:arxiv.orgabs2411.17440項目鏈接:https:pkuyuangroup.github.ioConsisID亮點直擊提出了ConsisID,一個基于DiT的免調優(tuningfree)身份保持IPT2V模型,通過頻率分解的控制信號來保持視頻主角的身份一致性。提出了一種分層訓練策略,包括粗到細的訓練過程、動態Mask損失(dynamicmaskloss)以及動態跨臉損失(dynamiccrossfaceloss),共同促進模型訓練并有效提升泛化能力。大量實驗表明,受益于我們的頻率感知...