Tora2震撼發布!阿里巴巴首創視頻多角色「外觀+運動」同步定制,告別視頻角色錯位!
亮點直擊
- Tora2,首個支持多實體定制化的視頻擴散Transformer框架。如圖1所示,Tora2 支持外觀和運動軌跡的雙重控制。引入了一種解耦的個性化提取器(Decoupled Personalization Extractor),用于學習開放集實體的細粒度個性化嵌入,從而提升多實體生成中的主體和面部相似度。
- 設計了一種新穎的綁定策略和對比學習方法,以確保實體、運動模式和文本描述的一致性與對齊表示。
- 實驗評估表明,Tora2 在定制化任務上達到與最先進方法(SOTA)相競爭的性能,同時引入了先進的運動軌跡控制能力。
總結速覽
解決的問題
- 多實體定制難題:現有方法主要針對單實體(如單個人或物體)進行外觀或運動定制,難以同時控制多個實體的個性化外觀和運動軌跡。
- 細節保真度不足:傳統方法依賴低頻全局特征(如DINOv2),導致高頻細節(如人臉、物體紋理)丟失,影響生成內容的視覺一致性。
- 多模態條件對齊困難:在訓練過程中,文本描述、運動軌跡和視覺信息之間的對齊存在偏差,導致生成視頻的語義與運動不匹配。
- 架構局限性:現有工作多基于U-Net架構,難以適配新興的Diffusion Transformer(DiT)模型,限制了生成能力和擴展性。
提出的方案
- 解耦個性化特征提取器(DPE):
- 結合低頻(全局特征)和高頻細節(如人臉ReID網絡、物體特征),生成更全面的個性化嵌入,提升多實體的外觀保真度。
- 門控自注意力機制:
- 動態融合軌跡、文本描述和視覺信息,確保多模態條件在訓練中的對齊,減少語義-運動偏差。
- 對比學習框架:
- 通過顯式映射運動嵌入與個性化嵌入,聯合優化軌跡動力學和實體一致性。
- 分層嵌入注入策略:
- 運動嵌入通過自適應層歸一化(AdaLN)注入擴散Transformer的早期階段,而個性化嵌入通過獨立的交叉注意力模塊在后期引入,實現外觀與運動的解耦控制。
應用的技術
- 擴散Transformer(DiT)架構:替代傳統U-Net,支持多條件視頻生成。
- 高頻特征提取工具:人臉分析網絡(如ArcFace)、ReID網絡,增強細節保留能力。
- Q-Former網絡:將多模態特征轉換為統一的個性化嵌入。
- 自適應層歸一化(AdaLN):動態調制視頻隱變量,適配運動控制。
- 對比學習損失:強化運動與實體外觀的跨模態對齊。
達到的效果
- 多實體同步定制:首次實現同時對多個實體的外觀和運動軌跡進行個性化控制。
- 細節保真度提升:高頻特征的引入顯著改善了人臉和物體紋理的生成質量(實驗驗證)。
- 運動-語義對齊優化:門控自注意力機制減少了多模態條件的訓練偏差,生成視頻更符合文本和軌跡輸入。
- 性能競爭力:在MSRVTT-Personalization基準測試中超越現有方法(如Video Alchemist、Tora),同時支持更復雜的運動控制。
- 數據擴展性:整合110萬視頻片段的數據集,涵蓋多樣實體和運動模式,支撐模型訓練。
方法論
本文的目標是實現多實體可控的視頻生成,支持外觀和軌跡條件控制。首先介紹Tora2,解釋如何獲取開放集實體的個性化嵌入、如何將其與實體詞匯和軌跡關聯,并作為條件注入。再描述訓練數據集的構建過程。
Tora2
如下圖2所示,Tora2是一個隱空間擴散Transformer,集成了實體和軌跡輸入的提取與注入過程。在保留Tora軌跡條件架構的基礎上,本文重點介紹其新穎的個性化表示提取方法和綁定策略,該策略將實體與相應的文本和軌跡條件關聯起來。
為解決這些限制,本文提出了一種解耦的個性化提取器。首先利用人臉識別和ReID主干網絡分別提取針對人類和通用物體的強身份特征。解耦的合理性在于人眼對面部細節的敏感性,實驗證明該方法在本文的場景中提高了面部相似性。隨后,使用兩個額外的外觀適配器將這些高頻特征投影到統一的特征空間。這些以身份為中心的特征隨后與DINOv2圖像編碼器捕獲的語義魯棒特征拼接,從而形成全面的視覺表示。
該方法顯著增強了模型在同時處理多個概念時保持高保真度的能力。
實體與詞匯及軌跡的綁定。實證研究[5]表明,將視覺概念與其對應的文本描述解綁會導致多實體個性化中的錯位問題。因此,使用線性投影將個性化嵌入與文本信息進行擴展。本文的框架將這一要求擴展到軌跡條件生成,需要實現實體、文本和運動軌跡之間的精確三模態對齊。通過門控自注意力機制來解決這一問題,確保定制實體沿指定軌跡的空間一致分配。
個性化和運動注入。如前面圖2所示,運動條件通過運動引導融合器引入,該融合器采用自適應層歸一化來調制視覺標記。經過運動歸一化的視覺標記與文本標記拼接后,通過3D全注意力機制捕獲文本描述與視覺元素之間的細粒度關系。為保留原始基礎模型知識,我們應用額外的交叉注意力來促進個性化嵌入與視覺標記之間的交互。通過這種方式,在DiT塊的不同位置注入三種模態條件,實現多實體的聯合可控視頻生成。
對比損失。本文還引入了雙分支對比學習框架來加強實體與運動模式之間的跨模態對齊。對比目標強制實現三個特性:(1)通過正樣本實體-運動配對實現語義-運動對應,(2)通過負樣本實體-實體對實現概念間可區分性,(3)通過負樣本運動-運動對實現運動軌跡區分。形式上,該損失可表示為
數據收集
基于Video Alchemist和Tora,本文開發了一個兩階段的數據管理框架用于多實體運動學習。第一階段嚴格篩選可能對物體運動訓練產生負面影響或導致個性化模糊的原始視頻,第二階段構建精確的實體-文本-軌跡三元組,通過系統化標注生成110萬條高保真訓練樣本。
實驗
實驗設置
基準與指標
本文使用MSRVTT-Personalization基準評估當前方法,該基準包含2,130個手工標注的視頻片段,涵蓋單主體和多主體場景。此外,為消融研究,我們手動收集并標注200個包含多概念的在線視頻。評估指標包括:
- 文本相似度(Text-S):CLIP文本嵌入與生成幀特征的余弦相似度
- 視頻相似度(Vid-S):真實視頻與生成視頻的CLIP特征平均相似度
- 主體相似度(Subj-S):基于Grounding-DINO的參考圖像與生成主體區域的DINO特征對齊度
- 人臉相似度(Face-S):參考人臉裁剪與YOLOv9-C檢測區域的ArcFace-R100特征一致性
- 軌跡誤差(TrajError):CoTracker3預測軌跡與真實軌跡的平均L1距離
定性與定量分析
下表1展示定量評估結果。為消除基礎模型差異帶來的不公平比較,構建了基于Flux.1+Tora-I2V流程的基線方法。
在個性化條件方面,Tora2的主體相似度均值比Video Alchemist低1.1%,但人臉屬性保留提升0.8%。盡管共享基礎視頻DiT架構,Tora2的運動條件訓練范式相比Video Alchemist的個性化特征學習方法增加了復雜度。可比的個性化性能表明,DPE在運動條件聯合優化下仍能有效捕獲判別性身份特征。
在運動驅動生成場景中,Video Alchemist未提供軌跡精度評估實現,因其方法設計不涵蓋該能力。Tora+Flux.1流程因分離控制的架構限制,在主體和身份保真度(尤其是面部區域)出現顯著退化。雖然微調后的Flux.1模型能較好對齊首幀參考,但后續幀因缺乏持續個性化條件而劣化。值得注意的是,Tora2通過運動動態與概念表征的聯合學習策略,在身份和運動條件任務中均取得更優生成質量指標。
下圖3展示生成視頻的對比分析。由于閉源限制,未包含Video Alchemist結果。
Tora+Flux.1采用簡單的外觀-運動控制拼接策略,導致模態融合不佳,表現為長時序中實體一致性下降和軌跡區域過度偏移。Tora2則通過外觀-運動條件的隱空間對齊,生成具有更優照片真實感、時序平滑性和身份保持的視頻。
消融研究
本文使用200個標注視頻進行消融實驗。文本相似度、視頻相似度和軌跡誤差指標在物體和人體實體上取平均以提供統一評估。
個性化嵌入提取的不同設計
為評估解耦個性化編碼器的有效性,本文對比了四種嵌入提取方法:(a) 使用DINOv2圖像編碼器的低頻全局特征(如Video Alchemist);(b) 通過線性投影合并全局特征與ReID模型的高頻特征;(c) 通過線性投影合并全局特征與ReID/人臉識別模型的解耦高頻特征;(d) 采用本文DPE,通過Q-Former架構查詢拼接嵌入。下圖4和表2展示了定性與定量結果。
實驗表明:DINOv2提取的語義特征能生成符合文本描述的實體,但難以傳遞面部表情等高階細節。僅注入ReID模型的高頻判別特征會導致訓練不穩定,顯著降低視覺保真度和文本指令遵循能力。解耦策略雖提升主體保真度,但MLP投影的token級交互不足導致文本指令執行偏差(如圖4(c)中實體未按指令對視)。本文方法在所有指標上取得最優結果,證實了開放集個性化需要組合多類特征,且顯式查詢-關注機制顯著優于簡單特征拼接。
多模態特征綁定的效果
本文通過三種架構變體驗證實體綁定機制:(a) 直接向DiT塊注入個性化嵌入;(b) 沿通道維度拼接個性化嵌入、運動嵌入和文本特征后線性投影;(c) 本文門控自注意力機制動態調節三模態特征交互。
下表3顯示,缺乏顯式實體綁定的基線架構軌跡對齊偏移增加12.6像素,主體相似度下降1.5%。如下圖5所示,無綁定策略時鳥的軌跡錯誤轉為相機右移。線性投影變體雖能關聯軌跡-實體-文本,但視頻相似度下降1.0%(視頻后半段貓和鳥出現形變)。本文門控注意力架構在保持保真度的同時實現了最優的實體-軌跡綁定。
對比損失的效果
下表4定量驗證了我們的對比學習策略。通過優化隱空間中個性化嵌入與運動模式的相對距離,該方法在保證多實體屬性解耦的同時,促進其在給定運動條件下的和諧融合,使軌跡跟蹤精度提升約3.2像素偏移量,同時提高約1.0%的身份保持保真度。
運動與個性化嵌入注入順序的消融
通過自適應層歸一化和交叉注意力注入運動與個性化嵌入被證明是最有效的方式。我們在保持這些先進設計的同時探索特征注入順序。下表5顯示:過早注入個性化嵌入會輕微降低運動跟蹤保真度,因為交叉注意力機制對風格化身份特征的過度激活會抑制運動軌跡語義在擴散過程中的傳播。因此我們最終選擇運動-文本-個性化的注入順序,該安排確保:運動嵌入先建立時序動態,文本條件維持語義完整性,最后個性化嵌入在不犧牲軌跡精度的情況下增強外觀特征。
結論
Tora2——一個支持多實體運動軌跡控制的統一視頻生成框架。Tora2通過解耦個性化提取器,在Q-Former框架下融合語義特征與高頻本質特征,實現開放集個性化嵌入提取;采用新穎的綁定策略關聯視覺實體、運動軌跡與文本詞匯,確保多實體間的協調控制。大量實驗表明,Tora2在保持與最先進定制方法相當性能的同時,提供了更先進的運動軌跡控制能力,顯著提升了可控視頻生成的現有技術水平。
本文轉自AI生成未來 ,作者:AI生成未來
