專治“主體漂移”!OpenS2V-Nexus發布:首創三大精準指標+500萬開源數據,S2V新標準! 精華
論文鏈接: https://arxiv.org/pdf/2505.20292
項目鏈接:https://pku-yuangroup.github.io/OpenS2V-Nexus/
亮點直擊
- 全新的S2V(Subject-to-Video)基準測試:引入了用于全面評估S2V模型的 OpenS2V-Eval,并提出了三種與人類感知一致的新自動評估指標。
- S2V 模型選擇的新見解:通過使用 OpenS2V-Eval 進行評估,揭示了多種主體到視頻生成(S2V)模型的優勢與劣勢,提供了關鍵性見解。
- 大規模 S2V 數據集:構建了 OpenS2V-5M 數據集,包括 510 萬條高質量常規數據和 35 萬條 Nexus 數據,后者旨在解決主體到視頻生成中的三個核心挑戰。
總結速覽
解決的問題
- 缺乏細粒度評估基準:現有的 S2V 生成評估主要繼承自 VBench,側重于視頻整體質量和粗粒度評價,難以準確衡量主體一致性、自然性和身份保真度。
- 缺乏大規模、高質量的數據集:S2V 研究缺乏開放、可復用的大規模主體-文本-視頻三元組數據集,限制了模型訓練和評估。
- 評估指標與人類感知不一致:現有自動評估指標難以準確反映人類對生成視頻的主觀感受。
- S2V 模型性能缺乏系統對比:缺少統一平臺對不同 S2V 模型進行系統性評估和比較。
開放域評估示例:
人類域評估示例:
單域評估示例:
自動指標參考:
提出的方案
- 構建 OPENS2V-NEXUS 基礎設施,包括:
- OpenS2V-Eval:一個聚焦主體一致性、自然性和身份保真度的細粒度評測基準;
- OpenS2V-5M:一個包含 510 萬條高質量主體-文本-視頻三元組的大規模開放數據集。
- 設計三種自動化評估指標:
- NexusScore:衡量主體一致性;
- NaturalScore:衡量生成視頻的自然程度;
- GmeScore:衡量文本與視頻的相關性。
- 覆蓋七大類 S2V 場景,設計 180 條提示語,結合真實與合成數據,全面測試模型能力。
- 系統評估 18 個代表性 S2V 模型,揭示不同模型在多種內容類型下的表現差異。
應用的技術
- 主體分割與跨視頻配對:通過視頻間關聯構建主體配對信息,增強主體多樣性。
- GPT-Image 多視角生成:基于圖像大模型對視頻幀進行提示,生成多視角主體表示。
- 自動化評估指標設計:結合語義一致性、圖像質量和文本對齊等維度,開發貼近人類感知的指標體系。
- 大規模數據采集與標注:構建包含常規數據與 Nexus 數據的高質量數據集,后者專門用于應對 S2V 的關鍵挑戰。
達到的效果
- 提供統一、細粒度的評估平臺,顯著提升 S2V 模型評估的準確性和可比性。
- 揭示不同 S2V 模型的優勢與劣勢,為研究者和開發者選擇合適模型提供參考。
- 推動 S2V 研究發展,通過開放高質量數據集和評估工具,加速模型訓練、優化與創新。
- 對齊評估指標與人類偏好,使自動化評估結果更具可信度與實用性。
OpenS2V-Eval
Prompt 構建
為了全面評估受視頻模型的能力設計的文本提示必須涵蓋廣泛的類別,相關的參考圖像必須符合高質量標準。因此,為了構建一個包含多樣視覺概念的受視頻基準,將此任務分為七個類別:1 單面部到視頻,2 單身體到視頻,3 單實體到視頻,4 多面部到視頻,5 多身體到視頻,6 多實體到視頻,以及 7 人類實體到視頻。基于此,分別從 ConsisID和 A2 Bench收集了 50 和 24 對受文本,以構建 1、2 和 6。此外,從 DreamBench收集了 30 張參考圖像,并利用 GPT-4o生成標題以構建 3。隨后,從無版權網站獲取高質量視頻,使用 GPT-Image-1從視頻中提取主體圖像,并使用 GPT-4o 為視頻生成標題,從而獲得其余的受文本對。每個樣本的收集均手動進行,以確保基準質量。與之前僅依賴真實圖像的基準 [13, 39] 不同,合成樣本的納入增強了評估的多樣性和精確性。
基準統計
收集了 180 對高質量的受文本對,其中包括 80 個真實樣本和 100 個合成樣本。除了 4 和 5 各包含 15 個樣本外,所有其他類別均包括 30 個樣本。數據統計如下圖 3 所示。如 (c) 和 (d) 所示,S2V 任務的七個主要類別涵蓋了廣泛的測試場景,包括各種物體、背景和動作。
此外,與人類相關的術語,如“女人”和“男人”,占據了相當大的比例,從而能夠全面評估現有方法保持人類身份的能力——這是 S2V 任務中尤其具有挑戰性的方面。此外,由于某些方法偏好長標題而其他方法偏好短標題,確保文本提示的長度各異,如 (b) 所示。還評估了收集的參考圖像的美學評分,結果顯示大多數得分超過5,表明質量較高。此外,保留了一些低質量圖像以保持評估的多樣性。由于現有 S2V 模型 [42, 18, 43] 的局限性,將每個樣本的主體圖像數量限制為不超過三個。
新的自動化指標
如前所述,現有的 S2V 基準通常是從 T2V 調整而來的,而不是專門定制的。對于受視頻而言,評估不僅要考慮視覺質量和運動等全局方面,還要評估合成輸出中的主體一致性和自然性。
NaturalScore 與現有的以主體為中心的視頻基準[109, 21, 39, 54]不同,這些基準僅關注主體一致性,還評估生成的主體是否看起來自然,即它是否符合物理規律。這是由于當前 S2V 方法中普遍存在的“復制-粘貼”問題,在這種情況下,模型盲目地將參考圖像復制到生成的場景中,導致即使輸出未能與典型人類感知對齊,也會產生高一致性分數。
GmeScore 現有方法通常使用 CLIP或 BLIP計算文本相關性。然而,一些研究,如[57, 111, 97] 已經識別出這些模型特征空間中的固有缺陷,導致得分不準確。此外,它們的文本編碼器限制為 77 個標記,這使得它們不適合當前基于 DiT 的視頻生成模型所偏好的長文本提示。因此,選擇使用 GME,這是一個在 Qwen2-VL上進行微調的模型,能夠自然地適應不同長度的文本提示,并產生更可靠的分數。
OpenS2V-5M
數據構建
主體驅動處理。如前所述,現有的大規模視頻生成數據集通常僅包含文本和視頻,這限制了它們在開發復雜的主體到視頻任務中的適用性。為克服這一限制,本文開發了第一個大規模主體到視頻數據集,原始視頻來源于 Open-Sora Plan。鑒于元數據包括視頻標題,我們最初選擇包含人類的視頻,因為這些視頻通常包含更多的主體。接下來,根據美學、運動和技術分數篩選出低質量視頻,最終得到5,437,544個視頻片段。在此基礎上,遵循 ConsisID 數據pipeline,我們利用 Grounding DINO和 SAM2.1從每個視頻中提取主體,生成適合主體到視頻任務的常規數據。最后,為確保數據質量,使用美學和多模態檢索模型為參考圖像分配美學分數和 GmeScore,使用戶能夠調整閾值以平衡數據數量和質量。
概括化 Nexus 構建。現有的 S2V 方法主要依賴常規數據,其中提取的主體通常與訓練幀中的視圖相同,并且可能不完整,這導致了前文中討論的三個核心挑戰。這一限制源于直接從真實視頻中提取參考圖像,導致模型通過將參考圖像復制到生成視頻上而不是學習底層知識,從而減少了泛化能力。為克服這一問題,引入 Nexus 數據,包括 GPT-幀對和跨幀對。常規數據與Nexus數據之間的比較如下圖 5 所示。
實驗
評估設置
評估基線。評估了幾乎所有的S2V(Subject-to-Video)模型,包括四個閉源模型和十二個開源模型。這些模型涵蓋了支持所有類型主體的模型(例如 Vidu、Pika、Kling、VACE、Phantom、SkyReels-A2 和 HunyuanCustom),以及僅支持人物身份的模型(例如 Hailuo、ConsisID、Concat-ID、FantasyID、EchoVideo、VideoMaker和 ID-Animator)。
應用范圍。OpenS2V-Eval 提供了一種自動評分方法,用于評估主體一致性、主體自然性和文本相關性。通過結合現有的視覺質量、運動幅度和人臉相似度指標(例如 Aesthetic Score、Motion Score和 FaceSim-Cur),它實現了對 S2V 模型在六個維度上的綜合評估。此外,還可以利用人工評估以提供更精確的評估。
實現細節。閉源 S2V 模型只能通過其接口手動運行,而開源模型的推理速度相對較慢(例如 VACE-14B在單張 Nvidia A100 上生成一個81X720X1280的視頻需要超過 50 分鐘)。因此,對于每個基線模型,僅為 OpenS2V-Eval 中的每個測試樣本生成一個視頻。然后使用上述六個自動化指標對所有生成視頻進行評估。所有推理設置均遵循官方實現,并將隨機種子固定為 42。
綜合分析
定量評估。首先展示不同方法的全面定量評估,結果顯示在下表 3、4 和 5 中。所有模型都能生成具有高視覺質量和文本相關性的視頻。對于開放域 S2V,閉源模型通常優于開源模型。其中,Pika獲得了最高的 GmeScore,表明其生成的視頻與提供的指令更為一致。Kling則生成了保真度和真實感更高的視頻,獲得了最高的 NexusScore 和 NaturalScore。雖然 SkyReels-A2在開源模型中擁有較高的 NexusScore,但其相對較低的 NaturalScore 暗示存在復制粘貼問題。VACE-1.3B 和 VACE-14B通過擴大參數規模和數據集,在整體生成質量上優于 VACE-P1.3B。在人類領域的 S2V 任務中,專有模型在保持人類身份方面優于開放域模型,尤其是 Hailuo,其獲得了最高的總分 60.20%。此外,NaturalScore 顯示,盡管開源模型如 ConsisID和 Concat-ID擁有相對較強的 FaceSim,但仍存在嚴重的復制粘貼問題。相比之下,EchoVideo在開源人類領域模型中獲得了最高分。由于 HunyuanCustom僅開源了單主體版本,我們額外提供了單域場景的結果,如下表 5 所示。值得注意的是,盡管 HunyuanCustom在主體保真度方面表現出色,其生成的風格往往呈現出人工特征,導致輸出不夠真實。
定性評估。接下來,隨機選擇三個測試數據進行定性分析,如下圖 6、7 和 8 所示。總體而言,閉源模型在整體能力方面表現出明顯優勢(例如 Kling)。以 Phantom 和 VACE為代表的開源模型正在逐步縮小這一差距;然而,這兩種模型都存在以下三個共同問題:(1)泛化能力差:某些主體的保真度較低。例如,在下圖 6 的案例 2 中,Kling生成了錯誤的操場背景,而 VACE、Phantom 和 SkyReels-A2生成了保真度較低的人物和鳥類;(2)復制粘貼問題:在圖 7 中,SkyReels-A2和 VACE錯誤地將參考圖像中的表情、光照或姿態復制到生成視頻中,導致輸出不自然;(3)人類保真度不足:在圖 6 的案例 2 中,只有 Kling在視頻的前半段保持了人類身份,而其他模型在整個視頻中都丟失了大量面部細節。圖 7 顯示所有模型都未能準確渲染人物側臉。此外,觀察到:(1)隨著參考圖像數量的增加,保真度逐漸下降;(2)初始幀可能模糊或直接被復制;(3)保真度隨時間逐漸下降。
人類偏好。然后,通過人工交叉驗證驗證指標的有效性。隨機選擇與提示語對應的 60 個生成視頻,并邀請 173 名參與者進行投票,從而得出評估結果。為提高用戶滿意度,采用二元分類問卷格式。下圖 9(a) 展示了自動化指標與人類感知之間的相關性。顯然,三項提出的指標——Nexus Score、NaturalScore 和 GmeScore——與人類感知一致,能夠準確反映主體一致性、主體自然性和文本相關性。此外,所提出的指標在人類偏好上與其他指標 [17, 6, 16] 相當。
OpenS2V-5M 的驗證。最后,為評估OpenS2V-5M的有效性與魯棒性,采用ConsisID方法對基于Wan2.1 1.3B權重初始化的模型進行微調,僅使用MSE損失函數并省略掩碼損失。受限于算力條件,從OpenS2V-5M中隨機選取30萬樣本進行訓練,且僅聚焦于單一人物身份的學習。如圖9(b)所示,實驗結果表明:本文數據集成功將文本生成視頻模型轉化為特定主體生成視頻模型,由此驗證了所提出的數據集及其數據收集流程的有效性——其中Nexus Data發揮了關鍵作用。由于模型尚未完成完整訓練周期,當前性能未達最優狀態,本實驗僅作驗證用途。
結論
OpenS2V-Eval,第一個專門用于評估主體到視頻(S2V)生成的基準。該基準解決了現有基準的局限性,這些基準主要源自文本到視頻模型,忽略了諸如主體一致性和主體自然性等關鍵方面。此外,提出了三種與人類一致的新自動化指標——NexusScore、NaturalScore 和 GmeScore。還引入了 OpenS2V-5M,這是第一個開源的百萬級 S2V 數據集,不僅包含常規的主體-文本-視頻三元組,還包括使用 GPT-Image-1 和跨視頻關聯構建的 Nexus 數據,從而促進社區內的進一步研究,并解決 S2V 的三個核心問題。
本文轉自AI生成未來 ,作者:AI生成未來
