廈門大學聯合網易提出StoryWeaver,可根據統一模型內給定的角色實現高質量的故事可視化
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
廈門大學聯合網易提出StoryWeaver,可以根據統一模型內給定的角色實現高質量的故事可視化。可根據故事文本生成與之匹配的圖像,并且確保每個角色在不同的場景中保持一致。本文的方法主要包括以下幾個步驟:
- 1. 角色圖構建:設計一個角色圖(CG),將故事中的角色、事件和屬性節點結構化表示。角色作為對象節點,屬性節點則附加在角色上,角色之間的關系通過邊連接,形成一個全面的知識網絡。
- 2. 定制化生成:通過角色圖(C-CG)進行定制化,生成詳細的場景描述,捕捉角色的細節和它們之間的互動。使用視覺語言模型(VLM)提取圖像的豐富語義信息,并通過場景圖解析器提取事件相關的語義。
- 3. 知識增強的空間引導:在交叉注意力機制中引入知識增強的空間引導,以修改注意力圖,確保角色在生成過程中的一致性。通過分配外部知識來優化角色在圖像中的位置和關系,從而改善多角色生成的質量。
StoryWeaver 可以根據統一模型內給定的角色實現高質量的故事可視化。
相關鏈接
- 論文:http://arxiv.org/abs/2412.07375v2
- 主頁:https://github.com/Aria-Zhangjl/StoryWeaver
論文閱讀
StoryWeaver:知識增強型故事角色定制的統一世界模型
摘要
故事可視化在人工智能領域越來越受到關注。然而,現有的方法仍然難以在角色身份保存和文本語義對齊之間保持平衡,這主要是由于缺乏對故事場景的詳細語義建模。
為了應對這一挑戰,論文提出了一種新的知識圖譜即角色圖譜(CG),它全面代表了各種與故事相關的知識,包括角色、與角色相關的屬性以及角色之間的關系。然后介紹了StoryWeaver,這是一個通過角色圖譜 (CCG) 實現定制的圖像生成器,能夠實現具有豐富文本語義的一致故事可視化。為了進一步提高多角色生成性能,論文將知識增強空間引導 (KE-SG) 結合到 StoryWeaver 中,以精確地將角色語義注入生成中。
為了驗證提出方法的有效性,文中使用一個名為 TBC-Bench 的新基準進行了廣泛的實驗。實驗證實 StoryWeaver 不僅擅長創造生動的視覺故事情節,而且還擅長在各種場景中準確傳達人物身份,并且具有相當高的存儲效率,例如,DINO-I 平均提升了 9.03%,CLIP-T 平均提升了 13.44%。此外,還進行了消融實驗以驗證所提模塊的優越性。
方法
StoryWeaver 的整體框架。
a. 論文提出 Character-Graph 來表示故事世界中的語義豐富知識。
b. 通過提出的空間指導增強了 StoryWeaver,以進一步提高多角色生成的性能
通過字符圖 (C-CG) 和知識增強空間引導 (KE-SG) 進行定制的影響的視覺示例。
a. 如果沒有 C-CG,生成器將難以捕捉角色的更細粒度的細節。
b. 如果沒有 KESG,生成器傾向于在所有區域均勻分配注意力,從而導致身份混合。
結果
不同方法在單角色和多角色視覺敘事上的視覺比較。StoryWeaver 擅長角色身份定制和匹配良好的語義對齊。
(a)單字符生成示例
(b)多字符生成示例
Pororo 數據集上的多角色故事可視化示例。
收集的角色和樣本集中于兩部動畫片,即《波魯魯》和《冰雪奇緣》。這些樣本包括對單個角色的詳細描述以及展示多個角色之間互動的場景。
結論
論文提出了一個統一的模型StoryWeaver,該框架具有復雜的角色定制功能,可用于故事可視化。論文首先提出了一種新穎的角色圖,它將故事世界中的豐富語義知識封裝起來以增強StoryWeaver。然后引入知識增強的空間指導來改進交叉注意力圖,以實現精確的多角色生成。實驗結果表明,與一組單一和多重定制方法相比,StoryWeaver 在身份定制方面實現了更好的保真度,并實現了更好的語義對齊。