北大提出定制化漫畫生成新框架DiffSensei,可生成具有動態多角色控制的漫畫圖像
由北京大學、上海人工智能實驗室、南洋理工大學提出了一種新框架DiffSensei可以實現定制化漫畫生成,解決現有方法在多角色場景中對角色外觀和互動控制不足的問題。DiffSensei結合了基于擴散的圖像生成器和多模態大語言模型(MLLM),其核心任務是生成具有動態多角色控制的漫畫圖像。
DiffSensei 的結果。(a)具有可控角色圖像、面板標題和布局條件的定制漫畫生成。DiffSensei 成功地根據面板標題生成了詳細的角色表情和狀態。(b)為真實人類圖像創作漫畫。對話由人類后期編輯。
相關鏈接
- 論文:http://arxiv.org/abs/2412.07589v1
- 主頁:https://jianzongwu.github.io/projects/diffsensei/
- 代碼:https://github.com/jianzongwu/DiffSensei
- 數據集:https://huggingface.co/datasets/jianzongwu/MangaZero
論文閱讀
DiffSensei:連接多模態 LLM 和擴散模型以實現定制漫畫生成
摘要
故事可視化是從文本描述創建視覺敘事的任務,文本到圖像生成模型已取得進展。然而,這些模型通常缺乏對角色外觀和互動的有效控制,尤其是在多角色場景中。
為了解決這些限制,論文提出了一項新任務:定制漫畫生成,并引入了 DiffSensei,這是一個專為生成具有動態多角色控制的漫畫而設計的創新框架。DiffSensei 將基于擴散的圖像生成器與充當文本兼容身份適配器的多模態大語言模型 (MLLM) 集成在一起。該方法采用掩蔽交叉注意來無縫整合角色特征,無需直接像素傳輸即可實現精確的布局控制。
此外,基于 MLLM 的適配器會調整角色特征以與面板特定的文本提示保持一致,從而可以靈活調整角色表情、姿勢和動作。論文還推出了 MangaZero,這是一個專為此任務量身定制的大型數據集,包含 43,264 頁漫畫和 427,147 個帶注釋的面板,支持可視化連續幀中各種角色的互動和動作。大量實驗表明 DiffSensei 的表現優于現有模型,通過實現文本自適應角色定制,標志著漫畫生成取得了重大進步。
模型架構
DiffSensei 的架構。 在第一階段,論文訓練一個具有布局控制的多角色定制漫畫圖像生成模型。在第一個卷積層之后,將對話嵌入添加到噪聲隱含層中。U-Net 和特征提取器中的所有參數都經過訓練。在第二階段,微調 MLLM 的 LoRA 和重采樣器權重,以適應與文本提示相對應的源角色特征。使用第一階段的模型作為圖像生成器并凍結其權重。