CVPR 2025｜北大開源多模態驅動的定制化漫畫生成框架DiffSensei，還有4.3萬頁漫畫數據集

作者：機器之心 2025-03-10 07:00:00

北京大學、上海人工智能實驗室、南洋理工大學聯合推出 DiffSensei，首個結合多模態大語言模型（MLLM）與擴散模型的定制化漫畫生成框架。

隨著生成式人工智能技術（AIGC）的突破，文本到圖像模型在故事可視化領域展現出巨大潛力，但在多角色場景中仍面臨角色一致性差、布局控制難、動態敘事不足等挑戰。

為此，北京大學、上海人工智能實驗室、南洋理工大學聯合推出 DiffSensei，首個結合多模態大語言模型（MLLM）與擴散模型的定制化漫畫生成框架。

論文地址：https://arxiv.org/pdf/2412.07589
GitHub 倉庫：https://github.com/jianzongwu/DiffSensei
項目主頁 - https://jianzongwu.github.io/projects/diffsensei/
數據鏈接 - https://huggingface.co/datasets/jianzongwu/MangaZero

該框架通過創新的掩碼交叉注意力機制與文本兼容的角色適配器，實現了對多角色外觀、表情、動作的精確控制，并支持對話布局的靈活編碼。同時，團隊發布了首個專為漫畫生成設計的 MangaZero 數據集（含 4.3 萬頁漫畫與 42.7 萬標注面板），填補了該領域的數據空白。實驗表明，DiffSensei 在角色一致性、文本跟隨能力與圖像質量上顯著優于現有模型，為漫畫創作、教育可視化、廣告設計等場景提供了高效工具。

團隊公開了訓練，測試代碼、預訓練模型及 MangaZero 數據集，支持本地部署。開發者可通過 Hugging Face 獲取資源，并利用 Gradio 界面快速體驗生成效果。

1.DiffSensei 效果及應用

DiffSensei 功能

DiffSensei 生成漫畫的技術優勢：

角色一致性：跨面板保持角色特征穩定，支持連續敘事，可根據文本動態調整任務狀態和動作。
布局精準：通過掩碼機制與邊界框標注，實現多角色與對話框的像素級定位。
動態適應性：MLLM 適配器使角色可依據文本提示調整狀態（如 “憤怒表情” 或 “揮手動作”），突破傳統模型的靜態生成限制。

2.DiffSensei 應用場景

真人長篇故事生成

DiffSensei 真人長篇故事生成效果

定制漫畫生成

DiffSensei 定制漫畫生成效果

更多結果

DiffSensei 生成整頁漫畫結果，每頁漫畫的故事梗概在其上方，更多結果在項目主頁

4. 模型框架

DiffSensei 方法框架

DiffSensei 的技術架構以 “動態角色控制” 和 “高效布局生成” 為核心，通過以下模塊實現端到端的漫畫生成：

多模態特征融合:
結合 CLIP 圖像編碼器與漫畫專用編碼器（Magi），提取角色語義特征，避免直接復制像素細節導致的 “粘貼效應”。
通過重采樣模塊將特征壓縮為低維 token，適配擴散模型的交叉注意力機制，增強生成靈活性。
掩碼交叉注意力機制：復制擴散模型的鍵值矩陣，創建獨立的角色注意力層，僅允許角色在指定邊界框內參與注意力計算，實現布局的像素級控制。
引入對話布局嵌入，將對話框位置編碼為可訓練的嵌入向量，與噪聲潛在空間融合，支持后期人工文本編輯。
MLLM 驅動的動態適配器：以多模態大語言模型（如 LLaVA）為核心，接收面板標題與源角色特征，生成與文本兼容的目標角色特征，動態調整表情、姿勢等屬性。訓練中結合語言模型損失（LM Loss）與擴散損失，確保生成特征既符合文本語義，又與圖像生成器兼容。
多階段訓練優化
第一階段：基于 MangaZero 數據集訓練擴散模型，學習角色與布局的聯合生成。
第二階段：凍結圖像生成器，微調 MLLM 適配器，強化文本驅動的角色動態調整能力 813，從而適應與文本提示對應的源特征。在第一階段使用模型作為圖像生成器，并凍結其權重。

5.MangaZero 數據集

MangaZero 數據集統計信息

上圖展示了 MangaZero 數據集的基本信息，該數據集中包含最著名的日本黑白漫畫系列。圖 a 顯示了所有 48 系列的封面。這些漫畫系列之所以被選中，主要是因為它們的受歡迎程度、獨特的藝術風格和廣泛的人物陣容，為該模型提供了發展強大而靈活的 IP 保持能力。

圖 b 展示了一些人物和對話標注的示例。

圖 c 描繪了數據集中的面板分辨率分布。為了提高清晰度，其中包括三條參考線，分別表示 1024×1024、512×512 和 256×256 的分辨率。大多數漫畫畫板都集中在第二行和第三行周圍，這表明與最近研究中通常強調的分辨率相比，大多數畫板的分辨率相對較低。這一特性是漫畫數據所固有的，該工作專門針對漫畫數據。因此，可變分辨率訓練對于有效處理漫畫數據集至關重要。

MangaZero 數據集和同類數據集對比

MangaZero 數據集相比同類數據，規模更大，來源更新，標注更豐富，漫畫以及畫面分辨率更多樣。與廣為人知的黑白漫畫數據集 Manga109 相比，MangaZero 數據集收錄了更多在 2000 年之后出版的漫畫，這也正是其名稱的由來。此外，MangaZero 還包含一些 2000 年之前發行、但并未收錄于 Manga109 的著名作品，例如《哆啦 A 夢》（1974 年）。

MangaZero 數據集標注流程

上圖展示了 MangaDex 數據集的構建過程，作者通過三個步驟構建 MangaZero 數據集。

步驟 1 - 從互聯網中下載一些現有的漫畫頁面。
步驟 2 - 使用預先訓練好的模型自主為漫畫面板添加相關標注。
步驟 3 - 利用人工來校準人物 ID 標注結果。

MangaZero 數據集應用潛力

多 ID 保持，靈活可控的圖片生成訓練。漫畫數據天然擁有同一個人物多個狀態的圖像，對可根據文本靈活控制人物狀態的定制化生成訓練有很大幫助。
風格可控的漫畫生成。MangaZero 中包含的漫畫系列多樣且具有代表性，可以在模型結構中增加風格定制模塊，實現畫風可控的漫畫生成。例如生成龍珠風格的柯南。

6. 結論

DiffSensei 通過多模態技術的深度融合，重新定義了 AI 輔助創作的邊界。其開源屬性與行業適配性，將加速漫畫生成從實驗工具向產業級應用的跨越。未來，研究方向可擴展至彩色漫畫與動畫生成，進一步推動視覺敘事技術的普惠化。

責任編輯：張燕妮來源：機器之心

模型數據訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看