成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025|北大開源多模態驅動的定制化漫畫生成框架DiffSensei,還有4.3萬頁漫畫數據集

人工智能 新聞
北京大學、上海人工智能實驗室 、南洋理工大學聯合推出 DiffSensei,首個結合多模態大語言模型(MLLM)與擴散模型的定制化漫畫生成框架。

隨著生成式人工智能技術(AIGC)的突破,文本到圖像模型在故事可視化領域展現出巨大潛力,但在多角色場景中仍面臨角色一致性差、布局控制難、動態敘事不足等挑戰。

為此,北京大學、上海人工智能實驗室、南洋理工大學聯合推出 DiffSensei,首個結合多模態大語言模型(MLLM)與擴散模型的定制化漫畫生成框架。

圖片

  • 論文地址:https://arxiv.org/pdf/2412.07589
  • GitHub 倉庫:https://github.com/jianzongwu/DiffSensei
  • 項目主頁 - https://jianzongwu.github.io/projects/diffsensei/
  • 數據鏈接 - https://huggingface.co/datasets/jianzongwu/MangaZero

該框架通過創新的掩碼交叉注意力機制與文本兼容的角色適配器,實現了對多角色外觀、表情、動作的精確控制,并支持對話布局的靈活編碼。同時,團隊發布了首個專為漫畫生成設計的 MangaZero 數據集(含 4.3 萬頁漫畫與 42.7 萬標注面板),填補了該領域的數據空白。實驗表明,DiffSensei 在角色一致性、文本跟隨能力與圖像質量上顯著優于現有模型,為漫畫創作、教育可視化、廣告設計等場景提供了高效工具。

團隊公開了訓練,測試代碼、預訓練模型及 MangaZero 數據集,支持本地部署。開發者可通過 Hugging Face 獲取資源,并利用 Gradio 界面快速體驗生成效果。

1.DiffSensei 效果及應用

圖片

DiffSensei 功能

DiffSensei 生成漫畫的技術優勢:

  • 角色一致性:跨面板保持角色特征穩定,支持連續敘事,可根據文本動態調整任務狀態和動作。
  • 布局精準:通過掩碼機制與邊界框標注,實現多角色與對話框的像素級定位。
  • 動態適應性:MLLM 適配器使角色可依據文本提示調整狀態(如 “憤怒表情” 或 “揮手動作”),突破傳統模型的靜態生成限制。

2.DiffSensei 應用場景

真人長篇故事生成

圖片

DiffSensei 真人長篇故事生成效果

定制漫畫生成

圖片

DiffSensei 定制漫畫生成效果

更多結果

圖片

DiffSensei 生成整頁漫畫結果,每頁漫畫的故事梗概在其上方,更多結果在項目主頁

4. 模型框架

圖片

DiffSensei 方法框架

DiffSensei 的技術架構以 “動態角色控制” 和 “高效布局生成” 為核心,通過以下模塊實現端到端的漫畫生成:


  • 多模態特征融合:
  • 結合 CLIP 圖像編碼器 與 漫畫專用編碼器(Magi),提取角色語義特征,避免直接復制像素細節導致的 “粘貼效應”。
  • 通過重采樣模塊將特征壓縮為低維 token,適配擴散模型的交叉注意力機制,增強生成靈活性。
  • 掩碼交叉注意力機制:復制擴散模型的鍵值矩陣,創建獨立的角色注意力層,僅允許角色在指定邊界框內參與注意力計算,實現布局的像素級控制。
  • 引入對話布局嵌入,將對話框位置編碼為可訓練的嵌入向量,與噪聲潛在空間融合,支持后期人工文本編輯。
  • MLLM 驅動的動態適配器:以多模態大語言模型(如 LLaVA)為核心,接收面板標題與源角色特征,生成與文本兼容的 目標角色特征,動態調整表情、姿勢等屬性。訓練中結合 語言模型損失(LM Loss) 與 擴散損失,確保生成特征既符合文本語義,又與圖像生成器兼容。
  • 多階段訓練優化
  • 第一階段:基于 MangaZero 數據集訓練擴散模型,學習角色與布局的聯合生成。
  • 第二階段:凍結圖像生成器,微調 MLLM 適配器,強化文本驅動的角色動態調整能力 813,從而適應與文本提示對應的源特征。在第一階段使用模型作為圖像生成器,并凍結其權重。

5.MangaZero 數據集

圖片

MangaZero 數據集統計信息

上圖展示了 MangaZero 數據集的基本信息,該數據集中包含最著名的日本黑白漫畫系列。圖 a 顯示了所有 48 系列的封面。這些漫畫系列之所以被選中,主要是因為它們的受歡迎程度、獨特的藝術風格和廣泛的人物陣容,為該模型提供了發展強大而靈活的 IP 保持能力。

圖 b 展示了一些人物和對話標注的示例。

圖 c 描繪了數據集中的面板分辨率分布。為了提高清晰度,其中包括三條參考線,分別表示 1024×1024、512×512 和 256×256 的分辨率。大多數漫畫畫板都集中在第二行和第三行周圍,這表明與最近研究中通常強調的分辨率相比,大多數畫板的分辨率相對較低。這一特性是漫畫數據所固有的,該工作專門針對漫畫數據。因此,可變分辨率訓練對于有效處理漫畫數據集至關重要。

圖片

MangaZero 數據集和同類數據集對比

MangaZero 數據集相比同類數據,規模更大,來源更新,標注更豐富,漫畫以及畫面分辨率更多樣。與廣為人知的黑白漫畫數據集 Manga109 相比,MangaZero 數據集收錄了更多在 2000 年之后出版的漫畫,這也正是其名稱的由來。此外,MangaZero 還包含一些 2000 年之前發行、但并未收錄于 Manga109 的著名作品,例如《哆啦 A 夢》(1974 年)。

圖片

MangaZero 數據集標注流程

上圖展示了 MangaDex 數據集的構建過程,作者通過三個步驟構建 MangaZero 數據集。

  • 步驟 1 - 從互聯網中下載一些現有的漫畫頁面。
  • 步驟 2 - 使用預先訓練好的模型自主為漫畫面板添加相關標注。
  • 步驟 3 - 利用人工來校準人物 ID 標注結果。

MangaZero 數據集應用潛力

  • 多 ID 保持,靈活可控的圖片生成訓練。漫畫數據天然擁有同一個人物多個狀態的圖像,對可根據文本靈活控制人物狀態的定制化生成訓練有很大幫助。
  • 風格可控的漫畫生成。MangaZero 中包含的漫畫系列多樣且具有代表性,可以在模型結構中增加風格定制模塊,實現畫風可控的漫畫生成。例如生成龍珠風格的柯南。

6. 結論

DiffSensei 通過多模態技術的深度融合,重新定義了 AI 輔助創作的邊界。其開源屬性與行業適配性,將加速漫畫生成從實驗工具向產業級應用的跨越。未來,研究方向可擴展至彩色漫畫與動畫生成,進一步推動視覺敘事技術的普惠化。


責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-26 10:27:50

生成AI模型

2025-06-13 08:45:00

數據模型可視化

2023-10-04 09:28:40

CBconvert開源工具

2023-11-29 15:00:00

數據訓練

2025-06-17 02:25:00

工業異常檢測

2022-02-16 13:46:00

模型數據開源

2025-06-09 08:50:00

2024-12-18 18:57:58

2020-03-23 08:00:00

開源數據集文本分類

2025-04-03 09:27:44

2021-04-27 13:56:49

內存.映射地址

2021-04-29 18:11:03

虛擬IPKeeplived

2025-06-13 08:46:00

2020-04-17 08:34:39

Linux管道

2010-07-21 14:18:01

機房漫畫連載

2010-07-26 16:28:24

機房漫畫連載

2025-04-16 02:55:00

2024-05-06 12:21:00

AI模型

2025-02-18 09:10:00

2018-05-15 16:12:59

Kotlin擴展XxxUtils
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久男人的天堂 | 粉嫩一区二区三区性色av | 亚洲精品乱码久久久久久按摩观 | 午夜小视频在线播放 | www.亚洲精品 | 国产亚洲一区二区三区在线观看 | 一级a性色生活片久久毛片 一级特黄a大片 | 欧美一区二区视频 | 亚洲天堂av网 | 欧美成年人网站 | 国产不卡一区 | 黄色一级毛片免费看 | 亚洲国产小视频 | 国产乱码久久久久久一区二区 | 九九热这里| 黄色毛片在线播放 | 亚洲精品亚洲人成人网 | 91新视频| 国产精品18久久久久久白浆动漫 | 久久夜视频 | 91精品综合久久久久久五月天 | 一区二区三区四区国产 | 四虎成人av | 欧美一区二区三区久久精品视 | 成人欧美一区二区 | 欧美精品一区二区三区在线 | 亚洲精品国产一区 | 国产精品毛片久久久久久 | 久久国产精品久久久久久久久久 | 欧美激情在线观看一区二区三区 | 久久69精品久久久久久久电影好 | 成人性生交a做片 | 日本在线看| 色99视频| 麻豆久久久久 | 毛色毛片免费看 | 亚洲午夜精品一区二区三区他趣 | 中文福利视频 | 九一视频在线播放 | 欧美一区二区 | 成人精品一区二区 |