成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品

發布于 2024-6-17 10:46
瀏覽
0收藏

讓AI畫漫畫角色保持一致的新研究來了!


創作的連環畫效果belike:

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

頻繁切換主體、人物之間復雜的互動也能保持角色一致性:

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

上述效果來自AutoStudio,是一個由中山大學和聯想團隊聯合提出的無需訓練的多智能體協同框架。


AutoStudio采用基于大?語言模型的三個智能體來處理交互,并使用基于擴散模型的Drawer生成高質量圖像。


實驗中,AutoStudio無論是在定量還是定性評估中都優于現有方法。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

AutoStudio長啥樣?

由于最先進的?T2I?生成模型在生成令人印象深刻的單個圖像方面表現出了卓越的能力,研究界對更復雜的多輪交互式圖像生成工作的興趣與日俱增。


在現實世界的應用中,用戶經常需要以交互方式生成一系列圖像,其中包括各種任務,如開放式故事生成和多主體多輪編輯。


然而,目前的方法大多數要求預先定義所有輪的生成指令,并且在面對不同的用戶指令(如定制、編輯和大量交叉引用)時,很難在多個主體之間保持一致性。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

為了解決這些問題,研究團隊引入了AutoStudio,這是一個多智能體?、無需訓練的框架,具有四個特別定制的智能體,利用現成的模型與用戶進行即時交互。


他們的目標是引入一個多功能、可擴展的框架,通過多智能體協作,可以將任何所需的LLM架構和擴散骨干結合到框架中,以滿足用戶多輪生成的多樣化需求。


具體而言,AutoStudio包括三個基于LLM的智能體:

  • 主題管理器解釋對話,識別不同的主題,并為其分配適當的上下文;
  • 布局生成器為每個主題生成部分級別的邊界框,以控制主題的位置;
  • 監督員為布局生成器提供布局改進和修正的建議。


最后,繪制器基于擴散模型完成基于改進布局的圖像生成。


此外,研究人員在繪制器中引入了一個并行UNet(P-UNet),它具有一種新穎的架構,利用兩個并行的交叉注意力模塊分別增強文本和圖像嵌入的潛在主題特征。


為了進一步解決SD在理解長提示和生成過程中缺失和錯誤融合主題的限制,研究人員在繪制器中引入了一種主題初始化的生成方法。


接下來是對AutoStudio架構的詳細說明。

多智能體協同

研究團隊首先引入一個主題管理器Manager,它不僅能為主題及其組件分配ID,還能將用戶提示轉換為繪圖說明。


然后,布局生成器Layout Generator對這些標題進行處理,生成粗略的布局,其中包含每個主題及其組件的邊界框和信息。


為了糾正不合理的主體內和主體間空間關系并完善粗略布局,引入了一個監督器Supervisor。


該監督器將粗布局作為輸入,并向布局生成器提供建議。


通過這種方式,Supervisor和Layout Generator密切協作,形成一個布局細化的閉環流


此外,研究團隊還定義了一組任務介紹,以指導這三個基于 LLM 的代理生成格式正確的響應。


最后,給定細化布局和從主體庫中獲取的主體信息,繪圖器Drawer?可以生成與布局對齊且包含一致主體的圖像。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

主體初始化生成過程

為了解決多ID綁定任務中主體丟失和融合的問題,研究人員引入主體初始化生成過程


這個過程包括對主體粗粒度特征的單獨生成,使用提取器提取特征并通過正向擴散映射到潛空間并在全局生成的初始幾步進行局部替換。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

P-UNet

Stable Diffusion模型中的原始UNet利用交叉注意模塊來利用文本特征,但這不足以表示多個主體的空間關系和特征。


因此,研究人員提出了利用免訓練布局調整注意力模塊的P-UNet。


將UNet層的原始交叉注意模塊拆分為兩個并行的文本和圖像交叉注意模塊(分別稱為PTCA和PICA)來細化Z,這兩個模塊具有相同的架構,其主要思想是計算Z與每個主體文本/圖像嵌入之間的特征相似性。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

AutoStudio效果如何?

研究人員在CMIGBench上利用所選的基準模型對AutoStudio進行了全面評估。


CMIGBench基于故事生成和多輪編輯,包含8000個多輪腳本對話(每個任務4000個)。

研究人員選擇了平均弗雷謝特起始距離(aFID)和平均字符-字符相似度(aCCS)這兩個定量指標來評估上下文一致性,并選擇了平均文本-圖像相似度(aTIS)來評估主體間的語義一致性。


結果,AutoStudio在所有指標上都明顯優于之前的方法

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

下圖展示了多輪交互式圖像生成的可視化結果,表明AutoStudio能夠理解用戶的自然語言指令,并生成主題一致的圖像。


相比而言,Theatergen無法處理人物之間復雜的互動(如擁抱和接吻),而MiniGemini則難以保持主體的一致性。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

Intelligent Grimm和StoryDiffusion無法在多回合互動中保持多個角色之間的一致性,并表現出有限的編輯效果。

AI畫連環畫角色更一致了!人物之間的復雜互動也能處理|中山大學&聯想團隊出品-AI.x社區

論文鏈接:https://arxiv.org/abs/2406.01388
項目主頁:https://howe183.github.io/AutoStudio.io/


本文轉自量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/fjJF1LfyW49EHmmetiSQLQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91免费观看视频 | 成人免费视频网站在线看 | 欧美一区二区三区在线播放 | 欧美精品一区二区三 | 久久久美女 | 男女羞羞视频在线观看 | 日韩精品二区 | 久久精品亚洲欧美日韩久久 | 亚洲精品一区国语对白 | 国产精品黄色 | 欧美在线一区二区三区 | 日韩三极| 日本精品一区二区三区在线观看 | 怡红院免费的全部视频 | 色五月激情五月 | 亚洲第一福利视频 | 精品国产乱码一区二区三 | 精品国产网 | 国产91视频播放 | 久草新在线 | 日本精品视频 | 日韩国产高清在线观看 | 三级免费网 | 中文字幕日韩一区 | 国产一区二区三区色淫影院 | 欧美激情一区二区三区 | 日本涩涩视频 | 91精品国产一区二区三区动漫 | 色综合天天天天做夜夜夜夜做 | 亚洲永久 | 国产亚洲久 | 在线观看成人小视频 | 无码一区二区三区视频 | 孰女乱色一区二区三区 | 国产精品久久久精品 | 日本国产一区二区 | 欧美三区在线观看 | 精品婷婷 | 91精品在线播放 | 久久一区二区三区四区 | 日韩1区 |