成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示 精華

發布于 2024-9-10 11:47
瀏覽
0收藏

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

文章鏈接:https://arxiv.org/pdf/2408.03209git鏈接:https://unity-research.github.io/IP-Adapter-Instruct.github.io/demo鏈接:https://huggingface.co/spaces/unity/IP-Adapter-Instruct

亮點直擊

  • 提出IPAdapter-Instruct模型:結合自然圖像條件與文本指令,靈活切換多種解釋方式(如風格遷移、物體提取),簡化任務處理。
  • 增強生成控制:改進傳統圖像條件方法,通過指令提示在同一條件圖像下處理多種解釋,提高生成控制精度。
  • 高效學習與靈活性:模型能夠同時學習多種任務,性能接近專門模型,但顯著減少訓練時間和成本。
  • 改進訓練與推理:通過多種條件解釋(如完全復制、風格遷移等),提高了訓練和推理效率及質量。

擴散模型不斷推動圖像生成的技術邊界,但其生成過程難以精細控制:實踐表明,文本提示不足以準確描述圖像風格或細節(如面部特征)。ControlNet 和 IPAdapter 通過將生成過程基于圖像條件進行調整,解決了這一問題,但每個模型實例僅能模擬單一的條件后驗分布。在實際應用中,需要在同一工作流程中使用多個不同的后驗分布,而訓練和使用多個適配器顯得繁瑣。為此,本文提出了 IPAdapter-Instruct,它結合了自然圖像條件和“指令”提示,能夠在同一條件圖像下切換不同的解釋:風格遷移、對象提取、或兩者兼有,甚至其他任務。與專門的單任務模型相比,IPAdapter-Instruct 能有效學習多項任務,同時在質量上損失最小。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

方法

基于指令引導的圖像條件生成

現有的基于圖像條件的技術并沒有提供一種明確的方法來控制條件對輸出的影響,尤其是在處理自然圖像條件時,沒有一種統一的方式來整合其信息和內容。相反,通過額外的“指令”提示  讓用戶明確意圖,將其稱為指令或指令提示,以區別于文本提示 。這意味著現在建模的是概率分布 。可以將原始的IPAdapter視為此模型的一種實例,其中 從這張圖像中再現所有內容——本文的方法建模了一個更廣泛的后驗分布,而IPAdapter只是其中的一個邊緣分布。


本文論了針對聯合IPAdapter-Instruct模型的五種不同生成任務:

  • 復制:生成條件圖像的不同變體(類似于IPAdapter),
  • 風格:生成與條件圖像風格一致的圖像,
  • 結構:生成與條件圖像結構相同的圖像,
  • 對象:生成包含條件圖像中的對象的圖像,
  • 面部:生成包含條件圖像中人物面部的圖像。


在有適當數據集和訓練流程的前提下,五個獨立的IPAdapter實例可以分別處理這些任務,但這種工作流程在訓練和推理時都顯得繁瑣。相反,IPAdapter-Instruct同時針對所有任務進行訓練,使得整個任務集的訓練更加高效,并且推理過程也更加實用。此外,多任務學習在許多情況下已被證明是有益的。

模型架構

本文的模型架構基于IPAdapter+的變換投影模型。首先討論原始的IPAdapter+架構,然后介紹本文的修改。


在IPAdapter+中,每次對文本提示  進行交叉注意力操作后,都會在條件圖像的投影編碼上添加一個交叉注意力層,如下圖2所示。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

條件圖像首先被編碼到CLIP域,然后通過單個線性層投影到IPAdapter+特定的空間中,之后再通過一個小型的變換模型,如下圖3所示。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

引入指令。 對于IPAdapter-Instruct,修改了投影變換模型,在每次迭代時引入了一個額外的注意力層,該層還會關注指令的CLIP嵌入,如圖3所示。通過這種方式,模型能夠從條件嵌入中提取與指令相關的信息。


編碼指令 選擇使用文本embedding模型對指令進行編碼,將其嵌入到與原始IPAdapter(+)模型將條件圖像embedding的相同空間中。鑒于任務集的離散性,也可以為每個任務學習特定的任務embedding,并使用這些embeddings代替。然而,通過利用強大的預訓練ViT-H/14模型,能夠從CLIP嵌入空間的語義豐富性中獲益,并且將指令和條件都表示在同一個空間中。雖然在這項工作中沒有對此進行詳細研究,但坐著的直覺認為,這種方法能夠實現更靈活和穩健的指令理解,并為未來的額外任務提供更好的起點。

任務和數據集生成

研究者們為每個不同的任務構建了一個專用數據集,詳細內容如下所述。對于指令提示,使用大型語言模型(LLM)為每個任務生成示例指令提示,并在訓練過程中隨機抽取這些提示。為了確保每個任務在CLIP空間中能夠清晰辨識,為每個任務分配了一個關鍵詞,并刪除了任何包含其他任務關鍵詞的指令。下圖4展示了每個任務指令嵌入的t-SNE可視化(以及在消融研究中使用的“平均”指令)。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

下圖5展示了所有這些數據集的示例條目。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

圖像復制

與IPAdapter的訓練過程類似,該任務的目標是創建輸入圖像的細微變化。由于此模式復現了IPAdapter的原始行為,期望能夠將這種指令模式應用于其他任務。為了創建訓練數據集,使用了JourneyDB數據集,收集了42,000個隨機樣本及其原始文本提示。指令提示則通過詢問ChatGPT-4 生成,要求其“生成不同長度的描述方式,以表達從一張圖像中獲取所有內容,但不要使用‘構圖’、‘風格’、‘面部’或‘對象’這些詞”。

風格保留

在風格保留任務中,用戶希望僅提取條件圖像的風格并將其應用于新的圖像——盡管這個概念并不十分明確,但它通常包含色彩方案和一般的藝術風格。身份、布局和構圖不應滲透到生成圖像中。為了創建風格訓練數據集,從ehristoforu/midjourney-images 風格數據集和一個大規模的藝術數據集 開始。條件圖像從風格數據集中采樣,而目標圖像則通過InstantStyle生成,使用藝術數據集中的提示,并將條件圖像作為風格源。換句話說,這種模式通過監督生成類似于InstantStyle生成的圖像。指令提示通過詢問ChatGPT-4生成,要求其“生成不同長度的描述方式,以表達從一張圖像中獲取風格,但不要使用‘構圖’、‘對象’、‘面部’或‘所有內容’這些詞”。由于InstantStyle計算成本高且速度較慢,該數據集僅包含20,000個樣本。

對象提取

在對象提取任務中,目標是將條件圖像中的對象置于一個新的場景中,并盡可能保留其身份特征,這與MagicInsert類似。基于COCO數據集生成此數據集:對于35,000張圖像,將相關對象裁剪出來作為條件圖像,并在必要時使用隨機顏色填充。目標圖像則是原始數據集中的圖像,并由GPT-4o提供相應的文本提示。指令提示通過詢問ChatGPT-4生成,要求其“生成不同長度的描述方式,以表達從一張圖像中提取對象,但不要使用‘構圖’、‘風格’、‘面部’或‘所有內容’這些詞”。為了向圖像投影層(如前面圖3所示)提供更多語義信息(通常用戶會訪問到這些信息),在指令中將‘對象’關鍵詞替換為該對象的具體名稱。

結構保留

最后,研究者們還創建了一個用于結構保留的數據庫。該任務旨在模仿scribble ControlNet模型的行為,生成具有與條件圖像相似的Canny邊緣輪廓的圖像,而無需先生成這些邊緣圖像。對于scribble數據集,使用CommonCanvas數據集,并使用lllyasviel/sd-controlnet-scribble ControlNet模型通過其Canny邊緣圖和原始提示生成新的目標圖像——原始圖像本身則作為條件圖像。指令提示通過詢問ChatGPT-4生成,要求其“生成不同長度的描述方式,以表達從一張圖像中獲取構圖,但不要使用‘風格’、‘對象’、‘面部’或‘所有內容’這些詞”。

身份保留

由于人類對面部特征極為敏感,還使用CelebA數據集為面部保留創建了一個專用數據集。采集了40,000對匹配的圖像對,并由GPT-4o提供文本提示。為了更加突出面部特征,其中一半的條件圖像被放大以專注于面部。指令提示通過詢問ChatGPT-4生成,要求其“生成不同長度的描述方式,以表達從一張圖像中獲取面部或身份特征,但不要使用‘構圖’、‘風格’、‘所有內容’或‘對象’這些詞”。

訓練過程

本文的訓練過程遵循IPAdapter的訓練步驟,并使用前面討論的數據集。選擇Stable Diffusion 1.5 作為基礎模型,因為它在輸出多樣性、可控性和可訪問性方面表現出色——因此它仍然是社區中的主要模型。基礎模型保持完全凍結狀態,使用IPAdapter+的權重初始化SD1.5 的原始IPAdapter元素。大多數新殘差層用白噪聲(σ = )初始化。最終激活層則被零初始化,以便復制基礎IPAdapter的初始行為。


對于主要模型,使用了512的批次大小和的學習率,共進行了100,000步的訓練。為了控制消融研究的成本,使用了64的批次大小和的學習率,同樣訓練100,000步——從視覺效果來看,結果已經收斂,進一步的訓練不太可能影響消融研究的結論。類似于IPAdapter,發現對于用戶推理而言,IPAdapter的殘差連接影響需要縮減20%-40%,以避免壓過文本的交叉注意力。

實驗與結果

數據集與評估指標

對于每個任務數據集,保留了1,000張圖像作為驗證集,用于定量和定性評估。使用以下指標來評估每個任務的效果:

  • CLIP-I:生成圖像與條件圖像之間的余弦相似度,用于指示從條件圖像傳遞到生成圖像的信息量。
  • CLIP-T:生成圖像與條件圖像原始標題之間的ClipScore,用于指示復制任務的成功程度。
  • CLIP-P:生成圖像與用戶文本提示之間的ClipScore,用于指示在非復制任務中,生成圖像與文本提示的契合程度。
  • CLIP風格評分 (CLIP-S):計算生成圖像的CLIP嵌入減去其文本提示的CLIP嵌入,與條件圖像的CLIP嵌入減去其已知文本提示嵌入之間的余弦相似度,靈感來自于InstantStyle的表現,用于指示風格遷移的成功程度。

與任務特定模型的比較

將本文的模型與專門訓練的任務特定模型進行比較。請參閱下圖6中的不同模型的定性示例,并參考下表1中的定量概述。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

研究者們發現,本文提出的模型在性能上與單任務模型持平或略優,同時將所有任務壓縮到一個模型中。如下圖7所示,該模型的訓練速度與單任務模型相當,但能夠同時處理所有任務。這大大減少了整個任務集的總訓練時間和成本,同時簡化了推理代碼的處理。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

與固定指令集的比較

研究者們對生成隨機提示而不是為每個任務使用單一硬編碼指令提示的選擇進行了消融研究。在后者的情況下,上面表1顯示隨機提示比固定提示更有效——作者認為這是因為當不同任務的各種表述在提示嵌入空間中彼此接近時,模型被迫在一定程度上利用各任務之間的相似性。此外,如下圖8所示,對于給定任務,變化指令的效果僅有微小但明顯的影響,從而允許對輸出進行細微探索。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

主模型的定性結果

最后,本文提供了本文鎖提出的方法在各種設置下的定性結果。下圖9展示了Instruct方案在控制條件解釋方面的靈活性;在所有情況下,都將其與IPAdapter+在相同用例下的表現進行了比較。發現很難將IPAdapter+引導到特定的用例中,而本文的模型通過指令可以輕松地進行控制。主觀上,發現構圖任務的表現最差:雖然模型通常能夠很好地遵循條件的結構,但其表現并不比其他任務更好,并且往往會將風格滲透到生成結果中。這并不完全意外:構圖任務(基于Canny邊緣圖和scribble ControlNet,即像素精確的指導)可以說更適合ControlNet工作流,盡管發現通過IPAdapter變體能夠提取出大量結構信息仍然很有趣。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

最后,類似于IPAdapter,本文保持了與ControlNet和LoRA模型的兼容性,如下圖10所示。本文的模型在生成過程中成功地進行了條件控制,同時ControlNets提供了像素級精確指導。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

結論、局限性與未來工作

本文引入了IPAdapter-Instruct,以澄清在對圖像擴散模型進行輸入圖像條件控制時用戶的意圖:通過引入指定用戶意圖的指令提示,這個聯合模型能夠高效地進行訓練而不會失去性能。它將多個適配器壓縮到一個單一的提示和圖像組合中,同時保留了原始IPAdapter工作流的優點,例如保持基礎擴散模型的完整性,并保持與LoRAs的兼容性。


主要的局限性在于訓練數據集的創建:這是一項耗時且受到源數據可用性限制的工作,但對任務性能有顯著影響。數據集的創建還明顯對條件模型施加了偏見:風格遷移偏向于MidJourney,面部提取在真實照片上效果最佳,而最顯著的是,物體提取從彩色填充中顯著受益。


然而,像素級精確的指導任務不適合壓縮到CLIP空間中。希望最終能夠將這兩種指導(像素級精確和語義)結合到一個單一的條件模型中,使用指令提示來傳達用戶意圖。

IPAdapter+再進化,可同時學習多個任務!Unity開源新思路:圖像條件結合指令提示-AI.x社區

本文轉自 AI生成未來  ,作者:AI生成未來 


原文鏈接:??https://mp.weixin.qq.com/s/zCdrzIMTlWabcEzBblmFiA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产羞羞视频在线观看 | 超碰天天| 日韩精品一区二区不卡 | 成年免费大片黄在线观看岛国 | 亚洲精品综合一区二区 | 精品在线一区二区 | 综合久 | 视频1区| 精品欧美一区二区精品久久久 | 久久51 | 精品免费国产一区二区三区四区介绍 | 亚洲综合免费 | 欧产日产国产精品视频 | 久久久久久久久久久久一区二区 | 亚洲国产成人精品一区二区 | 日韩毛片免费看 | 国产精品一区网站 | 男人天堂手机在线视频 | 精品国产99 | 中文字幕亚洲视频 | 午夜三级网站 | av电影一区二区 | 日韩一区中文字幕 | 黄色av网站在线观看 | 国产免费一区二区三区网站免费 | 国产精品成人一区二区三区 | 欧美大片黄 | 综合久久综合久久 | 波多野结衣中文字幕一区二区三区 | 精品久久香蕉国产线看观看亚洲 | 日韩三级在线 | 亚洲成人一区二区 | 综合久久99 | 曰批视频在线观看 | 日日摸夜夜添夜夜添特色大片 | 影音先锋欧美资源 | 97国产爽爽爽久久久 | 国产综合一区二区 | av黄色在线观看 | 婷婷色成人 | 欧美在线观看一区二区 |