成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成

發布于 2024-9-6 10:29
瀏覽
0收藏

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

文章鏈接:https://arxiv.org/pdf/2409.02543
代碼&數據集鏈接:https://github.com/alipay/style-tokenizer

亮點直擊

  • 介紹了一種名為StyleTokenizer的新方法,用于在擴散模型中進行風格控制。這種方法允許通過一個任意參考圖像實現對生成圖像風格的精確控制,無需訓練,同時最小化對文本提示控制效果的影響。實驗結果顯示,方法在風格控制領域相比其他最先進的方法表現出色。
  • 整理了一個名為Style30k的數據集,包含超過300種廣泛分布的風格類別,由專業設計師手動收集。該數據集總共包括30,000張圖像,這是目前最大、最具多樣性的開源風格數據集。利用該數據集,訓練了一個強大的風格編碼器,能夠基于單一參考圖像有效地表示風格信息。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

總結速覽

解決的問題:

  1. 風格控制的難題:在文本生成圖像的過程中,現有方法難以同時有效控制圖像風格和保持文本提示的語義信息。
  2. 條件干擾:許多基于適配器的方法在去噪過程中施加圖像表示條件,這些條件與文本控制條件之間會產生干擾,導致風格控制和文本控制的效果不理想。
  3. 風格表示獲取困難:從單一參考圖像中準確提取和表達風格,尤其是在保持文本提示語義完整性的同時,是一個具有挑戰性的問題。

提出的方案:

  1. StyleTokenizer方法:是一種零樣本風格控制的圖像生成方法,能夠在不影響文本表示效果的情況下,實現精確的風格控制。
  2. 風格與文本對齊:通過使用StyleTokenizer將風格表示與文本表示對齊,避免風格控制與文本控制條件之間的干擾。
  3. Style30k數據集:創建了一個名為Style30k的大規模風格數據集,用于訓練模型更好地提取和表示風格特征。
  4. 風格特征提取器:設計并訓練了一個風格特征提取器,能夠準確捕捉和表達參考圖像的風格特征,同時排除其他內容信息。

應用的技術:

  1. StyleTokenizer:將風格表示與文本表示對齊,避免風格和文本控制條件之間的干擾。
  2. 風格特征提取器:通過對Style30k數據集進行訓練,準確表示風格細節,同時避免與內容信息的混淆。
  3. 對比學習:增強風格特征提取器的魯棒性,使其能夠更好地適應和處理新的風格。

達到的效果:

  1. StyleTokenizer方法能夠充分捕捉參考圖像的風格特征。
  2. 能夠生成與目標圖像風格和文本提示一致的圖像。
  3. 與現有方法相比,StyleTokenizer實現了高效、準確的風格控制。
  4. 在保持文本提示語義完整性的同時,生成了令人滿意的圖像。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

方法

這項研究提出了一種基于Stable Diffusion框架的創新方法,用于在圖像生成中解耦內容和風格條件,從而創造出視覺上更加吸引人的圖像。該方法主要引入了兩個關鍵模塊:


  1. 風格編碼器(Style Encoder):此模塊負責從圖像中提取風格信息。通過在一個名為Style30K的風格數據集上進行訓練,風格編碼器能夠準確捕捉圖像的風格特征,為后續的風格控制提供基礎。
  2. 風格標記器(Style Tokenizer):該模塊將從風格編碼器中提取的風格表示轉換為風格token,并與文本token在詞嵌入空間中對齊。風格標記器的訓練過程確保了風格標記與文本token的兼容性,使得風格和內容能夠有效結合。


在生成圖像的最后階段,這些風格token和文本token被連接在一起,并作為條件輸入到穩定擴散模型中,從而生成最終的圖像。這種方法通過精確控制圖像的風格和內容,為圖像生成提供了新的可能性。

StyleTokenizer方法總體流程

兩個階段。在第一階段,風格編碼器在風格數據集上進行訓練,以獲得風格表示能力。采用對比學習來強化它,以關注不同風格之間的距離差異,從而更好地表現風格。


在第二階段,風格編碼器從單個圖像中提取風格嵌入,然后風格標記器將其轉換為風格標記,這些token與單詞嵌入空間中的文本token對齊。最后,這些token被輸入到SD pipeline中,作為生成圖像的條件。

StyleTokenizer整體如下圖:

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

Style30K數據集

描述圖像風格對于藝術家來說已經相當具有挑戰性,而對普通人來說更是難上加難。圖像風格涉及的內容非常復雜,包括色彩分布、光照、線條風格、藝術風格、筆觸和情感等。這些特征雖然可以通過視覺感知,但用語言準確全面地表達卻非常困難。因此,直接從圖像中提取風格特征比單純依賴文字描述要更為有效。


為了應對這一問題,研究人員開發了一個名為Style30K的風格數據集,并設計了一個專門用于捕捉風格特征的風格編碼器(Style Encoder),如下圖4所示。與現有的通用特征提取方法不同,Style30K旨在專門訓練風格相關的特征提取能力。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

該數據集的構建過程分為三個主要階段。首先,研究人員收集了大量具有不同風格的圖像,并用三張示例圖像來代表每種風格。接著,使用不同的嵌入提取器從這些示例圖像中提取特征,并在大規模數據集中進行檢索。第二階段中,研究人員手動篩選檢索結果,確保收集到的圖像與示例圖像風格一致,并且每張圖像都經過三位標注員的一致確認。最后,在第三階段中,使用CogVLM為每張圖像添加了內容描述。描述內容僅關注圖像的實際內容,而不涉及風格,從而保證了風格和內容控制信號的獨立性。

風格編碼器

在這一部分,研究人員詳細描述了如何訓練風格編碼器(Style Encoder,Es),該編碼器的主要任務是從圖像中提取風格線索,并將這些線索編碼成風格嵌入(fs),以指導生成過程。


從單一參考圖像中獲取準確的風格表示并非易事。傳統的方法通常依賴于CLIP圖像編碼器來提取圖像表示,從而實現內容和風格的控制。盡管這種方法在對顏色、主體、布局等視覺方面的控制上表現不錯,但它并未能獨立控制這些方面,尤其是在風格控制方面,因為CLIP主要依賴粗粒度的語義信息進行訓練。


為了克服這一限制,研究人員引入了一個經過標注的風格數據集——Style30K,用于訓練一個專注于準確風格表示的編碼器。這個風格編碼器通過監督學習的方式進行訓練,確保它僅關注與風格相關的信息,而忽略與內容無關的細節。通過這種方式,風格編碼器能夠專注于不同風格之間的細微差別。此外,為了進一步提高編碼器的泛化能力,研究人員采用了對比損失的監督策略。這種方法幫助模型在嵌入空間中將相同風格的圖像聚集在一起,而將不同風格的圖像分散開來,從而增強了風格編碼器處理新風格的魯棒性。

風格控制

以往基于適配器的方法在擴散模型中引入了圖像提示功能,這種做法顯著提升了生成那些難以用提示語言描述的內容的能力。這些方法通過在Unet模塊中添加額外的交叉注意力層,將風格表示融入生成過程中。然而,這種方法在去噪過程中同時應用文本和風格條件,可能導致控制信號之間的干擾,從而喪失部分語義信息。


相較而言,Stable Diffusion(SD)模型的詞嵌入空間提供了豐富的風格控制能力。

Dreambooth 和 Textual Inversion 已經展示了,通過現有詞典之外的詞嵌入可以表達各種內容。不過,這些方法需要額外的參考圖像進行調優,并且容易在特定內容上出現過擬合。此外,盡管精心編寫的文本提示可以影響圖像風格,直接利用文本描述來控制風格依然具有挑戰性。SD 在訓練期間使用的文本描述通常缺乏對圖像風格的詳細說明,同時,圖像風格涉及多方面特征,難以通過自然語言全面表達。


為了解決這些問題,研究人員提出了一種新的方法,旨在為每張圖像提供全面且準確的風格描述,并能夠應用于擴散流程。他們的風格編碼器(Style Encoder)可以從圖像中提取獨特的風格嵌入。接著,研究人員利用一個名為StyleTokenizer的兩層多層感知器(MLP)將這些風格嵌入映射到詞嵌入空間中的風格標記。StyleTokenizer 的參數在訓練過程中會更新,而SD模型的參數則保持凍結。這樣,映射后的風格嵌入能夠提供圖像風格的全面和精準的表示。最終,風格嵌入和文本嵌入被結合,并輸入到SD的文本編碼器中,這樣風格圖像就可以作為風格提示來生成圖像,從而更好地描述所需風格。同時,風格和內容在各自獨立的語義空間中處理,避免了風格和內容之間的重疊。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區


ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

實驗

實驗細節

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

質量評價

為了評估他們的方法在風格控制和提示跟隨方面的表現,研究團隊將其方法與其他先進的方法進行了比較,包括StyTr2、InST、CAST、SD(使用風格提示控制)和IP-Adapter。為此,他們準備了一個基準測試,包括52個提示和28個風格參考圖像,這些提示來源于StyleAdapter使用的設置。這些提示涵蓋了各種內容,如人類、動物、物體和場景,而參考圖像則包括一些常見風格和一些難以用語言描述的風格。這些參考圖像和提示都沒有排除在訓練過程之外。下圖5展示了不同方法生成的圖像,每列展示了使用相同提示和參考圖像生成的結果。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

從結果中可以看出,StyTr2和InST在捕捉參考圖像的主要色調方面表現良好,但在整體風格(如紋理)的把握上有所欠缺。例如,它們能夠捕捉到參考圖像中的紅色,但未能準確呈現剪紙風格。此外,這些方法生成的圖像質量通常低于其他方法。雖然風格提示控制在簡單風格類別(如油畫和水墨畫)中能實現一定的風格控制,但缺乏參考圖像會導致細節上的顯著差異。對于那些難以用語言描述的復雜風格,它們的風格控制能力顯著下降。IP-Adapter能夠生成接近原始風格的圖像,但在內容與參考圖像分離方面存在困難,導致提示跟隨能力不足。例如,在生成的圖像中,盡管包含了山脈和向日葵,但參考圖像中的人類也出現在了結果中。IP-Adapter的主要優勢在于圖像變換和編輯。然而,相比之下,研究團隊的方法在風格一致性方面表現優異,包括線條、紋理、顏色和情感等方面,并且在跟隨文本提示方面具有強大的能力。總體來看,該方法生成的圖像在美學質量上優于其他方法。

定量評估

使用以下指標來評估生成圖像的質量和效果:

  • 文本-圖像相似性:我們使用CLIP模型從生成的圖像及其相應的文本提示中提取嵌入。然后計算提示和生成圖像之間的余弦相似性。較高的余弦相似性表示更好的指令跟隨能力。
  • 美學評分:為了評估生成圖像的美學質量,我們使用LAION-Aesthetics Predictor 預測每個生成圖像的美學評分。此指標衡量圖像的視覺吸引力和藝術質量。較高的美學評分表示圖像更具視覺吸引力。
  • 風格相似性:由于沒有普遍接受的風格相似性評估方法,我們模仿了由CLIP計算的文本-圖像相似性指標。通過風格編碼器提取風格參考圖像和生成圖像的風格嵌入。然后計算它們的余弦相似性。較高的余弦相似性表示生成圖像中對所需風格的控制更好。
  • 用戶研究:為了更全面地評估風格相似性,進行了用戶研究。對于每種方法生成的圖像,我們讓20名用戶(10名專業設計師和10名普通用戶)匿名投票選擇他們認為風格最接近參考圖像的圖像。歸一化的投票數(投票率)作為風格相似性評分。


對于這些指標中的每一個,計算所有生成結果的平均值,以提供對現有風格控制模型性能的總體評估。實驗結果總結在下表1中,使用上述評估指標將本文方法與最新的方法進行比較。辦法在風格相似性方面顯著優于其他最新的方法。在用戶研究中,方法也獲得了比其他方法更多的投票。這些結果突出顯示了方法在生成圖像中保持期望風格的效果。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

此外,本文方法在大規模高美學數據上進行訓練,因此比基礎SD模型獲得了更高的美學評分。如前面圖5所示,它在美學方面的結果優于其他方法。至于指令跟隨,本文方法在文本-圖像相似性方面的表現與基礎SD模型相當。這表明方法在風格控制過程中沒有降低指令跟隨能力。總之,實驗結果表明,本文方法能夠實現更好的風格控制能力和生成視覺上更具吸引力的圖像,同時風格控制不會影響指令跟隨能力。

風格編碼器評估

對風格編碼器進行了評估,并與幾個公開的特征編碼器進行比較,即CLIP、VGG 和 BlendGAN 。評估在Style30K的驗證集上進行,該驗證集包含12種不同的風格類別,總共900張圖像,這些圖像與訓練風格類別不重復。


研究者們使用了多種方法來提取驗證集中每張圖像的風格嵌入,并將這些嵌入的分布在表示空間中進行了可視化。下圖6展示了不同類別的風格嵌入以不同顏色的點表示,這些點在空間中形成了各自的簇。結果表明,他們的風格編碼器能夠有效地將相同風格類別的圖像聚集在一起,顯示出較小的類內距離和較大的類間差異。這表明該方法在捕捉和展示圖像風格方面表現出色,并且能夠處理新穎的風格變化。進一步的定量評估通過Silhouette Coefficient和Calinski-Harabasz指標確認了這一點。無論是從視覺效果還是從聚類指標來看,該方法在提取風格特征并進行風格聚類方面都優于其他方法。


ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

消融研究

通過消融研究以評估風格編碼器和Style Tokenizer的有效性,如下圖7和表3所示。圖7(b)表示風格嵌入沒有首先通過Style Tokenizer對齊到詞嵌入空間,而是直接與文本嵌入連接。圖7(c)表示沒有使用風格編碼器進行風格表示,而是直接使用CLIP視覺編碼器對圖像進行編碼。實驗結果表明,如果缺少其中任何一個,生成的圖像要么指令跟隨能力減弱,要么風格一致性較差。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

其他應用

由于本文方法能夠保持參考圖像中的風格,如果使用多張不同風格的圖像作為參考,則風格融合會產生新的風格。在圖8中展示了使用兩種風格進行風格混合的效果。通過以調色板風格作為控制開始,并逐漸融入素描風格,生成的圖像顯示出從調色板風格到素描風格的漸進過渡。

ECCV`24 | 螞蟻集團開源風格控制新SOTA!StyleTokenizer:零樣本精確控制圖像生成-AI.x社區

總結和展望

這是一種創新的zero-shot方法,旨在精確控制生成圖像的風格。該方法通過將風格和內容條件分離,實現了對生成圖像風格的精準控制。首先,團隊構建了一個精細標注的風格數據集——Style30K,并開發了一個風格編碼器,用于從參考圖像中提取風格特征。隨后,引入了StyleTokenizer,將風格token和文本token對齊到一個統一的表示空間中。最終,這些對齊后的token被用作擴散模型去噪過程中的條件輸入。該方法為圖像生成中的風格控制提供了一種靈活而有效的解決方案,開辟了生成高質量風格化內容的新途徑。


本文轉自 AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/bLjPzO3C2bmSzGZzVoZxSw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品久久久久久久久久久久午夜片 | 精品国产精品三级精品av网址 | 欧美精品一区二区在线观看 | 国产精品美女视频 | 精品国产乱码久久久久久图片 | 久色激情 | 狠狠做深爱婷婷综合一区 | 一区二区三区免费观看 | 天天拍天天操 | av官网在线 | 天天操天天拍 | 天天操天天插天天干 | 亚洲免费在线视频 | 亚洲一区国产精品 | 欧美成人在线影院 | 久久久91精品国产一区二区三区 | 日韩电影在线一区 | 国产免费人成xvideos视频 | 国产视频中文字幕 | www.久久.com | 成人在线亚洲 | 国产激情一区二区三区 | 欧美在线观看一区 | 久久爱一区 | 精品欧美 | 久久se精品一区精品二区 | 国产美女特级嫩嫩嫩bbb片 | 一级黄色在线 | 久久精品亚洲一区二区三区浴池 | 日韩视频成人 | 国产激情视频网 | 国产色 | 亚洲精品一区二区三区中文字幕 | 国产一区二区在线视频 | 亚洲午夜久久久 | 成人二区三区 | 亚洲狠狠爱一区二区三区 | 91看片免费 | 99精品免费久久久久久久久日本 | 亚洲欧美在线视频 | 中文字幕一区二区三区四区五区 |