風格遷移重大突破!西湖大學等提出StyleStudio攻克「過擬合」難題 | CVPR 2025
近年來,隨著擴散模型的發展,風格遷移技術在文本引導的圖像生成任務中取得了顯著突破。
然而,盡管現有方法可以實現優秀的風格化效果,但其對文本信息的精準控制仍存在明顯不足,大多數方法在融合風格圖像與文本描述時,往往會讓生成結果過度依賴參考風格圖像,導致對文本內容的響應能力下降。
「風格主導的失衡問題」使得用戶在輸入文本提示時難以精準控制圖像的顏色、結構或其他細節屬性,還可能引入不穩定因素,例如棋盤格效應,進一步限制了其實用性。
為了解決這些問題,西湖大學、復旦大學、南洋理工大學、港科廣的研究人員提出了StyleStudio,一種無需額外訓練即可增強文本控制能力、提升風格選擇靈活性,并改善圖像穩定性的方法。
論文鏈接:https://arxiv.org/abs/2412.08503
項目地址:https://stylestudio-official.github.io/
Github地址:https://github.com/Westlake-AGI-Lab/StyleStudio
Demo地址:https://huggingface.co/spaces/Westlake-AGI-Lab/StyleStudio
研究人員還在Huggingface上提供了在線Demo,點擊即可體驗。
目前,該研究成功中稿CVPR 2025,相關代碼已經開源。
風格遷移的挑戰:如何克服「過擬合」問題
在文本驅動的風格遷移任務中,仍然存在兩個關鍵的挑戰,極大限制了生成結果的靈活性和穩定性。
文本與風格的對齊問題當前的風格遷移方法在處理文本與風格圖像的融合時,常常面臨文本與圖像條件之間的對齊難題。
傳統方法往往會過度依賴參考風格圖像,導致風格特征的遷移失去精確控制,進而使得生成的圖像與文本條件不完全匹配,文本與風格之間的失調不僅削弱了生成圖像的文本響應能力,也使得模型在面對復雜文本提示時缺乏適應性。
棋盤格現象在風格遷移過程中,生成圖像中經常會出現布局不穩定或重復圖案的問題,例如棋盤格效應。
這種現象會顯著影響生成圖像的視覺質量,特別是在大范圍的風格遷移任務中,布局的連貫性和穩定性往往難以保證。這不僅損害了圖像的美學效果,也限制了風格遷移技術在實際應用中的穩定性和可靠性。
StyleStudio的創新解決方案
針對上述問題,研究人員提出了幾項核心創新,旨在提升文本驅動的風格遷移模型的靈活性與穩定性:
跨模態自適應實例正則化技術(Cross-modal AdaIN)
傳統基于適配器(Adapter-Based)的風格遷移方法通過簡單的加權求和方式,將文本與風格圖像的條件信息進行融合,但這種方式會導致風格過擬合,最終圖像的文本對齊能力下降。
為了解決這一問題,研究人員提出了跨模態自適應實例正則化(Cross-modal AdaIN),在經典AdaIN技術的基礎上進行了創新,適用于文本驅動的風格遷移任務。
該方法的核心思想是:先分別提取文本和風格圖像的特征并生成獨立的特征網格,然后借助AdaIN技術,將文本特征與風格特征進行歸一化融合,使得風格圖像的屬性能夠自適應地調節文本特征,從而有效保留風格的整體性,同時確保文本信息的準確傳達,最終生成符合文本要求的風格化圖像。
該技術的優勢在于:解決了傳統加權求和方法中存在的文本與風格信息沖突問題,使得兩者能夠在同一個嵌入空間中和諧共存。
更重要的是,這一方法不依賴額外的訓練過程,即使在不改變現有模型架構的情況下,可以無縫替代傳統的適配器方法,避免了復雜的超參數調節,顯著提升了生成圖像的質量和準確性。
教師模型穩定生成
在圖像生成任務中,布局穩定性對最終的視覺效果至關重要。研究人員發現,在風格遷移的過程中,常見的一個問題是棋盤格效應,即生成的圖像出現不自然的重復圖案,從而影響圖像的整體美感。
為了應對這一挑戰,研究人員提出了一個一種即插即用(plug and play)的方法,利用風格遷移方法中對應的Stable Diffusion模型作為教師模型,在生成過程中提供布局指導。
具體來說,這種方法通過教師模型來引導風格化圖像生成的過程:在每一個去噪步驟中,用教師模型生成的注意力圖替代原本風格化圖像的注意力圖,從而確保圖像的空間結構特征穩定并且可以實現跨風格圖一致。
在實驗中,可以觀察到兩個重要現象:
首先,相較于替換交叉注意力圖,用自注意力圖進行替換能夠更好地穩定圖像布局,并且保證了在跨風格圖像生成過程中布局的一致性;
其次,自注意力圖的替換只需要在去噪的初期進行,若教師模型的影響延續過長,則可能會導致風格特征的喪失。
基于風格圖像的無分類器生成引導(Style-CFG)
在風格遷移中,當參考風格圖像融合了多種不同的風格元素(如卡通風格與樹葉紋理或夜景元素的結合)時,往往會出現風格模糊的問題。
這種情況下,現有的方法往往難以有效區分和控制不同風格元素,導致生成的圖像中風格混雜,無法精確突出所需的特定風格特征。
為了應對這一挑戰,研究人員借鑒了擴散模型中常用的無分類器引導(CFG)技術,提出了基于風格的無分類器引導(Style-Based Classifier-Free Guidance, SCFG)。該方法通過對多種風格元素進行選擇性控制,允許用戶明確指定需要強調的風格特征,并有效過濾掉不相關或沖突的元素,從而實現更精確的風格遷移。
舉例來說,若參考圖像中包含卡通風格與落葉的元素,Style-CFG可以確保最終生成的圖像僅保留卡通風格,同時去除落葉部分,避免風格元素的沖突和模糊,提供了一種靈活且可控的風格遷移機制,使得圖像生成過程中的風格調整更加精準、符合用戶需求。
實驗結果
實驗結果表明,StyleStudio模型能夠在多個方面超越現有的風格遷移技術:在文本對齊方面,StyleStudio能夠精確捕捉文本中指定的風格屬性,如顏色信息,確保生成圖像忠實于文本提示。在圖像穩定性方面,模型有效避免了內容泄漏和布局不穩定等問題。
針對復雜的文本條件,StyleStudio同樣展現出了強大的處理能力,能夠在細致的文本描述下實現精確的風格和內容融合。
StyleStudio中提出的基于風格圖像的無分類器生成引導(Style-Based Classifier-Free Guidance,SCFG)也經過了充分的實驗驗證,通過一系列實驗評估了該方法的有效性,并展示了相對于傳統的無分類器指導方法的顯著優勢。
定量實驗與用戶調研實驗表明,StyleStudio在多項指標上超越了傳統方法,展現了其強大的通用性和穩健性。
結論與展望
StyleStudio的提出代表了文本驅動風格遷移技術的一次重要進步,尤其在文本控制能力、風格選擇性遷移和圖像生成穩定性等方面取得了顯著的技術突破。該方法不僅在學術領域具有重要價值,也為數字藝術創作、廣告設計等行業提供了強大的技術支持。
更為重要的是,StyleStudio能夠在無需額外訓練的條件下直接應用,極大地降低了使用門檻,并已在多個風格遷移任務中取得優異成績。