成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!

發(fā)布于 2025-6-9 10:18
瀏覽
0收藏

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2505.19874
項(xiàng)目鏈接:https://stylear.github.io/
代碼鏈接:https://github.com/wuyi2020/StyleAR

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

亮點(diǎn)直擊

  • 提出了一種訓(xùn)練框架,使 AR 模型能夠利用二元文本到圖像數(shù)據(jù)執(zhí)行風(fēng)格對(duì)齊的文本到圖像生成,避免了在指令微調(diào)過程中擴(kuò)展文本-圖像-圖像三元組數(shù)據(jù)的困難。
  • 提出了一種風(fēng)格增強(qiáng) tokens(style-enhanced tokens)技術(shù),有效解決了風(fēng)格對(duì)齊文本到圖像生成任務(wù)中的內(nèi)容泄露問題,并顯著提升了提示詞遵循性和風(fēng)格一致性。
  • StyleAR在提示詞遵循性和風(fēng)格一致性方面均達(dá)到了SOTA性能,超越了現(xiàn)有的基于擴(kuò)散的方法。此外,StyleAR還能有效集成額外條件,如深度圖和其他結(jié)構(gòu)控制信息。

總結(jié)速覽

解決的問題

  • 當(dāng)前多模態(tài)自回歸(AR)模型雖在視覺生成中表現(xiàn)優(yōu)異,但在風(fēng)格對(duì)齊的文本到圖像生成任務(wù)中仍面臨挑戰(zhàn)。
  • 該任務(wù)需要構(gòu)建“文本-圖像-圖像”三元組數(shù)據(jù)(包含提示詞、參考風(fēng)格圖像和目標(biāo)圖像),但大規(guī)模獲取這類具有特定風(fēng)格的三元組數(shù)據(jù)十分困難
  • 現(xiàn)有方法在訓(xùn)練中容易出現(xiàn)內(nèi)容泄露問題,影響生成圖像的風(fēng)格一致性和語義對(duì)齊。

提出的方案

  • 提出一種新方法StyleAR,通過結(jié)合特定的數(shù)據(jù)整理策略自回歸模型,利用二元文本-圖像數(shù)據(jù)(而非三元組)實(shí)現(xiàn)風(fēng)格對(duì)齊的圖像生成。
  • 使用參考風(fēng)格圖像和提示詞合成風(fēng)格化圖像,僅將合成圖像作為圖像模態(tài)參與訓(xùn)練,從而規(guī)避三元組數(shù)據(jù)構(gòu)建的困難
  • 將原始圖像與風(fēng)格化圖像混合使用,增強(qiáng)模型的風(fēng)格理解能力。

應(yīng)用的技術(shù)

  • 數(shù)據(jù)整理方法:利用擴(kuò)散模型生成風(fēng)格化圖像,構(gòu)建高質(zhì)量的二元訓(xùn)練數(shù)據(jù)。
  • CLIP 圖像編碼器 + Perceiver 重采樣器:將圖像輸入轉(zhuǎn)化為風(fēng)格 tokens (style tokens),與文本模態(tài)對(duì)齊。
  • 風(fēng)格增強(qiáng)tokens 技術(shù)(Style-Enhanced Tokens):解決內(nèi)容泄露問題,提升風(fēng)格一致性。
  • 訓(xùn)練框架設(shè)計(jì):使 AR 模型可以在無三元組數(shù)據(jù)的情況下完成風(fēng)格對(duì)齊的文本到圖像生成。

達(dá)到的效果

  • 成功規(guī)避了依賴三元組數(shù)據(jù)的限制,降低了數(shù)據(jù)獲取成本
  • 實(shí)驗(yàn)表明,StyleAR 在提示詞遵循性風(fēng)格一致性方面均超過現(xiàn)有擴(kuò)散方法,達(dá)到了當(dāng)前最先進(jìn)的性能
  • 能夠有效集成額外條件控制信息(如深度圖和結(jié)構(gòu)約束),具備良好的擴(kuò)展性和通用性。
  • 大規(guī)模定量評(píng)估、定性實(shí)驗(yàn)與用戶研究驗(yàn)證了該方法的有效性和先進(jìn)性。

方法

預(yù)備知識(shí)

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

然后,這些圖像 tokens 會(huì)被展平成長度為h x w的序列,并與文本tokens 連接后輸入到基于 Transformer 的自回歸模型中進(jìn)行訓(xùn)練。


在推理階段,給定文本 tokens  ,自回歸模型可以通過下一個(gè)tokens 預(yù)測來生成圖像tokens :

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

最后,生成的圖像tokens t通過圖像解碼器被轉(zhuǎn)換為像素空間。

數(shù)據(jù)整理

本方法的主要貢獻(xiàn)之一集中在數(shù)據(jù)整理部分。如果目標(biāo)是創(chuàng)建用于指令跟隨微調(diào)的三元組數(shù)據(jù),雖然可以使用 InstantStyle來生成此類數(shù)據(jù),但這些數(shù)據(jù)存在風(fēng)格一致性低的問題,并且使得擴(kuò)散模型的能力邊界成為 AR 模型的上限。相比之下,在數(shù)據(jù)生成過程中舍棄了參考風(fēng)格圖像,僅使用提示詞和生成的風(fēng)格化圖像來構(gòu)建二元數(shù)據(jù)。通過這種方式,獲得了高質(zhì)量的風(fēng)格化二元數(shù)據(jù),并避免了低風(fēng)格一致性的問題。


此外,通過實(shí)踐實(shí)驗(yàn)發(fā)現(xiàn),如果僅依賴此風(fēng)格化數(shù)據(jù)集進(jìn)行模型訓(xùn)練,模型在推理階段捕捉圖像特征的能力不盡如人意,這導(dǎo)致生成圖像與參考風(fēng)格圖像之間的風(fēng)格一致性仍然較低。此外,考慮到文本到圖像生成任務(wù)在預(yù)訓(xùn)練階段的模型特性,其訓(xùn)練集大多由未風(fēng)格化的原始圖像組成。如果我們只使用風(fēng)格化數(shù)據(jù)集進(jìn)行訓(xùn)練,領(lǐng)域差異會(huì)給模型訓(xùn)練過程帶來困難。鑒于此,在訓(xùn)練我們的 StyleAR 時(shí),我們同時(shí)使用原始圖像數(shù)據(jù)集和風(fēng)格化圖像數(shù)據(jù)集,并以一定比例作為訓(xùn)練數(shù)據(jù)集。

StyleAR 框架

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

實(shí)驗(yàn)

實(shí)驗(yàn)細(xì)節(jié)

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

評(píng)估指標(biāo)細(xì)節(jié)。 參考已有工作[10; 18; 30; 12],使用 CLIPT指標(biāo)評(píng)估提示詞遵循性,該指標(biāo)是輸入提示詞的 CLIP 文本嵌入與對(duì)應(yīng)生成圖像的 CLIP 圖像嵌入之間的余弦相似度。CLIP-I 和 DINO指標(biāo)用于評(píng)估風(fēng)格一致性,該指標(biāo)是參考風(fēng)格圖像與對(duì)應(yīng)生成圖像的圖像嵌入之間的余弦相似度。為了穩(wěn)健地衡量方法的性能與泛化能力,我們收集了 10 張多樣化的參考風(fēng)格圖像和 20 條多樣化的提示詞,涵蓋人類活動(dòng)、動(dòng)物、建筑、交通工具、樂器和家具等類別。在評(píng)估套件中,我們?yōu)槊糠N風(fēng)格和每條提示詞生成 4 張圖像,共計(jì) 800 張圖像。

對(duì)比實(shí)驗(yàn)

將所提出的基于 AR 的 StyleAR 與現(xiàn)有的基于擴(kuò)散的方法進(jìn)行了全面比較,包括 InstantStyle、IP-Adapter、StyleAligned、StyleCrafter和 StyleShot。除 StyleShot基于 Stable Diffusion 1.5實(shí)現(xiàn)外,其余方法均基于 Stable Diffusion XL 架構(gòu)。所有對(duì)比實(shí)驗(yàn)均使用基線方法的官方開源實(shí)現(xiàn),并嚴(yán)格按照其技術(shù)文檔中的超參數(shù)設(shè)置進(jìn)行。


定性比較。 定性對(duì)比如下圖 4 所示。根據(jù)結(jié)果,InstantStyle展現(xiàn)出優(yōu)越的提示詞遵循性,在輸入提示詞與生成圖像的語義對(duì)齊方面表現(xiàn)突出。然而,其在生成圖像與參考風(fēng)格圖像之間的風(fēng)格一致性較差。IP-Adapter經(jīng)常在提示詞遵循性方面出現(xiàn)失敗,生成圖像偏離輸入提示詞。如下圖 4 第一行所示,給定提示詞 “a train”,模型錯(cuò)誤地生成了一張飛機(jī)圖像。該偽影源于內(nèi)容泄露,即參考風(fēng)格圖像中的語義內(nèi)容(如飛機(jī))通過 IP-Adapter中解耦的交叉注意力層不適當(dāng)?shù)貍鞑サ綀D像生成過程中,覆蓋了輸入提示詞的語義內(nèi)容。

StyleAligned 由于其共享注意力層在內(nèi)容與風(fēng)格特征之間無法穩(wěn)定解耦的固有限制,導(dǎo)致生成結(jié)果不穩(wěn)定且語義混亂。StyleCrafter 和 StyleShot在提示詞遵循性方面表現(xiàn)良好,但在風(fēng)格一致性方面存在明顯不足。相比之下,StyleAR 表現(xiàn)出卓越的提示詞遵循性,并準(zhǔn)確捕捉了參考風(fēng)格的整體與細(xì)節(jié)特征。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

定量比較。 定量比較結(jié)果如下表 1 所示。StyleAR 在提示詞遵循性與風(fēng)格一致性之間實(shí)現(xiàn)了優(yōu)越的平衡。一方面,StyleAR 在提示詞遵循性方面取得了第二高的表現(xiàn),略低于 InstantStyle,而 InstantStyle 的風(fēng)格一致性較差。另一方面,StyleAR 在 CLIP-I 和 DINO 指標(biāo)中排名第二,略低于 IP-Adapter。但 IP-Adapter的提示詞遵循性較差,且存在嚴(yán)重的內(nèi)容泄露問題(如上圖 4 的定性結(jié)果所示),導(dǎo)致其 CLIP-I 和 DINO 指標(biāo)異常升高。相比之下,我們的方法能夠有效提取參考風(fēng)格圖像的風(fēng)格特征,并在不發(fā)生內(nèi)容泄露的前提下生成目標(biāo)圖像。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

用戶研究。 用戶研究結(jié)果如下圖 5 所示。在提示詞遵循性和圖像質(zhì)量方面,本文方法與 InstantStyle 表現(xiàn)相當(dāng),且顯著優(yōu)于其他方法。此外,在風(fēng)格一致性方面,本文方法遠(yuǎn)超所有其他方法。相比之下,InstantStyle方法的風(fēng)格一致性表現(xiàn)較差。可見,我們的方法不僅嚴(yán)格遵循輸入提示詞生成高質(zhì)量圖像,還確保了生成圖像與參考風(fēng)格圖像之間的高度風(fēng)格一致性。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

額外結(jié)果。 在凍結(jié) AR 模型原始參數(shù)的前提下,StyleAR 仍可保留 AR 模型原有的生成能力,如結(jié)構(gòu)控制。與 IP-Adapter和 InstantStyle等基于擴(kuò)散的方法相比,StyleAR 方法在圖像質(zhì)量、條件保真度和風(fēng)格一致性方面表現(xiàn)更優(yōu),如下圖 6 所示。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

消融實(shí)驗(yàn)

本節(jié)消融實(shí)驗(yàn),以檢驗(yàn)訓(xùn)練數(shù)據(jù)集的組成元素和設(shè)計(jì)模塊對(duì) StyleAR 結(jié)果的影響。


訓(xùn)練數(shù)據(jù)集的組成。  精心設(shè)計(jì)了不同組成的訓(xùn)練數(shù)據(jù)集以進(jìn)行消融實(shí)驗(yàn),從而探索訓(xùn)練數(shù)據(jù)集對(duì) StyleAR 的影響。具體來說,所比較的訓(xùn)練數(shù)據(jù)集包括純風(fēng)格化圖像數(shù)據(jù),以及風(fēng)格化圖像數(shù)據(jù)與原始圖像數(shù)據(jù)比例為 1:3、1:6 和 1:30 的組合。定性結(jié)果如下圖 7 所示,定量結(jié)果如下表 2 所示。根據(jù)結(jié)果,當(dāng)訓(xùn)練數(shù)據(jù)集中僅包含風(fēng)格化圖像數(shù)據(jù)時(shí),提示詞遵循性較好,但風(fēng)格一致性較差。相比之下,當(dāng)加入原始圖像,特別是當(dāng)風(fēng)格化圖像與原始圖像的比例為 1:3 時(shí),風(fēng)格一致性顯著提升,同時(shí)提示詞遵循性也保持在良好水平。然而,當(dāng)比例進(jìn)一步增加至 1:6 和 1:30 時(shí),出現(xiàn)了內(nèi)容泄露現(xiàn)象,生成圖像對(duì)參考風(fēng)格圖像產(chǎn)生“過擬合”,生成圖像中還出現(xiàn)了不相關(guān)的語義內(nèi)容,導(dǎo)致其語義不再遵循輸入提示詞。因此,我們得出結(jié)論,在風(fēng)格化任務(wù)中,除了風(fēng)格化圖像數(shù)據(jù)外,適當(dāng)?shù)丶尤胍恍┰紙D像數(shù)據(jù)可以提升風(fēng)格一致性,并不會(huì)降低提示詞遵循性。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

風(fēng)格增強(qiáng) token 的影響。  為了評(píng)估我們提出的風(fēng)格增強(qiáng) token 技術(shù)的有效性,進(jìn)行了定量和定性的消融實(shí)驗(yàn),對(duì)比了使用風(fēng)格增強(qiáng) token 的 StyleAR 與不使用該技術(shù)的 StyleAR。結(jié)果如下圖 8 以及上表 2 的第六列所示。根據(jù)結(jié)果,當(dāng)不使用風(fēng)格增強(qiáng) token 時(shí),參考風(fēng)格圖像中的不相關(guān)語義特征會(huì)出現(xiàn)在生成圖像中,導(dǎo)致生成圖像不符合輸入提示詞的語義控制,出現(xiàn)生成混亂的情況。相比之下,當(dāng)采用風(fēng)格增強(qiáng)機(jī)制時(shí),提示詞遵循性和圖像質(zhì)量均有提升,該機(jī)制使風(fēng)格增強(qiáng) token 能夠輔助模型過濾參考風(fēng)格圖像中的無關(guān)語義信息,確保生成圖像與輸入提示詞高度一致,并顯著提升圖像質(zhì)量。

首個(gè)自回歸文生圖風(fēng)格化!StyleAR突破AI繪圖新高度:單張圖+提示詞,完美復(fù)刻任意風(fēng)格!-AI.x社區(qū)

DPO 的影響。  為了評(píng)估 DPO 后訓(xùn)練在 StyleAR 中的有效性,進(jìn)行了定量消融實(shí)驗(yàn),對(duì)比使用 DPO 后訓(xùn)練的 StyleAR 與不使用該技術(shù)的 StyleAR。定量結(jié)果如上表 2 的第七列所示。DPO 后訓(xùn)練可以提升提示詞遵循性,并略微增強(qiáng) StyleAR 的風(fēng)格一致性。

結(jié)論與局限性

StyleAR,首個(gè)使用圖文二元數(shù)據(jù)驅(qū)動(dòng)多模態(tài)自回歸模型進(jìn)行風(fēng)格對(duì)齊文本到圖像生成的工作,而該任務(wù)此前主要由基于擴(kuò)散的方法主導(dǎo)。相比于以往自回歸模型在指令微調(diào)中使用的三元組數(shù)據(jù),使用圖文二元數(shù)據(jù)進(jìn)行訓(xùn)練,更易于擴(kuò)展訓(xùn)練數(shù)據(jù)集的規(guī)模,從而提升模型性能。此外,消融實(shí)驗(yàn)驗(yàn)證了我們模塊設(shè)計(jì)的有效性,包括風(fēng)格化-原始圖像混合訓(xùn)練策略以及風(fēng)格增強(qiáng) token 技術(shù),它們共同提升了風(fēng)格一致性與提示詞遵循性。然而,當(dāng)前的實(shí)現(xiàn)仍需通過深度圖提取進(jìn)行內(nèi)容控制,而無法直接輸入內(nèi)容圖像以實(shí)現(xiàn)風(fēng)格遷移。未來的研究將聚焦于利用自回歸模型的多模態(tài)輸入能力,實(shí)現(xiàn)風(fēng)格參考圖像與內(nèi)容特定視覺圖像輸入的同時(shí)集成,以進(jìn)一步實(shí)現(xiàn)條件圖像生成。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/4PHerUbf0sjt7olkJPpbmw??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成人依人| 日日干夜夜操 | 羞羞视频免费观看 | 免费国产视频在线观看 | 免费黄色的视频 | 亚洲视频在线看 | 国产免费一二三区 | 成年人黄色小视频 | 国产成人精品999在线观看 | 久久久久国产 | 97人人草| 懂色av蜜桃av | 成人亚洲精品久久久久软件 | 精品一区二区在线观看 | 精品国产乱码久久久久久a丨 | 日本精品久久久久久久 | av影音 | 久久久久久久久久久久亚洲 | 精品国产欧美 | 国产精品一区二区久久 | 少妇一级淫片免费播放 | 99视频在线免费观看 | 久久久精品一区二区三区 | 盗摄精品av一区二区三区 | 亚洲成人一区 | 久久精品视频网站 | 久久精品亚洲一区二区三区浴池 | 超碰8| 国产不卡在线观看 | 久久国产精品视频 | 一级女毛片 | 美女视频一区二区 | www国产成人免费观看视频,深夜成人网 | 91视频进入 | 日韩毛片在线观看 | 日日碰碰 | 99re在线视频免费观看 | 日韩三级一区 | 91精品国产91久久久久久吃药 | 中文字幕成人 | 中文字幕人成乱码在线观看 |