成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2

發布于 2024-7-4 10:05
瀏覽
0收藏

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

文章鏈接:https://arxiv.org/pdf/2407.02252
github鏈接(待開源):https://github.com/OPPO-Mente-Lab/GlyphDraw2


海報在營銷和廣告中起著至關重要的作用,通過增強視覺傳播和品牌知名度,對工業設計有著顯著貢獻。隨著可控文本到圖像擴散模型的最新進展,更簡潔的研究現在集中在合成圖像中的文本渲染上。盡管文本渲染的準確性有所提高,端到端的海報生成領域仍然探索不足。這項復雜的任務涉及在文本渲染準確性和自動布局之間取得平衡,以生成具有可變縱橫比的高分辨率圖像。


為了解決這一挑戰,本文提出了一種采用三重交叉注意力機制的端到端文本渲染框架,該機制根植于對齊學習,旨在在詳細的上下文背景中創建精確的海報文本。此外,引入了一個分辨率超過1024像素的高分辨率數據集。本文的方法利用了SDXL架構。大量實驗驗證了該方法生成具有復雜和上下文豐富背景的海報圖像的能力。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

本文貢獻如下:

  • 通過微調大語言模型(LLMs)用于布局規劃,提出了一種端到端的海報生成解決方案。基于對齊學習和三重交叉注意力的字形生成框架可以在保持海報視覺豐富背景的同時,將文本準確地放置在適當的位置。
  • 引入了一個更高分辨率的數據集,包括中英文字形的圖文對,以及高質量的海報數據。
  • 定量和定性實驗結果都表明,本文提出的架構在生成海報方面表現出色。

方法

模型概述

整個框架分為四部分,如下圖3所示。第一個部分是融合文本編碼器(Fusion Text Encoder, FTE)與字形embedding,其工作方式相對傳統。其主要目標是從SD的文本編碼器的角度整合兩種模態的特征,從而確保生成圖像中兩種模態的緊密結合。本文的框架中的第二個也是更為關鍵的部分是引入三重交叉注意力(Triples of Cross-Attention, TCA)。這個階段,在SD解碼器部分引入了兩個不同的交叉注意力層。第一個新的交叉注意力層促進了字形特征與圖像中的隱藏變量之間的交互。這是基于早期的工作如IP-Adapter,增強了字形渲染的準確性。同時,第二個新的交叉注意力層則使ControlNet特征與圖像中的隱藏變量之間進行交互。通過與ControlNet信息交互,該層自適應地學習內在數據,例如字形的合適布局。在第三部分中,添加了輔助對齊損失(Auxiliary Alignment Loss, AAL)的學習,以增強整體布局并豐富海報的背景信息。最后,在推理階段,采用了微調LLM策略,自動分析用戶描述并生成相應的字形和條件框架的坐標位置。這旨在滿足端到端的海報生成需求。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

融合文本編碼器

該方法借鑒了早期工作的思想,如Blip-Diffusion、Subject-Diffusion、AnyText,并且通常被用作一種全局條件控制策略。首先,將輸入的字形條件渲染為字形圖像,然后傳輸到PP-OCR以提取相應的字形特征。按照與AnyText相同的邏輯,字形特征在與相應位置的標題融合時,將通過線性層進行特征對齊,這確保了即插即用的功能模塊化,而無需對文本編碼器進行微調。

三重交叉注意力

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區


結合每個塊現有的交叉注意力層,最終TCA輸出是三層的總和如下:

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

輔助對齊損失

考慮到本文海報生成的應用背景,除了字形生成的準確性和背景的和諧性,還需要關注圖像背景本身的豐富性。本文方法不可避免地引入了額外的條件注入,包括ControlNet特征的添加以及TCA策略,這導致了解碼器組件數量的增加。這些條件的根本目的是確保生成圖像的可控性。然而,許多文章表明,可控性通常伴隨著可編輯性或文本一致性的犧牲。因此,在方法中引入了輔助對齊損失(AAL)。對齊模型采用SDXL作為其骨干,類似于ControlNet使用復制的SD編碼器。然而,在本文的方法中復制了SD解碼器,并在復制解碼器的每個塊的交叉注意力輸出與TCA原始交叉注意力層的輸出之間應用AAL。這一方法的主要目標是最小化為學習字形而添加的模塊對整體布局和圖像質量的影響。因此,語義一致性AAL損失L'可以公式化如下:

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

使用微調的大語言模型進行推理

為了確保端到端的海報生成,亟需解決的最后一個問題是消除人工干預,即預定義圖像布局的過程。完全依賴用戶的標題描述,并引入大語言模型(LLM)來解決這個問題。此外,為了方便調用,構建了自己的指令數據,并對開源語言模型進行了微調。

實驗

實現細節

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區


第二個組件是一個基于大語言模型(LLM)的布局生成模型。專門為此任務使用了Baichuan2,訓練數據集只包含海報數據。由于任務涉及預測兩個位置坐標,這對語言模型構成了重大挑戰。為提高預測準確性,對坐標點進行了歸一化,并僅專注于使用左上角和右下角點。此外,為了保持端到端生成過程的穩定性,在遇到LLM不準確的預測時,采用了一種基于規則的隨機布局生成方法。這包括將隨機策略整合到布局生成過程中。這些隨機策略的實施比例約為5%,以在生成的布局中達到穩定性和多樣性之間的平衡。布局生成的LLM模型在64個A100 GPU上訓練了3萬步,每個GPU的批量大小為10。

評估

評估集可以分為兩部分,用于評估模型的性能。


第一部分是AnyText-Benchmark,其中包含來自LAION和Wukong的一千幅英文圖像和中文圖像。然而,發現AnyText-Benchmark中用于測試中文生成能力的1000幅圖像與英文數據混合,因此移除了這部分數據,留下了915幅作為評估的基準。遵循AnyText的方法,從兩個方面評估文本渲染質量:

  • 位置詞精度(PWAcc)計算特定位置生成的單詞的準確性。只有當預測的文本與基準完全匹配時才被認為是正確的。
  • 標準化編輯距離(NED)是衡量兩個字符串之間相似性的指標。它通常用于文本比較。該方法通常涉及首先使用動態規劃算法計算兩個字符串之間的Levenshtein距離,然后將其除以字符串的最大長度進行歸一化。


值得注意的是,在AnyText-Benchmark中,大多數英文評估集每個bbox只包含一個英文單詞,導致在評估英文句子時缺乏精度。因此,有必要構建更復雜的評估集。


評估集的第二部分包括兩個子集:Complex-Benchmark和Poster-Benchmark。構建的子集共形成了四個評估子集,包括雙語中英文評估。Complex-Benchmark包括100個提示。在中文提示中,待渲染的字符是隨機組合和排列的,而英文提示則包含具有連續重復字母的較長單詞。該評估集的主要目標是評估文本渲染的準確性。此外,Poster Evaluation Set包括描述海報生成的120個提示。其目的是評估端到端海報生成的布局準確性、魯棒性和整體美學質量。對于這些評估集,采用了三個評估指標來評估海報生成的準確性和質量:

  • 準確率(Acc)計算與需要渲染的總字符數相比,生成文本中正確生成字符的比例。
  • ClipScore衡量生成的圖像與提供的文本提示或描述的對齊程度。
  • HPSv2評估生成的圖像是否符合人類偏好,并作為評估圖像質量偏好的指標。

比較中,評估了各種方法,不僅包括AnyText,還包括使用了ControlNet和StableDiffusion3(SD3)的方法。由于SD3不支持中文文本的渲染,在后續分析中省略了對中文指標的計算。此外,由于NED計算通常依賴于基于文本bbox位置的anchor,也排除了SD3的NED計算。

實驗結果

接下來對本文呢的方法與文本渲染和海報生成領域最先進方法的全面定量和定性結果的分析比較。


AnyText-Benchmark的比較結果。使用AnyText-Benchmark來評估模型在獨立渲染中文和英文文本方面的熟練程度。為了專門評估模型的中文文本生成能力,從中文評估集中排除了所有英文文本,包括只包含單個英文文本的樣本。這導致剩余915個樣本用于實驗評估。英文評估集保持不變。此外,采用的評估指標與AnyText中使用的指標相一致,包括詞精度和NED。


為了確保公平評估,所有方法均使用了DDIM采樣器,采樣步長為50,CFG比例為9,并固定隨機種子為100。每個提示生成一張圖像,具有相同的正負線索。

定量比較結果如下表1所示。從結果可以明顯看出,本文的模型在渲染中文和英文文本方面的準確性顯著高于AnyText。然而,在ClipScore指標上略低于GlyphDraw2。這里的Acc指標是基于前面提到的PWAcc規則計算的。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

Complex-Benchmark的比較結果。為了全面評估模型的文本渲染能力,設計了一個更復雜的評估集。具體來說,對于中文語言,從2000個常用漢字中隨機組合字符作為待渲染的文本,生成了一組100個提示。行數和每行字符數也是隨機確定的,確保了生成具有完整隨機感的提示。設計的100個提示包括了一些具有復雜筆畫和結構的漢字,例如“薯(potato)”,“寨(stockade)”,“聚(gather)”。雖然評估樣本數量有限,但它們涵蓋了各種常見的漢字,包括一些在訓練數據集中很少出現的復雜結構字符。因此,這些提示提供了一個全面評估模型中文字符生成能力的穩健手段。對于英文文本,選擇了具有連續重復字母和一些較長單詞來進行渲染。這些單詞容易出錯,因此它們是評估英文單詞渲染能力的有力指標。與AnyText-Benchmark不同的是,提供了可以渲染短語和句子而不僅僅是單詞的bbox。這種方法不可避免地增加了渲染的難度。


在評估指標方面,選擇了準確率來衡量生成文本的精度,ClipScore來評估圖像與文本提示之間的對齊情況,以及HPSv2來捕捉人類對生成圖像的偏好。除了評估文本渲染能力外,驗證端到端生成的整體性能也至關重要。為了進行更全面的比較分析,本文的研究實驗重點放在兩個關鍵方面:隨機生成的bbox和LLM預測的bbox的利用。這種方法允許更深入地評估和比較端到端文本生成功能。


在上面表格1中進行的實驗中,所有方法在圖像生成過程中都使用了預定義的規則和隨機初始化的文本提示坐標。根據定量比較結果顯示,本文的模型在文本生成準確性方面優于AnyText。除了在隨機分配bbox坐標時稍低的中文ClipScore和HPSv2之外,該方法在所有其他指標上都優于AnyText。在復雜的英文句子級評估集中,AnyText的文本渲染準確性相當低。雖然GlyphDraw2的準確性也不高,但它明顯超過了AnyText。


實驗的第二部分涉及使用經過微調的LLM生成文本bbox的位置,然后根據這些bbox位置生成圖像文本。根據上面表格1中的結果,LLM預測的bbox坐標導致文本渲染準確性降低,因為隨機規則生成的bbox坐標傾向于包含更大的區域,與LLM預測的情況相比,性能更高。然而,與AnyText相比,該模型仍然表現出相對較高的準確性。


Poster-Benchmark的比較結果。為了評估本文海報生成模型的端到端能力,專門設計了一個用于海報評估的專用數據集,包括各種海報生成提示形式。這個全面的數據集包含了120個描述英文和中文海報的提示,能夠生成包括橫向、縱向和方形格式在內的各種分辨率的圖像。在圖像生成過程中,本文的模型利用LLM預測文本描述框的位置,實現了無需用戶指定文本放置即可實現無縫端到端的海報生成。與AnyText-Benchmark不同,后者只允許在文本提示中輸入英文單詞,該模型可以容納完整的英文句子,從而方便呈現所需的文本。


海報生成的定量結果如前面表1所示,同樣,結果顯示本文的模型在端到端海報生成場景中文本渲染方面達到了最高的準確性。然而,這里的ClipScore稍低。

LLM布局預測實驗。首先,根據難度級別構建了四個任務。

  • 輸入:描述包含待渲染字形的圖像及圖像大小的標題;輸出:待渲染字形和相應文本框的四個坐標點,多個相似元組對應多個位置。
  • 輸入:描述包含待渲染字形的圖像的標題;輸出:待渲染字形和相應文本框的四個標準化坐標點,多個相似元組對應多個位置。
  • 輸入:描述包含待渲染字形和圖像大小的標題;輸出:待渲染字形和相應文本框的兩個坐標點(左上角和右下角),多個相似元組對應多個位置。
  • 輸入:描述包含待渲染字形的圖像的標題;輸出:待渲染字形和相應文本框的兩個標準化坐標點(左上角和右下角),多個相似元組對應多個位置。

第一和第二個任務需要預測四個位置坐標,這是最具挑戰性但也是最符合需求的。標準化降低了任務的難度,但在一定程度上犧牲了多樣性,因為它減少了解決范圍。最后兩個任務降低了微調的難度,但同樣犧牲了預測坐標的多樣性,使得文本框坐標限制為矩形。

隨機測試了1000個提示,以預測格式的正確性為基礎計算準確率。盡管正確預測的格式不一定意味著真實渲染位置是正確的,但這種錯誤相對較小。

在比較中,選擇了三個模型,分別是Qwen1.5、Baichuan2和Llama2。其中,對Qwen1.5嘗試了三種模型大小,而其他兩個模型各測試了兩種模型大小。實驗結果如下圖5所示,模型名稱中的數字后綴代表任務模式ID。實驗首先發現,模型參數體積越大,微調效果越好。輸出標準化的結果具有更高的準確率。最終,選擇了Baichuan2-13B模型,采用第三個任務模式。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

下圖4展示了在自定義的評估集上對LLM進行微調后的結果。主要優勢體現在三個方面。首先,在海報標題方面,模型傾向于預測一個相對較大面積的文本框。其次,相鄰文本框中內容的連貫性提供了語境意義,使模型能夠學習渲染字形所需的語義信息。最后,文本框的大小傾向于與其包含的字符或單詞數量成比例。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

消融實驗

由于進行了大量的消融實驗并希望降低訓練成本,統一將每個實驗的第一訓練階段設置為20,000步,第二階段設置為10,000步,并在中文評估數據集上進行。消融研究涉及四個主要方面的考察,即: 1)TCA及其特定模塊的影響;
2)AAL的影響;
3)文本編碼器融合的影響;
4)ControlNet條件輸入的影響。


TCA的有效性。TCA添加了兩個CA層,分別對每個添加的CA層進行了消融研究。其中,CAG代表消除CA交互的消融,其中包括作為K、V的字形特征。如下表2所示,移除這一層會導致準確性略微下降,但ClipScore和偏好分數有所提升。這表明,雖然CAG提高了文本渲染的準確性,但犧牲了一定的文本語義對齊能力。

海報生成如此簡單!OPPO聯合港中文發布基于LLM的端到端方案GlyphDraw2-AI.x社區

CAC代表消除自適應CA交互過程,該過程從ControlNet編碼器中提取特征。在這里,兩個指標都會略微下降,表明自適應特征交互確實可以增強文本渲染的準確性和文本語義對齊能力,同時也增強了偏好分數。


TCA的消融是整個TCA塊的消融。類似于CAC,準確性和偏好分數都會下降,進一步說明TCA模塊對文本渲染準確性和圖像偏好分數具有積極影響。


AAL的有效性。如上表2所示,這種策略確實在一定程度上增強了語義對齊能力和圖像質量,但也犧牲了一些文本渲染的準確性。然而,總體影響仍然是正面的。


FTE的有效性。FTE的主要目的是確保字體與背景的協調一致。上表2中可以觀察到,所有指標都受到了一定影響。FTE整合了字體特征信息,增強了文本渲染的準確性。然而,圖像模態的融合可能會削弱文本語義的對齊,導致ClipScore略微下降。最后,圖像兼容性的增強對偏好分數具有積極影響。


ControlNet條件輸入的有效性。ControlNet的條件輸入(CC)主要影響字形的準確性,減少了對圖像描述性標題對文本渲染的影響,并在一定程度上提高了字形的準確性。

結論與限制

到目前為止,手動標注的深度成本和有限可用性對字形生成模型的實際部署提出了重大挑戰。在本研究中,首先收集了包含中英文字形的高分辨率圖像,隨后構建了一個自動篩選流程以構建大規模數據集。接著,建立了一個綜合框架,將文本和字形語義融合在一起,利用各種層次的信息優化文本渲染的準確性和背景的豐富性。從實驗中得出的經驗分析表明,本文的方法在各種評估集上超越了現有模型,顯示出作為增強端到端海報生成能力基礎的潛力。


局限性 盡管本文的方法可以生成自由分辨率的端到端海報,但目前仍然存在一些問題。首先,對于LLM預測的字形bbox,在復雜情景下(例如用戶輸入的沒有引號的段落文本作為bbox提示),預測準確性較低。其次,在背景生成的豐富性與文本渲染的準確性之間進行平衡仍然相對困難。在目前的方法中,優先考慮字形的準確性,因此背景的視覺吸引力可能較弱。此外,對于小字形或段落文本的生成準確性仍然需要改進。未來,可能會在文本編碼器方面探索一些解決方案來解決這些問題。


本文轉自 AI生成未來 ,作者:Jian Ma等


原文鏈接:??https://mp.weixin.qq.com/s/OTu7epSMZmKpLNRUKGoQgA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久综合九九 | 激情 亚洲 | 男女视频在线免费观看 | 91麻豆精品国产91久久久久久 | 亚洲精品一二三区 | 国产精品一区二区三区久久 | 日韩一区二区视频 | 成人深夜福利在线观看 | 精品欧美一区二区三区精品久久 | 日韩精品成人 | 久久成人一区 | 成人免费视频在线观看 | 国产精品久久久久久久久久东京 | av福利网站 | 中文字幕三区 | 日本视频一区二区三区 | 99爱在线观看 | 久久99精品国产自在现线小黄鸭 | 91久久夜色精品国产网站 | 精品国产青草久久久久福利 | 国产精品a一区二区三区网址 | 精品福利在线 | 国产成人精品一区二区三区网站观看 | 91社区在线观看高清 | 九九视频在线观看视频6 | 国产精品一区网站 | 欧美日韩视频 | 涩涩导航 | 男女网站免费 | 日韩在线免费播放 | 亚洲国产成人久久久 | 欧美jizzhd精品欧美巨大免费 | 天天夜夜操 | 久久高清国产视频 | 91在线中文字幕 | 久久婷婷国产麻豆91 | 国产乱人伦 | 久久极品 | 色视频欧美 | 亚洲成人免费在线 | 中国大陆高清aⅴ毛片 |