中文、日文、韓文等多種語言精準生成!Liblib重磅開源RepText:打破AI圖文生成語言壁壘
文章地址:https://arxiv.org/abs/2504.19724
項目鏈接:https://reptext.github.io/
Git鏈接:https://github.com/Shakker-Labs/RepText
亮點直擊
- RepText,一個用于可控多語言視覺文本渲染的有效框架。
- 創新性地引入了字形隱空間變量復制技術,以提高排版準確性并實現顏色控制。此外,采用區域掩碼來保證良好的視覺保真度,避免背景干擾。
- 定性實驗表明,本方法優于現有開源方案,并與原生多語言閉源模型取得了可比的結果。
總結速覽
解決的問題
- 現有文本生成圖像模型在視覺文字渲染上的不足。當前主流文本生成圖像模型(如 Stable Diffusion、DiT-based 模型)在生成精確的視覺文字(尤其是非拉丁字母)時表現不佳。主要原因是文本編碼器無法有效處理多語言輸入,或訓練數據中多語言分布存在偏差。
- 替換文本編碼器(如采用多語言大語言模型)并從頭訓練模型,但資源消耗高。
- 引入輔助模塊(如 ControlNet)控制文字渲染,但大多基于舊版 UNet 架構(如 SD1.5/SDXL),生成質量受限,且無法適配最新的 DiT-based 模型(如 SD3.5、FLUX)。
- 現有方法缺乏對字體、位置、顏色的靈活控制,且多語言支持不足。
提出的方案
- 提出RepText,通過字形復制(glyph replication)而非語義理解,實現多語言視覺文字的精確渲染。
- 基于 ControlNet 的文本復制框架,采用類似 ControlNet 的結構,以canny 邊緣圖 + 文字位置圖作為條件輸入,指導模型復制字形。不依賴額外文本/圖像編碼器,避免多語言理解問題。
- 字形隱空間變量初始化(Glyph Latent Replication)。在推理時,直接用帶噪聲的文字字形隱空間變量初始化生成過程(而非隨機噪聲),提升文字準確性。
- 區域掩碼控制(Region Masking)。限制特征注入僅作用于文字區域,避免背景失真。
- 文本感知損失(Text Perceptual Loss)。結合擴散損失,進一步優化文字渲染的清晰度。
應用的技術
- 基礎模型:適配最新的DiT-based 模型(如 SD3.5、FLUX),而非傳統的 UNet 架構。
- 條件控制: Canny 邊緣檢測(字形結構) 、位置圖(文字布局)
- 優化技術: 字形隱空間變量初始化、區域掩碼約束、多模態損失函數(擴散損失 + 文本感知損失)
達到的效果
- 多語言支持:無需理解語義,直接復制字形,支持任意語言(包括非拉丁字母)。
- 高精度渲染:文字準確性優于開源方案(如 GlyphControl、AnyText)。媲美閉源多語言模型(如 Seedream 3.0、GPT4o)。
- 靈活控制:用戶可自定義文字內容、字體、位置、顏色。
- 兼容性與質量:適配最新 DiT-based 模型,生成質量優于基于 SD1.5/SDXL 的方案。背景區域不受干擾,保持整體圖像和諧。
方法
動機
本文從一個簡單的哲學觀點出發:理解文本是否是渲染文本(尤其是筆畫簡單的文本)的必要且充分條件。本文提供幾個示例來說明這一點。首先,回想人類兒童如何學習寫字。大多數孩子最初通過涂鴉和繪畫開始書寫,并不真正理解所寫內容,只是模仿周圍已有的文字,隨后才開始認字,識字能力與書寫技能同步發展。另一個例子是字帖,它包含手寫范例和供學習者模仿的空白區域。對于某些復雜的藝術字體(特別是非拉丁文字如中國書法),模仿字形甚至可能早于識別文字。簡而言之,盡管識別和理解文本無疑對書寫有幫助,但本文認為書寫也可以從模仿或復制開始,這一原則同樣適用于生成模型中的視覺文本渲染。
基于這一樸素假設,本文使用預訓練的ControlNet-Union(在自然圖像上通過canny邊緣訓練)作為文本渲染的初步工具。如附錄圖6所示,該方法已能展現一定程度的復制能力,盡管存在明顯的文字準確性問題和圖像質量下降。這促使本文在其基礎上開發一種方法,能夠利用現有的單語言文本編碼器復制多語言、多字體文本。
RepText
框架。如圖2所示,RepText是一個類ControlNet框架,主要受GlyphControl和JoyTypes啟發。為了融入細粒度字形信息并實現多語言渲染,本文沒有像GlyphControl那樣直接使用渲染的字形圖像(依賴文本編碼器理解詞語語義),而是采用更強的文本提示——從圖像提取的canny邊緣。此外,為了提供位置信息,本文還使用輔助位置圖像輔助文本渲染。canny和位置圖像分別經過VAE編碼器處理,并在通道維度拼接后輸入ControlNet分支。需要渲染的文本內容不會手動添加到提示詞中。
文本感知損失表示為
推理策略。在推理階段,本文引入了如圖3所示的若干關鍵技術來穩定并提升文本渲染性能:
基于字形隱空間變量的復制。受字帖啟發,本文采用無噪字形隱空間變量而非隨機高斯噪聲進行初始化(即復制機制),在去噪步驟初期提供字形引導信息。僅復制無噪字形隱空間變量的文本區域并粘貼回隨機噪聲中。本文發現這一簡單步驟對提升渲染文本準確性具有重要作用。得益于該設計,RepText進一步支持用戶指定文本顏色,而無需通過可學習層隱式編碼顏色信息。
在實現過程中,本文發現直接復制粘貼會導致圖像質量顯著下降(因無噪區域不符合高斯噪聲分布)。因此引入權重系數控制字形隱空間變量的影響程度。初始化隱空間變量定義如下:
文本區域的區域掩碼。傳統 ControlNet 通常使用全局提示作為條件(例如 canny 和深度圖是基于整張圖像計算的),而在本文的場景中,條件圖像是稀疏的,僅文本區域有效。因此,為避免去噪過程中對非文本區域的干擾,本文額外使用區域掩碼截斷 ControlNet 的輸出。區域掩碼為二值圖像,文本框標注的文本區域設為 1。
實驗
實現細節
在廣泛使用的開源文本生成圖像模型 FLUX-dev上實現了本文的方法。文本 ControlNet 分支包含 6 個雙塊和 0 個單塊(遵循 ControlNet-Union-Pro-2.0 ),并基于 FLUX-dev 初始化。使用 Anytext-3M 作為預訓練數據集(所有圖像尺寸為 512x512)。訓練分辨率設為 512,采用 AdamW 優化器,學習率為 2e-5,批量大小為 256。OCR 損失縮放因子設為 0.05,文本丟棄率為 0.3。此外,收集了包含 10K 張圖像的高質量數據集進行微調,這些圖像均為自然場景(如路牌、商店招牌等)而非合成圖像。微調時啟用多比例訓練桶(buckets),學習率降至 5e-6,OCR 損失縮放因子增至 0.10,文本丟棄率提升至 0.4。
定性結果
針對多場景進行了定性評估,包括多語言(尤其是非拉丁文字)、多字體、多顏色和多行文本。多語言生成結果如圖4所示,其他結果詳見附錄圖7、圖8和圖9(為節省篇幅)。得益于字形復制機制,RepText能生成準確且可控的文本內容。更多生成樣本見附錄圖10和圖11。
與現有方法的對比
基線方法:為全面對比,本文比較了具備單語言/多語言文本渲染能力的開源與閉源模型。開源模型均使用官方代碼推理(特殊說明除外),閉源模型使用其產品或API推理。
單語言對比:
- 開源模型:Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev
- 閉源模型:FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3
- 可控文本渲染方法:TextDiffuser、TextDiffuser2、GlyphControl (本文在FLUX-dev上復現)
- Recraft V3 使用其基于TextDiffuser2的"Frame"功能進行可控渲染(結果見附錄圖12)
對于拉丁文本,由于基礎模型本身具備優秀理解能力,RepText主要作為位置引導和字體指定工具。實驗未采用在提示詞中顯式添加待渲染文本(英文)的策略。
多語言對比:
- 開源模型:Kolors 1.0 、Cogview4
- 閉源模型:Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0注:Hunyuan-DiT雖采用mT5文本編碼器,但不支持多語言文本渲染(結果見附錄圖13)。
對比結論:
- 相比開源方法:在文本準確性和圖像質量上具有顯著優勢
- 相比采用多語言文本編碼器的閉源模型:具備更好的可控性
- 局限性:必須承認,由于GPT-4o、Seedream 3.0、Kolors 2.0等最先進模型具備原生多語言理解能力,其在文本內容渲染靈活性上優于本方法。
與現有工作的兼容性
為展示本方法的兼容性和有效性,為RepText配備了常用的插件模型,包括風格LoRA、其他ControlNet和IP-Adapter。
LoRA:本文使用了HuggingFace上的三個開源LoRA。具體選擇了提供膠片質感的FilmPortrait1、創作毛線藝術的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及簡筆畫風格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如圖5所示,本文的工作完全兼容社區LoRA的風格化處理。
其他ControlNet:使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting來實現空間控制和文本編輯。結果如附錄圖14所示。
IP-Adapter:以FLUX.1-dev-IP-Adapter為例。如附錄圖15所示,本文方法可以與IP-Adapter一起使用。
消融研究
ControlNet條件的選擇:進行了實驗來分析不同ControlNet條件的影響。在僅使用位置條件的情況下,它只提供位置引導;在僅使用Canny條件的情況下,可以渲染相應的文本,但準確性和和諧性有限;而在聯合使用Canny和位置條件時,可以準確地渲染和諧的文本。結果見附錄圖16。
字形隱空間變量復制的效果:如附錄圖17(左)所示,從字形隱空間變量初始化可以無損提高排版準確性。此外,如附錄圖17(右)所示,它允許用戶指定顏色,而無需依賴額外的顏色編碼器。
區域掩碼的效果:與其他ControlNet通常使用全局密集控制信號不同,文本是局部稀疏控制。發現,在推理階段引入區域掩碼有助于提高非文本背景的質量,如附錄圖18所示。
局限性與未來工作
典型失敗案例:盡管RepText展示了良好的文本渲染能力和兼容性,但由于其自身缺乏對文本的理解,仍然存在一些局限性。本文討論以下幾種常見的失敗情況:
與場景不協調:盡管訓練數據集中包含大量自然場景(如路標)的文本數據,但文本編碼器(T5-XXL)本身并不理解需要渲染的文本內容(即使將文本內容添加到提示詞中),特別是非拉丁文本,因此有時文本會像簽名或水印一樣生硬地粘貼在生成的圖像上,導致與場景不協調,如附錄圖19(a)所示。
文本精度有限:對于藏文等筆畫復雜的文本或小字體,即使使用本文的框架,渲染精度仍然較差,如附錄圖19(b)所示。其中一個原因是控制條件不夠精確,而且當前VAE的壓縮率也會導致小字符的渲染效果不佳。
渲染額外文本. 發現即使使用區域掩碼,一些額外的文本仍會出現在非渲染文本區域,如附錄圖19(c)所示,這些文本通常是無意義、不可識別或重復的。
文本多樣性有限。 受限于文本編碼器,本文必須使用額外的條件,無法通過提示詞靈活控制文本屬性,包括其位置、顏色、材質等。
不支持精確的顏色控制。 雖然從字形隱空間變量初始化可以實現粗略的顏色控制,但無法嚴格渲染細粒度的顏色,這限制了其在實際場景中的應用。
缺乏扭曲與透視效果。 由于文本內容完全由正視角字形控制,受限于前端渲染機制,難以靈活生成帶有變形和透視效果的文本,也無法生成具有扭曲風格的藝術字。
未來工作方向。如前述章節所述,承認最靈活有效的文本渲染方式是讓模型理解每個詞語的具體含義——即采用多語言文本編碼器或MLLM(多模態大語言模型),從而實現自然場景或海報場景的文本渲染。核心問題在于:除了替換文本編碼器并從頭訓練之外,是否存在一種低成本方案(使用更少的訓練參數和數據),能在不損害原有生成能力的前提下,使現有文本生成圖像模型具備多語言文本識別與渲染能力?例如MetaQuery研究表明,當MLLM主干和Diffusion主干均保持凍結、僅訓練輕量級連接器時,MLLM的理解與推理能力可增強圖像生成——類似方法或可應用于視覺文本渲染領域。
結論
本研究受書法字帖啟發,提出了一種簡單高效的框架RepText,用于可控多語言視覺文本渲染。該方法使預訓練的單語言文本生成圖像模型具備生成多語言、多字體、多色彩可讀文本的能力。
具體而言:
- 無需額外圖像/文本編碼器理解語義,通過結合canny邊緣與位置圖像的ControlNet實現字形復制;
- 創新性引入字形隱空間變量復制技術提升文本精度并支持色彩控制;
- 采用區域掩碼方案確保生成質量不受文本信息干擾。
實驗表明,本方法優于現有開源方案,并與原生多語言閉源模型效果相當。后續將探索如何高效賦予單語言模型多語言理解能力,從而進一步提升文本渲染的靈活性與準確性。
本文轉自AI生成未來 ,作者:AI生成未來
