中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘

angel

發布于 2025-4-30 09:13

瀏覽

0收藏

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

文章地址：https://arxiv.org/abs/2504.19724

項目鏈接：https://reptext.github.io/

Git鏈接：https://github.com/Shakker-Labs/RepText

亮點直擊

RepText，一個用于可控多語言視覺文本渲染的有效框架。
創新性地引入了字形隱空間變量復制技術，以提高排版準確性并實現顏色控制。此外，采用區域掩碼來保證良好的視覺保真度，避免背景干擾。
定性實驗表明，本方法優于現有開源方案，并與原生多語言閉源模型取得了可比的結果。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

總結速覽

解決的問題

現有文本生成圖像模型在視覺文字渲染上的不足。當前主流文本生成圖像模型（如 Stable Diffusion、DiT-based 模型）在生成精確的視覺文字（尤其是非拉丁字母）時表現不佳。主要原因是文本編碼器無法有效處理多語言輸入，或訓練數據中多語言分布存在偏差。
替換文本編碼器（如采用多語言大語言模型）并從頭訓練模型，但資源消耗高。
引入輔助模塊（如 ControlNet）控制文字渲染，但大多基于舊版 UNet 架構（如 SD1.5/SDXL），生成質量受限，且無法適配最新的 DiT-based 模型（如 SD3.5、FLUX）。
現有方法缺乏對字體、位置、顏色的靈活控制，且多語言支持不足。

提出的方案

提出RepText，通過字形復制（glyph replication）而非語義理解，實現多語言視覺文字的精確渲染。
基于 ControlNet 的文本復制框架，采用類似 ControlNet 的結構，以canny 邊緣圖 + 文字位置圖作為條件輸入，指導模型復制字形。不依賴額外文本/圖像編碼器，避免多語言理解問題。
字形隱空間變量初始化（Glyph Latent Replication）。在推理時，直接用帶噪聲的文字字形隱空間變量初始化生成過程（而非隨機噪聲），提升文字準確性。
區域掩碼控制（Region Masking）。限制特征注入僅作用于文字區域，避免背景失真。
文本感知損失（Text Perceptual Loss）。結合擴散損失，進一步優化文字渲染的清晰度。

應用的技術

基礎模型：適配最新的DiT-based 模型（如 SD3.5、FLUX），而非傳統的 UNet 架構。
條件控制： Canny 邊緣檢測（字形結構）、位置圖（文字布局）
優化技術：字形隱空間變量初始化、區域掩碼約束、多模態損失函數（擴散損失 + 文本感知損失）

達到的效果

多語言支持：無需理解語義，直接復制字形，支持任意語言（包括非拉丁字母）。
高精度渲染：文字準確性優于開源方案（如 GlyphControl、AnyText）。媲美閉源多語言模型（如 Seedream 3.0、GPT4o）。
靈活控制：用戶可自定義文字內容、字體、位置、顏色。
兼容性與質量：適配最新 DiT-based 模型，生成質量優于基于 SD1.5/SDXL 的方案。背景區域不受干擾，保持整體圖像和諧。

方法

動機

本文從一個簡單的哲學觀點出發：理解文本是否是渲染文本（尤其是筆畫簡單的文本）的必要且充分條件。本文提供幾個示例來說明這一點。首先，回想人類兒童如何學習寫字。大多數孩子最初通過涂鴉和繪畫開始書寫，并不真正理解所寫內容，只是模仿周圍已有的文字，隨后才開始認字，識字能力與書寫技能同步發展。另一個例子是字帖，它包含手寫范例和供學習者模仿的空白區域。對于某些復雜的藝術字體（特別是非拉丁文字如中國書法），模仿字形甚至可能早于識別文字。簡而言之，盡管識別和理解文本無疑對書寫有幫助，但本文認為書寫也可以從模仿或復制開始，這一原則同樣適用于生成模型中的視覺文本渲染。

基于這一樸素假設，本文使用預訓練的ControlNet-Union（在自然圖像上通過canny邊緣訓練）作為文本渲染的初步工具。如附錄圖6所示，該方法已能展現一定程度的復制能力，盡管存在明顯的文字準確性問題和圖像質量下降。這促使本文在其基礎上開發一種方法，能夠利用現有的單語言文本編碼器復制多語言、多字體文本。

RepText

框架。如圖2所示，RepText是一個類ControlNet框架，主要受GlyphControl和JoyTypes啟發。為了融入細粒度字形信息并實現多語言渲染，本文沒有像GlyphControl那樣直接使用渲染的字形圖像（依賴文本編碼器理解詞語語義），而是采用更強的文本提示——從圖像提取的canny邊緣。此外，為了提供位置信息，本文還使用輔助位置圖像輔助文本渲染。canny和位置圖像分別經過VAE編碼器處理，并在通道維度拼接后輸入ControlNet分支。需要渲染的文本內容不會手動添加到提示詞中。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

文本感知損失表示為

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

推理策略。在推理階段，本文引入了如圖3所示的若干關鍵技術來穩定并提升文本渲染性能：

基于字形隱空間變量的復制。受字帖啟發，本文采用無噪字形隱空間變量而非隨機高斯噪聲進行初始化（即復制機制），在去噪步驟初期提供字形引導信息。僅復制無噪字形隱空間變量的文本區域并粘貼回隨機噪聲中。本文發現這一簡單步驟對提升渲染文本準確性具有重要作用。得益于該設計，RepText進一步支持用戶指定文本顏色，而無需通過可學習層隱式編碼顏色信息。

在實現過程中，本文發現直接復制粘貼會導致圖像質量顯著下降（因無噪區域不符合高斯噪聲分布）。因此引入權重系數控制字形隱空間變量的影響程度。初始化隱空間變量定義如下：

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

文本區域的區域掩碼。傳統 ControlNet 通常使用全局提示作為條件（例如 canny 和深度圖是基于整張圖像計算的），而在本文的場景中，條件圖像是稀疏的，僅文本區域有效。因此，為避免去噪過程中對非文本區域的干擾，本文額外使用區域掩碼截斷 ControlNet 的輸出。區域掩碼為二值圖像，文本框標注的文本區域設為 1。

實驗

實現細節

在廣泛使用的開源文本生成圖像模型 FLUX-dev上實現了本文的方法。文本 ControlNet 分支包含 6 個雙塊和 0 個單塊（遵循 ControlNet-Union-Pro-2.0 ），并基于 FLUX-dev 初始化。使用 Anytext-3M 作為預訓練數據集（所有圖像尺寸為 512x512）。訓練分辨率設為 512，采用 AdamW 優化器，學習率為 2e-5，批量大小為 256。OCR 損失縮放因子設為 0.05，文本丟棄率為 0.3。此外，收集了包含 10K 張圖像的高質量數據集進行微調，這些圖像均為自然場景（如路牌、商店招牌等）而非合成圖像。微調時啟用多比例訓練桶（buckets），學習率降至 5e-6，OCR 損失縮放因子增至 0.10，文本丟棄率提升至 0.4。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

定性結果

針對多場景進行了定性評估，包括多語言（尤其是非拉丁文字）、多字體、多顏色和多行文本。多語言生成結果如圖4所示，其他結果詳見附錄圖7、圖8和圖9（為節省篇幅）。得益于字形復制機制，RepText能生成準確且可控的文本內容。更多生成樣本見附錄圖10和圖11。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

與現有方法的對比

基線方法：為全面對比，本文比較了具備單語言/多語言文本渲染能力的開源與閉源模型。開源模型均使用官方代碼推理（特殊說明除外），閉源模型使用其產品或API推理。

單語言對比：

開源模型：Stable Diffusion 3.5 large、FLUX-dev、HiDream-I1-Dev
閉源模型：FLUX 1.1 Pro Ultra、Ideogram 3.0 、Reve Image (Halfmoon)、Recraft V3
可控文本渲染方法：TextDiffuser、TextDiffuser2、GlyphControl （本文在FLUX-dev上復現）
Recraft V3 使用其基于TextDiffuser2的"Frame"功能進行可控渲染（結果見附錄圖12）

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

對于拉丁文本，由于基礎模型本身具備優秀理解能力，RepText主要作為位置引導和字體指定工具。實驗未采用在提示詞中顯式添加待渲染文本（英文）的策略。

多語言對比：

開源模型：Kolors 1.0 、Cogview4
閉源模型：Kolors 1.5 、Gemini Flash 2.0、Wan2.1 Pro、GPT-4o、Seedream 3.0、Kolors 2.0注：Hunyuan-DiT雖采用mT5文本編碼器，但不支持多語言文本渲染（結果見附錄圖13）。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

對比結論：

相比開源方法：在文本準確性和圖像質量上具有顯著優勢
相比采用多語言文本編碼器的閉源模型：具備更好的可控性
局限性：必須承認，由于GPT-4o、Seedream 3.0、Kolors 2.0等最先進模型具備原生多語言理解能力，其在文本內容渲染靈活性上優于本方法。

與現有工作的兼容性

為展示本方法的兼容性和有效性，為RepText配備了常用的插件模型，包括風格LoRA、其他ControlNet和IP-Adapter。

LoRA：本文使用了HuggingFace上的三個開源LoRA。具體選擇了提供膠片質感的FilmPortrait1、創作毛線藝術的FLUX.1-dev-LoRA-MiaoKa-Yarn-World2以及簡筆畫風格的FLUX.1-dev-LoRA-Children-Simple-Sketch3。如圖5所示，本文的工作完全兼容社區LoRA的風格化處理。

其他ControlNet：使用ControlNet-Union-Pro-2.0和ControlNet-Inpainting來實現空間控制和文本編輯。結果如附錄圖14所示。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

IP-Adapter：以FLUX.1-dev-IP-Adapter為例。如附錄圖15所示，本文方法可以與IP-Adapter一起使用。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

消融研究

ControlNet條件的選擇：進行了實驗來分析不同ControlNet條件的影響。在僅使用位置條件的情況下，它只提供位置引導；在僅使用Canny條件的情況下，可以渲染相應的文本，但準確性和和諧性有限；而在聯合使用Canny和位置條件時，可以準確地渲染和諧的文本。結果見附錄圖16。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

字形隱空間變量復制的效果：如附錄圖17（左）所示，從字形隱空間變量初始化可以無損提高排版準確性。此外，如附錄圖17（右）所示，它允許用戶指定顏色，而無需依賴額外的顏色編碼器。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

區域掩碼的效果：與其他ControlNet通常使用全局密集控制信號不同，文本是局部稀疏控制。發現，在推理階段引入區域掩碼有助于提高非文本背景的質量，如附錄圖18所示。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

局限性與未來工作

典型失敗案例：盡管RepText展示了良好的文本渲染能力和兼容性，但由于其自身缺乏對文本的理解，仍然存在一些局限性。本文討論以下幾種常見的失敗情況：

與場景不協調：盡管訓練數據集中包含大量自然場景（如路標）的文本數據，但文本編碼器（T5-XXL）本身并不理解需要渲染的文本內容（即使將文本內容添加到提示詞中），特別是非拉丁文本，因此有時文本會像簽名或水印一樣生硬地粘貼在生成的圖像上，導致與場景不協調，如附錄圖19（a）所示。

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘-AI.x社區

文本精度有限：對于藏文等筆畫復雜的文本或小字體，即使使用本文的框架，渲染精度仍然較差，如附錄圖19（b）所示。其中一個原因是控制條件不夠精確，而且當前VAE的壓縮率也會導致小字符的渲染效果不佳。

渲染額外文本. 發現即使使用區域掩碼，一些額外的文本仍會出現在非渲染文本區域，如附錄圖19（c）所示，這些文本通常是無意義、不可識別或重復的。

文本多樣性有限。 受限于文本編碼器，本文必須使用額外的條件，無法通過提示詞靈活控制文本屬性，包括其位置、顏色、材質等。

不支持精確的顏色控制。 雖然從字形隱空間變量初始化可以實現粗略的顏色控制，但無法嚴格渲染細粒度的顏色，這限制了其在實際場景中的應用。

缺乏扭曲與透視效果。 由于文本內容完全由正視角字形控制，受限于前端渲染機制，難以靈活生成帶有變形和透視效果的文本，也無法生成具有扭曲風格的藝術字。

未來工作方向。如前述章節所述，承認最靈活有效的文本渲染方式是讓模型理解每個詞語的具體含義——即采用多語言文本編碼器或MLLM（多模態大語言模型），從而實現自然場景或海報場景的文本渲染。核心問題在于：除了替換文本編碼器并從頭訓練之外，是否存在一種低成本方案（使用更少的訓練參數和數據），能在不損害原有生成能力的前提下，使現有文本生成圖像模型具備多語言文本識別與渲染能力？例如MetaQuery研究表明，當MLLM主干和Diffusion主干均保持凍結、僅訓練輕量級連接器時，MLLM的理解與推理能力可增強圖像生成——類似方法或可應用于視覺文本渲染領域。

結論

本研究受書法字帖啟發，提出了一種簡單高效的框架RepText，用于可控多語言視覺文本渲染。該方法使預訓練的單語言文本生成圖像模型具備生成多語言、多字體、多色彩可讀文本的能力。

具體而言：

無需額外圖像/文本編碼器理解語義，通過結合canny邊緣與位置圖像的ControlNet實現字形復制；
創新性引入字形隱空間變量復制技術提升文本精度并支持色彩控制；
采用區域掩碼方案確保生成質量不受文本信息干擾。

實驗表明，本方法優于現有開源方案，并與原生多語言閉源模型效果相當。后續將探索如何高效賦予單語言模型多語言理解能力，從而進一步提升文本渲染的靈活性與準確性。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/kiO4JfjR-9E1gpTXfS9A_A??

標簽

語言模型

生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

中文、日文、韓文等多種語言精準生成！Liblib重磅開源RepText：打破AI圖文生成語言壁壘

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

方法

動機

RepText

實驗

實現細節

定性結果

與現有方法的對比

與現有工作的兼容性

消融研究

局限性與未來工作

結論

目錄