成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無懼圖像中的文字,TextDiffuser提供更高質量文本渲染

人工智能 新聞
本文提出了 TextDiffuser 模型,該模型包含兩個階段,第一階段生成 Layout,第二階段生成圖像。

近幾年來,Text-to-Image 領域取得了巨大的進展,特別是在 AIGC(Artificial Intelligence Generated Content)的時代。隨著 DALL-E 模型的興起,學術界涌現出越來越多的 Text-to-Image 模型,例如 Imagen,Stable Diffusion,ControlNet 等模型。然而,盡管 Text-to-Image 領域發展迅速,現有模型在穩定地生成包含文本的圖像方面仍面臨一些挑戰。

嘗試過現有 sota 文生圖模型可以發現,模型生成的文字部分基本上是不可讀的,類似于亂碼,這非常影響圖像的整體美觀度。

圖片

現有 sota 文生圖模型生成的文本信息可讀性較差

經過調研,學術界在這方面的研究較少。事實上,包含文本的圖像在日常生活中十分常見,例如海報、書籍封面和路牌等。如果 AI 能夠有效地生成這類圖像,將有助于輔助設計師的工作,激發設計靈感,減輕設計負擔。除此之外,用戶可能只希望修改文生圖模型結果的文字部分,保留其他非文本區域的結果。

因此,研究者希望設計一個全面的模型,既能直接由用戶提供的 prompt 生成圖像,也能接收用戶給定的圖像修改其中的文本。目前該研究工作已被NeurIPS 2023接收。

圖片

  • 論文地址:https://arxiv.org/abs/2305.10855
  • 項目地址:https://jingyechen.github.io/textdiffuser/
  • 代碼地址:https://github.com/microsoft/unilm/tree/master/textdiffuser
  • Demo地址:https://huggingface.co/spaces/microsoft/TextDiffuser

TextDiffuser 的三個功能

本文提出了 TextDiffuser 模型,該模型包含兩個階段,第一階段生成 Layout,第二階段生成圖像。

圖片

 TextDiffuser框架圖

模型接受一段文本 Prompt,然后根據 Prompt 中的關鍵詞確定每個關鍵詞的 Layout(也就是坐標框)。研究者采用了 Layout Transformer,使用編碼器-解碼器的形式自回歸地輸出關鍵詞的坐標框,并用 Python 的 PILLOW 庫渲染出文本。在這個過程中,還可以利用 Pillow 現成的 API 得到每個字符的坐標框,相當于得到了字符級別的 Box-level segmentation mask。基于此信息,研究者嘗試微調 Stable Diffusion。

他們考慮了兩種情況,一種是用戶想直接生成整張圖片(稱為 Whole-Image Generation)。另一種情況是 Part-Image Generation,在論文中也稱之為 Text-inpainting,指的是用戶給定一張圖像,需要修改圖里的某些文本區域。

為了實現以上兩種目的,研究者重新設計了輸入的特征,維度由原先的 4 維變成了 17 維。其中包含 4 維加噪圖像的特征,8 維字符信息,1 維圖像掩碼,還有 4 維未被 mask 圖像的特征。如果是 Whole-image generation,研究者將 mask 的區域設為全圖,反之,如果是 part-image generation,就只 mask 掉圖像的一部分即可。擴散模型的訓練過程類似于 LDM,有興趣的伙伴可以參考原文方法部分的描述。

在 Inference 階段,TextDiffuser 非常靈活,有三種使用方式:

  • 根據用戶給定的指令生成圖像。并且,如果用戶不大滿意第一步 Layout Generation 生成的布局,用戶可以更改坐標也可以更改文本的內容,這增加了模型的可控性。
  • 直接從第二個階段開始。根據模板圖像生成最終結果,其中模板圖像可以是印刷文本圖像,手寫文本圖像,場景文本圖像。研究者專門訓練了一個字符集分割網絡用于從模板圖像中提取 Layout。
  • 同樣也是從第二個階段開始,用戶給定圖像并指定需要修改的區域與文本內容。并且,這個操作可以多次進行,直到用戶對生成的結果感到滿意為止。

圖片

構造的 MARIO 數據

為了訓練 TextDiffuser,研究者搜集了 1000 萬張文本圖像,如上圖所示,包含三個子集:MARIO-LAION, MARIO-TMDB 與 MARIO-OpenLibrary。

研究者在篩選數據時考慮了若干方面:例如在圖像經過 OCR 后,只保留文本數量為 [1,8] 的圖像。他們篩掉了文本數量超過 8 的文本,因為這些文本往往包含大量密集文本,OCR 的結果一般不太準確,例如報紙或者復雜的設計圖紙。除此之外,他們設置文本的區域大于 10%,設置這個規則是為了讓文本區域在圖像的比重不要太小。

在 MARIO-10M 數據集訓練之后,研究者將 TextDiffuser 與現有其他方法做了定量與定性的對比。例如下圖所示,在 Whole-Image Generation 任務中,本文的方法生成的圖像具有更加清晰可讀的文本,并且文本區域與背景區域融合程度較高。

與現有工作比較文本渲染性能

研究者還做了定性的實驗,如表 1 所示,評估指標有 FID,CLIPScore 與 OCR。尤其是 OCR 指標,本文方法相對于對比方法有很大的提升。

圖片

表1:定性實驗

對于 Part-Image Generation 任務,研究者嘗試著在給定的圖像上增加或修改字符,實驗結果表明 TextDiffuser 生成的結果很自然。

圖片

文本修復功能可視化

總的來說,本文提出的 TextDiffuser 模型在文本渲染領域取得了顯著的進展,能夠生成包含易讀文本的高質量圖像。未來,研究者將進一步提升 TextDiffuser 的效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-11 09:53:27

人工智能AI 圖像

2020-12-30 15:14:46

人工智能數據技術

2017-07-14 09:54:47

代碼函數程序

2012-09-24 10:08:05

JSjQueryHTML5

2021-08-08 14:26:24

SQL數據庫開發

2011-05-31 13:43:46

外鏈

2023-07-06 14:51:30

開發高質量軟件

2011-03-04 10:11:09

JavascriptAPI

2012-09-13 10:44:18

Python代碼

2023-11-30 13:04:56

LCM圖像

2025-01-07 13:19:48

模型AI訓練

2025-01-17 11:05:00

模型訓練

2010-03-01 14:31:04

Java

2015-08-25 08:42:36

高質量代碼命名

2019-05-06 15:20:31

華為

2022-10-24 08:10:21

SQL代碼業務

2020-09-18 07:57:10

代碼編碼開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 涩涩视频网| 欧美福利网站 | 中文字幕日韩欧美 | 欧美电影免费观看 | a视频在线观看 | 国产一级片在线观看视频 | 欧美性猛片aaaaaaa做受 | 草草视频在线免费观看 | 久久高清| 国产精品久久久久久久一区二区 | 中文字字幕在线中文乱码范文 | 欧美一级二级在线观看 | 久久99精品国产麻豆婷婷 | 五月综合久久 | 欧美国产精品一区二区三区 | 中文字幕视频免费 | 老司机久久 | 亚洲国产精品久久久久秋霞不卡 | 午夜欧美一区二区三区在线播放 | 亚洲高清在线免费观看 | 国产清纯白嫩初高生视频在线观看 | 五月婷六月丁香 | 欧美精品黄| 午夜日韩| 国产午夜精品一区二区三区嫩草 | 国产日韩欧美 | 亚洲精品电影网在线观看 | 国产一区二区久久 | 午夜精品久久久久久久久久久久 | 亚洲一区二区视频 | 国产极品粉嫩美女呻吟在线看人 | 欧美一级在线观看 | 97avcc| hitomi一区二区三区精品 | 免费观看黄a一级视频 | 涩涩视频网站在线观看 | 我要看黄色录像一级片 | 伦理午夜电影免费观看 | 久久久精品一区二区 | 精品粉嫩aⅴ一区二区三区四区 | 国产日韩中文字幕 |