清華、北大與微軟推出Glyph-ByT5-v2:渲染高視覺美感文本,海報驚艷,媲美DALL-E3!
微軟亞洲研究院、清華大學、北京大學、利物浦大學聯合推出功能強大的定制多語言文本編碼器Glyph-ByT5-v2和功能強大的美觀圖形生成模型Glyph-SDXL-v2,它們可以支持 10 種不同語言的準確拼寫。考慮到最新的DALLE-3 和Ideogram仍然難以完成多語言視覺文本渲染任務,該工作是一項重大進步。
Glyph-ByT5-v2+Glyph-SDXL-v2效果展示
Glyph-ByT5-v2+Glyph-SDXL-v2方法進行多語言視覺文本渲染的結果。分別在第1行、第2行、第3行、第4行和第5行展示了法語、西班牙語、中文、日語和韓語的視覺文本結果。
?
競品:DALL·E3和Ideogram 1.0生成的多語言結果的可視化展示,效果不佳
應用步驟感知偏好優化(SPO)后訓練的效果。按順序展示的圖像由以下幾行生成:第一行是Glyph-SDXL生成的圖像,第二行是Glyph-SDXL Albedo生成的圖像,最后一行是Glyph-SDXL Albedo加上SPO生成的圖像。
Glyph-ByT5-v2+Glyph-SDXL-v2如何使用:
- 頁面布局設計
- ?每一塊布局box的Prompt、Color、Font填充
Glyph-ByT5-v2+Glyph-SDXL-v2 demo體驗:
??https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2??
https://glyph-byt5-v2.github.io
https://arxiv.org/abs/2406.10208
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Render
本文轉載自PaperAgent
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦