這個(gè)懂中文的AI高手,畫出的高山明月太驚艷!中英雙語AltDiffusion模型已開源
日前,智源研究院大模型研究團(tuán)隊(duì)開源最新雙語 AltDiffusion 模型,為中文世界帶來專業(yè)級(jí) AI 文圖創(chuàng)作的強(qiáng)勁動(dòng)力:
支持精細(xì)長中文 Prompts 高級(jí)創(chuàng)作;無需文化轉(zhuǎn)譯,從原汁原味中國話直達(dá)形神兼?zhèn)渲袊嫞磺以诶L畫水平上達(dá)到低門檻中英對(duì)齊原版 Stable Diffusion 級(jí)震撼視效,可以說是講中文的世界級(jí) AI 繪畫高手。
創(chuàng)新模型 AltCLIP 為這一工作的基石,為原 CLIP 模型補(bǔ)齊更強(qiáng)的跨語言三大能力。AltDiffusion 和 AltCLIP 模型均為多語言模型,中英雙語為第一階段工作,代碼與模型已開源。
AltDiffusion
https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltDiffusion
AltCLIP
https://github.com/FlagAI-Open/FlagAI/examples/AltCLIP
HuggingFace space試玩地址:
https://huggingface.co/spaces/BAAI/bilingual_stable_diffusion
技術(shù)報(bào)告
https://arxiv.org/abs/2211.06679
專業(yè)級(jí)中文 AltDiffusion
——長Prompt精細(xì)繪畫 + 原生中國風(fēng),滿足中文AI創(chuàng)作高手的高需求
得益于以 AltCLIP 為基礎(chǔ)的強(qiáng)大中英雙語言對(duì)齊能力,AltDiffusion 達(dá)到近似于 Stable Diffusion 程度的視效水平,尤其具備更懂中國話、更善中國畫的獨(dú)特優(yōu)勢,非常值得專業(yè)級(jí)中文AI文圖創(chuàng)作者期待。
1. 長Prompt生成,畫面效果毫不遜色
Prompt長短是檢驗(yàn)?zāi)P臀膱D生成能力的分水嶺,越長的Prompt,越考驗(yàn)語言理解、圖文對(duì)齊和跨語言這三大能力。
在同樣的中英文長 Prompt 輸入調(diào)校下,AltDiffusion 在不少圖片生成案例中表現(xiàn)力甚至更勝一籌:元素構(gòu)成豐富精彩、細(xì)節(jié)描摹細(xì)膩精準(zhǔn)。
2. 更懂中國話,更善中國畫
除中英文 Prompts 輸入表現(xiàn)近似之外,AltDiffusion 還能補(bǔ)齊西方世界里中國畫風(fēng)的不足,利用中文圖文對(duì)繼續(xù)微調(diào)出中文特色的生成,例如國畫風(fēng)格生成模型,產(chǎn)出真正的「中國風(fēng)」。
AltDiffusion 更懂中文,在中國文化語境中的意義描摹上指哪打哪,秒懂創(chuàng)作者意圖。例如對(duì)「唐朝盛景」的描繪,避免出現(xiàn)因文化誤解而產(chǎn)生的跑題情況。
尤其對(duì)原生于中國文化的概念,理解與表現(xiàn)更為精確,得以避免「日本風(fēng)」與「中國風(fēng)」混淆,令人啼笑皆非的狀況。例如,與Stable Diffusion在中英文輸入對(duì)應(yīng)唐裝人物風(fēng)格的Prompts,差異一目了然:
在特定風(fēng)格的生成中,會(huì)原生以中文文化語境為身份主體,進(jìn)行風(fēng)格創(chuàng)作,例如對(duì)于下面帶有「古建筑」的prompt,會(huì)默認(rèn)生成中國古代建筑。在創(chuàng)作風(fēng)格上更加貼合中文創(chuàng)作者身份。
3. 中英雙語,生成效果對(duì)齊
AltDiffusion基于Stable Diffusion,通過將原來Stable Diffusion中的CLIP替換成AltCLIP,并且用中英文圖文對(duì)對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練得到。得益于 AltCLIP 強(qiáng)大的語言對(duì)齊能力,AltDiffusion 的生成效果在英文上與 Stable Diffusion 很接近,在中英文雙語的表現(xiàn)上也體現(xiàn)了一致性。
如「戴帽子小狗」的同義中英文Prompts輸入AltDiffusion后,生成畫面效果基本對(duì)齊,一致性極高:
在對(duì)「男孩」的畫面增加描述詞為「中國男孩」之后,在原小男孩形象基礎(chǔ)上,精準(zhǔn)調(diào)整成典型「中國」孩子,在語言控制生成中展現(xiàn)出極佳語言理解能力和精準(zhǔn)的生成表達(dá)結(jié)果。
打通StableDiffusion原生態(tài)
——豐富生態(tài)工具與PromptsBook應(yīng)用,可玩性極佳
特別值得一提的是 AltDiffusion 的生態(tài)打通能力:
所有支持Stable Diffusion的工具如Stable Diffusion WebUI,DreamBooth等都可應(yīng)用在我們的中英雙語 Diffusion 模型上,為中文AI創(chuàng)作提供了豐富選擇:
1. Stable Diffusion WebUI
一個(gè)優(yōu)秀的文圖生成、文圖編輯的網(wǎng)頁工具;當(dāng)我們把北大夜景圖霍格沃茨(prompt: Hogwarts)化,瞬間即可呈現(xiàn)夢幻的魔法世界;
2. DreamBooth
通過少量樣本對(duì)模型進(jìn)行調(diào)試以生成特定的風(fēng)格的工具;通過這一工具,在AltDiffusion上利用少量中文圖片即可生成特定風(fēng)格,比如「大鬧天宮」風(fēng)格。
3. 充分利用社區(qū)Stable Prompts Book
Prompts 對(duì)于生成模型非常重要,社區(qū)用戶通過大量 prompts 嘗試,積累出豐富的生成效果案例。這些寶貴的 prompts 經(jīng)驗(yàn),對(duì)于 AltDiffusion 用戶幾乎全都適用!
此外,還可以通過混合中英文方式去搭配一些神奇的風(fēng)格和元素,或繼續(xù)挖掘?qū)ltDiffusion適用的中文Prompts。
4. 方便中文創(chuàng)作者微調(diào)
開源的AltDiffusion提供了中文生成模型的一個(gè)基礎(chǔ),大家可以在這個(gè)基礎(chǔ)上用更多特定領(lǐng)域的中文數(shù)據(jù)進(jìn)行模型微調(diào),方便中文創(chuàng)作者表達(dá)。
以首個(gè)雙語 AltCLIP 為基石
——全面增強(qiáng)跨語言三大能力,中英對(duì)齊、中文更優(yōu),極低門檻
語言理解,圖文對(duì)齊,跨語言能力,是跨語言研究必備的三種能力。
AltDiffusion 的諸多專業(yè)級(jí)能力,源于 AltCLIP 以創(chuàng)新性換塔思路,在這三大能力上全面增強(qiáng):與原 CLIP 中英文語言對(duì)齊能力大大提高,可以無縫接入 Stable Diffusion 等所有建立在原 CLIP 上的模型和生態(tài)工具;同時(shí)賦予其強(qiáng)悍的中文能力,在多項(xiàng)數(shù)據(jù)集取得中文更優(yōu)效果。(詳細(xì)解讀請(qǐng)參考技術(shù)報(bào)告)
值得一提的是,這種對(duì)齊方法對(duì)訓(xùn)練多語言多模態(tài)表征模型的門檻大大降低,相對(duì)于重新去做中文或者英文的圖文對(duì)預(yù)訓(xùn)練,只需約 1% 的計(jì)算資源與圖文對(duì)數(shù)據(jù)。
在全面CLIP benchmark中取得了和英文原版一致效果
在一些檢索類數(shù)據(jù)集上如Flicker-30K上超過了原版
Flicker-30K上表現(xiàn)效果超過原版CLIP
中文ImageNet上zero-shot結(jié)果最優(yōu)