首個中文Stable Diffusion模型開源,IDEA研究院封神榜團隊開啟中文AI藝術(shù)時代
生成內(nèi)容一直被視為 AI 領(lǐng)域中最具有挑戰(zhàn)性的能力,最近大火的 AI 繪畫背后,是 Stable Diffusion 模型的開源,催生了眾多 AI 繪畫的應(yīng)用,得益于 Stability AI 的開源精神,這一創(chuàng)變推動了整個以英文為主的下游文生圖生態(tài)的蓬勃發(fā)展。
然而在國內(nèi),目前大部分團隊主要是基于翻譯 API + 英文 stable diffusion 模型進行開發(fā),但由于中英文之間所得存在文化差異導(dǎo)致遇到中文獨特的敘事和表達時,這種模型就很難給出正確匹配的圖片內(nèi)容。因此,IDEA 研究院認知計算與自然語言研究中心(IDEA CCNL)開源了第一個中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,讓中文的世界真正擁有具備中國文化內(nèi)核的 AIGC 模型。
- 太乙 Stable Diffusion 純中文版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
- 太乙 Stable Diffusion 中英雙語版本:https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
中文運筆,意境浮現(xiàn)
君不見黃河之水天上來 ,唯美,油畫
滔滔江水,連綿不絕 ,唯美,插畫
飛流直下三千尺 ,唯美,插畫
長城,清晨,朦朧,唯美,插畫
夢回江南,中國古代小鎮(zhèn),唯美,插畫
云南苗家古寨,原始森林,鳥語花香,唯美,插畫
中國的未來城市,科幻插畫
中文 vs 英文的圖片生成
?????
?????
中文指導(dǎo)的特定風格生成
小橋流水人家,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小橋流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
太乙系列文本生成圖像模型技術(shù)揭秘
第一個開源中文 CLIP 模型?
2022 年 7 月,IDEA CCNL開源了第一個中文 CLIP 模型,目前已經(jīng)有 4 個版本。
- Taiyi-CLIP-Roberta-102M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
- Taiyi-CLIP-Roberta-large-326M-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
- Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
- Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以 Taiyi-CLIP-Roberta-large-326M-Chinese 為例,IDEA CCNL用中文語言模型替換了開源的英文 CLIP 中語言編碼器,在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個中文語言模型,在 1 億級別的中文數(shù)據(jù)上訓(xùn)練了 24 個 epoch,一共過了約 30 億中文圖文數(shù)據(jù),得到了這個包含圖片信息的中文表征語言模型,為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)。
第一個開源中文 Disco Diffusion 模型?
2022 年 10 月,IDEA CCNL開源了第一個中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,該模型由 Katherine Crowson's 的無條件擴散模型在自然風景圖上微調(diào)而來。結(jié)合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以實現(xiàn)中文生成各種風格的風景圖片。
東臨碣石,以觀滄海,水何澹澹,山島竦峙:
第一個開源中文 Stable Diffusion 的模型?
2022 年 11 月,IDEA CCNL開源了第一個中文 Stable Diffusion 的模型和中英雙語 Stable Diffusion 模型。
- 太乙 Stable Diffusion 純中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
該模型利用已經(jīng)開源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替換了英文 stable-diffusion-v1-4 中的語言編碼器,因為太乙 CLIP 模型已經(jīng)具備了很強的中文圖文概念,所以直接凍結(jié)英文 stable diffusion 的生成模型部分,在億級別的高質(zhì)量數(shù)據(jù)上微調(diào)語言編碼器,調(diào)整學(xué)習(xí)率等超參數(shù),將太乙 CLIP 模型理解的中文圖文概念與 stable diffusion 生成能力對齊。
- 太乙 Stable Diffusion 中英雙語版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
不同于太乙 Stable Diffusion 純中文版本,這個模型希望在支持中文的情況下,同時能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有語言模型不具備太乙 CLIP 模型強大的中文圖文概念,IDEA CCNL希望在它的基礎(chǔ)上增加了中文數(shù)據(jù)訓(xùn)練,這里采取了兩階段的訓(xùn)練。第一階段也是凍住 stable-diffusion-v1-4 的生成模型部分,在億級別的高質(zhì)量數(shù)據(jù)上微調(diào)語言編碼器,調(diào)整學(xué)習(xí)率等超參數(shù),訓(xùn)練語言模型中文部分的表征。第二階段放開 stable-diffusion-v1-4 的生成模型部分,增強中文引導(dǎo)圖片生成的能力,目前訓(xùn)練中的一個 checkpoint 已取得不錯的效果并進行了開源。
使用方法
如果需要進行古詩場景、中文概念生成,建議嘗試中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用場景和概念的生成,尤其是有中文混合英文需要,建議嘗試中英雙語版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。
中文版本:
中英雙語版本:
太乙 - 中文 Stable Diffusion 的未來
目前在龐大的中國市場中,有將近 10 億的文化產(chǎn)業(yè)正在被 AIGC 沖擊并快速創(chuàng)新發(fā)展,也有更多的新機遇在裂變中產(chǎn)生。由于此前的 AIGC 模型還無法和特殊的中國文化背景相結(jié)合,致力于成為中文認知智能的基礎(chǔ)設(shè)施的 IDEA 研究院認知計算與自然語言中心,希望通過推出太乙模型,助力加快在 AIGC 全球市場化中中國的文化產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新發(fā)展,促進各個相關(guān)行業(yè)的升級。而太乙所在的封神榜預(yù)訓(xùn)練模型開源體系,已經(jīng)開源 80 個模型,覆蓋 AIGC、自然語言理解、受控文本生成等多個領(lǐng)域,成為中文最大的預(yù)訓(xùn)練模型開源體系。基于封神榜模型的 GTS 模型生產(chǎn)平臺,自動生產(chǎn)的 1 億參數(shù)模型,擊敗眾多百億千億參數(shù)模型,進入 FewCLUE 榜單前三名,機器自動化生成模型的能力達到了算法專家水平,AI 生產(chǎn) AI 的時代正在到來。
IDEA CCNL認為,在 AIGC 中,人的作用是更為重要的,生成式 AI 應(yīng)悄無聲息地融入大眾生活中并更好地幫助拓展人類的想象力邊界。所以,與 AI 互動生產(chǎn)的內(nèi)容,是幫助AIGC走向下一個生產(chǎn)力階段的關(guān)鍵。因此,IDEA CCNL除了基礎(chǔ)模型和基礎(chǔ)算法的研究之外,還在研究更精準的文本生成和基中文于文本的交互式圖片編輯。以太乙為核心的 AIGC 模型會持續(xù)更新和升級,敬請期待。