DPG-Bench榜首!智譜開源文生圖模型CogView4:支持中英文輸入和生成,免費商用授權!
在圖像生成技術的浪潮中,智譜開源再次引領潮流,推出了全新的文生圖模型——CogView4。這款模型不僅支持中英雙語提示詞輸入,更擅長理解和遵循中文指令,讓創意表達無界限。尤為值得一提的是,CogView4開創了先河,成為首個能在畫面中直接生成漢字的開源文生圖模型,讓文字與圖像的融合更加自然流暢。
不僅如此,CogView4還具備極高的靈活性,支持生成任意寬高比的圖片,同時接受任意長度的提示詞輸入,滿足用戶多樣化的創作需求。更令人期待的是,后續還將開源對應的Controlnet、Comfyui支持及模型微調工具,為用戶帶來更加便捷、高效的創作體驗。
在DPG-Bench基準測試中,CogView4憑借卓越的表現榮獲綜合評分第一,彰顯了其在圖像生成領域的強大實力。今年,圖像模型領域終于迎來了新的突破,而CogView4無疑是這場變革中的佼佼者。
CogView4主要特點總結如下:
- 支持中英雙語提示詞輸入,擅長理解和遵循中文提示詞
- 首個能夠在畫面中生成漢字的開源文生圖模型
- 支持生成任意寬高的圖片以及任意長度提示詞輸入
相關鏈接
- 論文:https://arxiv.org/pdf/2403.05121
- 項目:github.com/THUDM/CogView4
- 模型:huggingface.co/THUDM/CogView4-6B
- 試用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
效果展示
推理要求與模型介紹
- 分辨率:寬度和高度必須介于512px和之間2048px,可被 整除32,并且確保最大像素數不超過2^21px。
- 精度:BF16 / FP32(不支持 FP16,因為它會導致溢出,從而導致圖像完全變黑) 使用BF16精度為batchsize=4進行測試,內存使用情況如下表所示: