超大杯Stable Diffusion免費來襲!「最強文生圖開放模型」,提示詞也更簡單
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
Stable Diffusion最強版本,來了!
剛剛,SDXL 1.0正式發布,可免費在線試玩。
效果上,無論是以假亂真的寫實大片:
超現實的熊貓喝啤酒:
還是賽博朋克漫畫,都非常nice~
Stability AI表示,SDXL 1.0能生成更加鮮明準確的色彩,在對比度、光線和陰影方面做了增強,可生成100萬像素的圖像(1024×1024)。
而且還支持在網頁上直接對生成圖像進行后期編輯。
(有一股和Midjourney、Firefly打擂臺的味兒了)
網友們已經按捺不住上手試玩了~
和基礎Stable Diffusion相比,SDXL 1.0生成結果更加準確和逼真。
而且官方表示,提示詞也能比之前更簡單了。
這是因為SDXL 1.0的基礎模型參數量達到了35億,理解能力更強。
對比基礎版Stable Diffusion,參數量只有10億左右。
由此,SDXL 1.0也成為當前最大規模的開放圖像模型之一。官方甚至直接說這就是世界上最好的開放圖像模型。
話不多說,我們來上手體驗了~
把馬斯克印在青花瓷上
SDXL 1.0在操作上很便捷,直接輸入prompt即可,還能從下面勾選風格、尺寸參數等。
一次生成默認是出4張圖,如果不滿意還可以點下方“加號”讓它繼續畫。
官方介紹說,現在讓SDXL 1.0生成大作,無需再加入“杰作”這種提示詞了。
讓它生成一幅日漫風格的圖像,畫風非常貼合,而且在光影的處理上也更加自然了。
1990s anime low resolution screengrab couple walking away in street at night
或者是一幅風景照?也能以假亂真了。
甚至是讓馬斯克站在中式庭院里,抬頭斜望著天空……
Elon Musk in an ancient Chinese palace
或者是把蘋果收購了?
在「WWDC」上,他舉著全新款iPhone向人們展示,身邊還圍滿了記者和粉絲(doge)。
Elon Musk releasing new iPhone at WWDC
除了這些老馬的洋蔥新聞之外,繪畫風格的作品效果也不錯。
左邊的是齊白石水墨風格,而右邊是一幅漫畫。
左:Elon Musk delivering a speech, ink painting, Qi Baishi style
右:Elon Musk comic
除了繪畫,也可以把老馬放進我們的元青花。
Elon musk in the shape of Yuan Dynasty Blue and White Porcelain
上面展示的這些「老馬的故事」,用的prompt都比較簡單。
但從效果并沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。
不過我們還是想看看,如果用更加復雜精致的prompt,會是什么樣子?
我們找到了Midjourney創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新喂給MJ,讓它生成個prompt。
MJ生成了下面這樣的prompt,我們就用它來測試SDXL:
Elon Musk(這里MJ生成的是a man) standing in a workroom, in the style of industrial machinery aesthetics, deutscher werkbund, uniformly staged images, soviet, light indigo and dark bronze, new american color photography, detailed facial features
風格完全符合我們的預期,細節也還不錯。
再來一個復雜prompt的圖作為收尾,同樣是MJ根據此前的作品生成后喂給SDXL。
elon musk eating food with chopsticks, in the style of peter coulson, cross-processing/processed, pinhole photography, herb trimpe, james tissot, transavanguardia, spot metering
左邊是SDXL的作品,右邊是MJ的原版,大家可以對比一下。
提示詞同樣支持中文,不過似乎會在給出結果中傾向于國風,準確性可能也會受到影響。
比如輸入“一只老虎在海邊”后,意外給出了一個國風妹子。
效果大家都已經看到了,那么SDXL生成圖片的速度如何呢?
對于免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。
在5.5秒的時間內,排隊人數從160減少到了99。
除了生成圖像外,SDXL還提供了很多后期編輯功能。
具體來說,包括去除背景、細節處理、畫幅擴增等等。
這些功能是SDXL所在的Clipdrop平臺上已有的,而SDXL可以一鍵將生成的圖片傳入對應模塊。
這里我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什么破綻。
目前,SDXL的免費使用額度還是比較高的,登錄后每個賬戶每天可生成400張(需要排隊)。
月付的價格是9美元每月,年付則相當于7美元(約50元人民幣)每月,包含了1500張每天的SDXL額度,且無需排隊。
不過不同區域的價格似乎也有所區別,比如阿根廷的年付價格平攤到每月是742比索(約合19.4元人民幣或2.7美元)。
此外,由于付費版本實際上是Clipdrop平臺的Pro訂閱,所以也包含了該平臺的其他功能。
除了Pro賬戶,還有API版本可供開發者使用(可以訪問Stability AI、Amazon等平臺)。
開放圖像模型中的“最大杯”
在最新博客中,Stability AI介紹了SDXL 1.0的更多技術細節。
首先,模型在規模和架構上都有了新突破。
它創新性地使用了一個基礎模型(base model)+一個細化模型(refiner model)。
二者的參數規模分別為35億和66億。
這也使得SDXL 1.0成為目前規模最大的開放圖像模型之一。
Stability AI創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。
同時在SDXL 0.9版本還進行了RLHF強化。
這也是為什么現在SDXL 1.0支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。
在具體合成過程中,第一步,基礎模型產生有噪聲的latent,然后由細化模型進行去噪。
其中基礎模型也可以作為獨立模塊使用。
這兩種模型結合能生成質量更好的圖像,且不需要消耗更多計算資源。
官方介紹SDXL 1.0可以運行在8GB VRAM的消費級GPU上,或者是云端。
除此之外,SDXL 1.0在微調也有了提升,可以生成自定義LoRAs或者checkpoints。
Stability AI團隊現在也正在構建新一代可用于特定任務的結構、風格和組合控件,其中T2I/ControlNet專門用于SDXL。
不過目前這些功能還處于beta測試階段,后續可以關注官方更新。
總結來說,文生圖都是一個逐漸迭代的過程,SDXL 1.0的目標就是讓這個過程更加簡單。
莫斯塔克表示,現在只需要5-10張圖片,就能快速微調模型。
從用戶反饋中也能看到,相較于Stable Diffusion,SDXL 1.0更能讓大家滿意。
實際上,從今年4月以來,Stability AI就發布了SDXL最早的測試版。
6月份開始進行內測,前段時間發布了0.9版本,當時就預告了會在7月發布一個開放版本,即最新的1.0版本。目前相關代碼權重已經發布在GitHub上。
而且Stability AI機器學習負責人表示,相較于SDXL 0.9,1.0版本降低了對算力的需求。
感興趣的童鞋快去試玩吧~
試玩入口:https://clipdrop.co/stable-diffusion
GitHub:https://github.com/Stability-AI/generative-models