終于來啦!Stable Diffusion 3將在6月12日正式開源 精華
6月3日晚,著名開源大模型平臺Stability AI的聯合首席執行官Christian Laforte,在AMD的產品發布會上宣布,文生圖模型 Stable Diffusion 3將于6月12日在Hugging Face開源權重。
本次開源的是Stable Diffusion 3的Medium模型,有20億參數,在照片真實感、樣式、圖片質量、算力資源消耗等方面都進行了大幅度優化,將比前兩代更好。
同時Stable Diffusion 3也是對標閉源文生圖產品Midjourney、DALL·E 3的最佳模型之一,該系列已經被全球數百萬開發者使用,很多文生視頻/3D模型也借鑒了該架構。
今年2月22日,Stability AI首次預覽了Stable Diffusion 3,其逼真的圖片質量、更好的文本語義理解與文字嵌入,使得全球開發者們對這個模型相當期待。
但在3月23日,Stability AI的首席執行官Emad Mostaque被辭退,隨后又爆出財務危機正在尋求買家等不少負面新聞,大家開始擔心Stable Diffusion 3的開源還能否順利進行。
好在Stability AI都挺過來了,而此時其新上任的聯合首席執行官在AMD的產品發布會宣布這個事情,估計已經獲得了AMD的贊助還很可能被全資收購。
與英偉達相比,AMD在大模型、生成式AI的部署、開發等方面略處于落后,Stability AI開源的大語言模型、擴散模型等的下載量合計超過千萬級別,拿下它等同于收獲了一大批開發者。
Stable Diffusion 3架構簡單介紹
?
根據Stable Diffusion 3論文顯示,使用了與Sora相同的架構Diffusion Transformer。
Diffusion模型作為生成模型的一種,主要通過數據到噪聲的逆過程來創造新的數據點。這種方法在圖像和視頻生成方面應用非常廣泛。
但是隨著Diffusion不斷迭代,預訓練、推理對算力需求呈指數級增長,對于中小企業、個人開發者來說非常不友好。
所以,在Diffusion基礎之上又融合了大模型界非常知名的Transformer架構,通過獨立的權重處理圖像和文本模態,并實現了這兩種模態之間的雙向信息流。
Diffusion Transformer架構引入新的噪聲采樣技術,改進了訓練Rectified Flow模型的方法。通過偏向感知上相關的尺度,提高了訓練的效率和性能。
該架構采用了模擬無關的流訓練方法,直接回歸一個向量場,用于生成數據分布和噪聲分布之間的概率路徑,有效避免了求解常微分方程所帶來的超高算力成本,同時也極大增強了文本語義理解、文字嵌入和圖片樣式等。
Stable Diffusion 3生成展示
?
其實在Stability AI發布預覽版時,已經公布了一大批Stable Diffusion 3生成的圖片,基本上與Midjourney、DALL·E 3這兩款知名產品差不多。
例如,教室里,黑板上用白色粉筆寫著 "GPUs go brrmr",這是一個肯定而幽默的場景。黑板前,一群學生正在慶祝。這些學生被獨特地描繪成鱷梨,長著小胳膊小腿,臉上洋溢著喜悅和興奮的表情。
這個場景捕捉到了一種充滿童趣和想象力的氛圍,將傳統教室的概念與牛油果學生的奇特形象融為一體。
一只半透明的豬,里面是一只更小的豬。
一只青蛙坐在20世紀50年代的快餐廳里,穿著皮夾克,戴著禮帽。桌子上有一個巨大的漢堡和一個寫著“Froggy Fridays”的牌子。
一只巨大、威嚴的白色巨龍,它有多個角和類似須的觸角,翱翔在崎嶇的山脈景觀之上。
這條龍有著明亮的橙色眼睛,似乎在清澈的藍天下飛翔在蓬松的白云之間。周圍有尖銳的積雪覆蓋的山峰,以及一座類似古代寺廟或塔樓的小建筑。
目前,Stable Diffusion 3 Medium模型只能用于學術研究無法商業化。如果在正式開源后,想商業化的開發者可以聯系Stability AI。
想使用Stable Diffusion 3 Turbo和其他版本的需要開通Stability AI的會員。
申請地址:https://stability.ai/stablediffusion3
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
