性能秒殺SD3、DALL·E-3,開源文生圖模型殺出大黑馬 精華
昨天Midjourney剛進行大更新,今天文生圖片開源領域就殺出了一匹大黑馬—FLUX.1。
根據其測試數據顯示,性能大幅度超過了DALL·E-3、Midjourney V6閉源模型,開源SD3系列的Ultra、Medium、Turbo和SDXL被全線秒殺。
并且FLUX.1表示,文生圖只是一個開始,未來還會推出文生視頻模型想和Sora、Gen-3、Luma等一線產品過過招。
開源地址:https://github.com/black-forest-labs/flux
在線demo:https://replicate.com/black-forest-labs/flux-pro
出道即巔峰專找最硬的打,有點喬峰橫掃聚賢莊的意思。原來剛成立的FLUX.1的創始人是老熟人Robin Rombach。
Robin是擴散模型領域的權威之一,其代表作有VQGAN、 Taming Transformers 和Latent Diffusion。
后來,Stability AI收購了Robin的Latent Diffusion模型,并聘請他成為首席科學家,期間他領導了全球著名文生圖開源項目Stable Diffusion系列,這也是全球下載最多、使用最廣的開源大模型之一。
今年3月末,Stability AI因資金、運營等問題鬧“兵變”,聯合創始人被罷免,而Robin也選擇了離開。
在沉寂了4個月的時間,Robin成立了新的開源大模型平臺FLUX.1,并且已經獲得了Andreessen Horowitz領投的3100萬美元種子輪。估計以后還會獲得大金額融資。
FLUX.1的基礎架構是基于Vision Transformer,使用了流程匹配訓練方法,同時使用了旋轉位置嵌入和并行注意層來提高模型的性能和硬件利用效率。
FLUX.1有120億參數,本次一共發布了三個版本:1)Pro版,通過API使用;2)dev版,這是一個非商用的指導蒸餾模型,繼承了Pro版多數性能;3)schnell版,可以商用的開源模型。
雖然FLUX.1有三個版本,但在文本語義還原、圖片質量、動作一致性/連貫性、多樣性等方面超過了Midjourney v6.0、DALL·E 3 、SD3-Ultra等主流開閉源模型,整體性能非常強勁。此外,在文本嵌入圖片方面也比這些模型表現的更好。
以下是FLUX.1模型生成的圖片展示。
在一個凌亂的小臥室的墻上,有一個通往魔幻森林的大門。
一張舊教室里黑板的照片。黑板上用粉筆寫著“讓我們一起做一些非常漂亮的東西”,詞后有一個紅色的粉筆心,陽光從窗戶照進來。
水下場景中,兩只貓頭鷹坐在一張精美的餐桌旁,餐桌中央點燃了蠟燭,兩只貓頭鷹正在一起享用一頓美味的晚餐。左邊的貓頭鷹穿著燕尾服,右邊的貓頭鷹穿著漂亮的裙子。
背景中有一艘潛艇駛過,其側面畫著“What a Hoot”字樣。桌子下面的圖像底部有小水母在游動,電影般美麗的數字藝術品。
兩只穿著維多利亞服裝的可愛蜘蛛正在舉辦一個微型茶會,葉子上有一張小桌子和茶壺。
一位女足球運動員,穿著一件阿迪達斯的球衣,周圍是其他運動員模糊效果。
一位三十多歲出頭的女子在八角形木制舞池中央彈奏手風琴,舞池有一個木制屋頂,周圍是成對跳舞的舞者。
一個超級巨大的黑森林蛋糕,大小如一棟建筑,周圍環繞著黑森林的樹木。
一個穿著紅衣斗篷的超人,在浩瀚、多彩的宇宙中飛行。
很多人都非常看好這個新模型。
一次性發布三個模型,確實讓人興奮。
這V1版本剛發布,就已經有人期待V2版本了。
怎么樣,FLUX.1生成的圖片質量、細節和光影效果還行吧,期待一下他的文生視頻模型。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
