Flux:Midjourney的新圖像模型挑戰者 原創
Black Forest Labs是一家由前Stability.ai開發人員創立的AI初創公司,旨在為圖像和視頻創建尖端的生成式 AI 模型。這家初創公司聲稱,其第一個模型系列Flux.1為文本到圖像的生成設定新的標準。
Black Forest Labs總部位于德國弗萊堡,由AI研究人員和開發人員組成,他們曾在Stability.ai從事Stable Diffusion和其他生成式 AI 模型的工作。團隊在今年春季從Stability.ai離開,到目前為止已經籌集了3100萬美元的種子資金。本輪融資由Andreessen Horowitz領投,天使投資人包括Brendan Iribe、Michael Ovitz、Garry Tan、Timo Aila和Vladlen Koltun。General Catalyst 和 M?tchVC 也進行了投資。這家初創公司的創始人過往有令人印象深刻的成就,在VQGAN、潛在擴散、穩定擴散XL、穩定視頻擴散等領域的創新做出貢獻。
Black Forest Labs發布了Flux.1文本到圖像的生成模型套件。這些模型“在圖像細節、提示一致性、風格多樣性和場景的復雜性方面都達到了最新的水準”。從語言中可以看出這家公司對于領頭羊的位置信心十足。Flux迄今為止最大的SOTA開源文本到圖像模型,由Black Forest Labs開發,Flux 以令人印象深刻的12B參數突破了創造力和性能的界限。
例如輸入“一個戴著墨鏡、身穿夏威夷襯衫的大土豆躺在沙灘巾上,周圍環繞著色彩繽紛的沙灘球和人字拖。附近水果在打沙灘排球。在背景中,一座燈塔沙雕矗立在一輛帶有巨大圓錐體的冰淇淋車旁邊,為快樂的海灘游客提供美食。這個場景捕捉到了有趣、俏皮的夏日氛圍,附近有海浪拍打的聲音?!?/p>
所有 Flux.1 型號都支持多種縱橫比和分辨率,范圍從 0.1 到 2.0 百萬像素。根據Black Forest Labs的數據,Flux.1 [pro]和[dev]在視覺質量、提示跟蹤、大小/寬高比可變性、排版和輸出多功能性方面優于Midjourney v6.0、DALL-E 3 (HD)和SD3-Ultra等流行型號。
Flux.1 [schnell](意為“快速”)被“吹捧”為最先進的快速模型,性能優于同類競爭對手,甚至優于一些非蒸餾模型,如 Midjourney。<小編試了一下,它對于細節的捕獲還是很贊的,可能受限于訓練樣本,有些單詞它沒有辦法很直接的聯想和生成。比如輸入一個卡通的小孩參加2024年的巴黎奧運會,下圖為輸出產物。>
目前,Flux.1 有三種變體:
- Flux.1 [pro]這是一款旗艦型號,旨在提供最先進的性能以及卓越的圖像質量、細節和多樣性。它非常適合需要頂級結果的專業應用,可是通過fal.ai進行商業使用。
- Flux.1 [dev] FLUX.1 [dev] 是pro 型的蒸餾變體?<鏈接回放>,可用于非商業用途。它提供相似的質量和響應能力,是研究和開發的理想選擇。
- Flux.1 [schnell]該模型針對速度進行了優化,非常適合本地開發和個人項目。它遵從Apache 2.0的許可,確保了開發的易訪問性和靈活性。?
