這個模型，讓前特斯拉AI總監Andrej Karpathy沉迷了整整三天！

作者：新智元 2022-08-21 21:15:28

8月10日，一個名為Stable Diffusion的開源模型正式發布，眾網友都玩瘋了。

最近，一個叫Xander Steenbrugge的AI研究員兼數碼藝術家，上傳了一段非常震撼的視頻《跨越時間之旅》。

地球上的生物大進化，從原始海洋起始，到遠古蜥蜴、恐龍、哺乳動物，再到猴子、猩猩、猿人、智人……最后出現了科幻中的未來世界。

而Steenbrugge也激動地評論道：我們正在跨越一個門檻，生成式人工智能不再只是關于新穎的美學，而是演變成了一個驚人的工具，可以構建強大的、以人為中心的敘事。Steenbrugge表示，這個視頻用了36個連續的短語。為了找到可能的最佳順序，他嘗試了超過一千種不同的提示和種子，并在代碼中應用了許多「提示工程」的技巧，來弄清楚到底哪些是有效的，哪些是無效的。

前特斯拉AI高級總監Andrej Karpathy看完后大受震撼，也忍不住手癢嘗試了一波。

「超現實的蒸汽朋克神經網絡機器，呈大腦形狀，放置在一個基座上，上面布滿了齒輪制成的神經元」，在輸入這段文字后，他的大作也生成了。

2分鐘的視頻（在A100上渲染約1小時），是通過在隨機噪聲輸入的模型之間平滑插值生成的。

這個名為Stable Diffusion的模型，采用的是在兩個句子的意義之間「插值」的方式。插入的地方是語義的間隔，而不是視覺的空格，因此，它極大地改變了故事敘述的方式。

而這，僅僅是由生成式人工智能驅動的數字內容創作革命的開始。

?Stable Diffusion：開源模型的里程碑

從2021年初以來，可以從文本描述生成圖像的人工智能一直在快速發展。當時，OpenAI用DALL-E 1和CLIP展示了令人印象深刻的結果。

在2022年，OpenAI發布了令人印象深刻的DALL-E 2，谷歌展示了Imagen和Parti，Midjourney推出了公測版，Craiyon創作的AI圖像也遍布各種社交媒體。

而就現在最近，Stability AI又發布了一個全新的模型——Stable Diffusion。

不過，與DALL-E 2不同的是，Stable Diffusion可以生成OpenAI禁止的各種知名人士。

雖然像是Midjourney、Pixelz.ai等等這些系統也可以做到，但它們生成的質量，還遠沒有達到能與Stable Diffusion相媲美的程度，而且還都不是開源的。

現在有請我們的老朋友馬斯克，表演一個秒變「黑寡婦」（斯嘉麗·約翰遜）。

顯然，作為主要開發者的Stability AI，希望不止一家公司或團隊能夠訓練Stable Diffusion的變體。

比如，你是一個沒有海量的GPU算力的研究人員。不用擔心，Stable Diffusion即將能夠在一塊僅有5.1GB VRAM的顯卡上運行。

再比如，你是一個平時使用配備蘋果M1芯片的MacBook的愛好者，Stable Diffusion也可以運行。只不過，這時圖像生成的時間就要從幾秒鐘變成幾分鐘了。

如此看來，多模態模型正沿著以前大型語言模型所走的道路前進：遠離單一的供應商，并通過開放源碼廣泛提供眾多的替代方案。

此外，Runway已經在研究如何基于Stable Diffusion來實現文本到視頻的編輯了。

一句話，讓網球場變沙灘；

不管電閃雷鳴，還是風和日麗；

不管是在月球，還是在火星之上；

都無法阻止我打網球……

用計算來加速基礎AI的開源

在測試階段之后，Stable Diffusion就會免費，代碼和經過訓練的模型將作為開源發布。還將有一個帶有Web界面的托管版本，供用戶測試系統。

Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 的研究人員合作的結果。EleutherAI以其開源語言模型GPT-J-6B 和GPT-NeoX-20B等而聞名。

非營利組織 LAION（大規模人工智能開放網絡）為訓練數據提供了開源LAION 5B數據集，該團隊在初始測試階段根據人工反饋對其進行過濾，以創建最終的LAION-Aesthetics訓練數據集。

Runway的Patrick Esser和LMU 慕尼黑的Robin Rombach領導了這個項目，他們在海德堡大學 CompVis小組的研究奠定了這個項目的基礎。在海德堡大學，他們創建了廣泛使用的VQGAN和Latent Diffusion。這兩個模型再加上OpenAI和Google Brain的成果，使Stable Diffusion得以實現。

Stability AI成立于2020年，背后的出資人是數學家、計算機科學家Emad Mostaque。他曾在各種對沖基金擔任分析師。

憑借Stability AI和他的私人財富，Mostaque希望能夠培育一個開源AI研究社區。他的創業公司之前就支持創建「LAION 5B」數據集。為了訓練Stable Diffusion的模型，Stability AI為服務器提供了4,000個Nvidia A100 GPU。

「除了我們的75名員工之外，沒有任何其他人擁有決策權——無論是億萬富翁、大型基金，還是政府，我們是完全獨立的。」Mostaque說。「我們計劃使用我們的計算來加速基礎人工智能的開源。」