這個模型,讓前特斯拉AI總監Andrej Karpathy沉迷了整整三天!
最近,一個叫Xander Steenbrugge的AI研究員兼數碼藝術家,上傳了一段非常震撼的視頻《跨越時間之旅》。
地球上的生物大進化,從原始海洋起始,到遠古蜥蜴、恐龍、哺乳動物,再到猴子、猩猩、猿人、智人……最后出現了科幻中的未來世界。
而Steenbrugge也激動地評論道:我們正在跨越一個門檻,生成式人工智能不再只是關于新穎的美學,而是演變成了一個驚人的工具,可以構建強大的、以人為中心的敘事。Steenbrugge表示,這個視頻用了36個連續的短語。為了找到可能的最佳順序,他嘗試了超過一千種不同的提示和種子,并在代碼中應用了許多「提示工程」的技巧,來弄清楚到底哪些是有效的,哪些是無效的。
前特斯拉AI高級總監Andrej Karpathy看完后大受震撼,也忍不住手癢嘗試了一波。
「超現實的蒸汽朋克神經網絡機器,呈大腦形狀,放置在一個基座上,上面布滿了齒輪制成的神經元」,在輸入這段文字后,他的大作也生成了。
2分鐘的視頻(在A100上渲染約1小時),是通過在隨機噪聲輸入的模型之間平滑插值生成的。
這個名為Stable Diffusion的模型,采用的是在兩個句子的意義之間「插值」的方式。插入的地方是語義的間隔,而不是視覺的空格,因此,它極大地改變了故事敘述的方式。
而這,僅僅是由生成式人工智能驅動的數字內容創作革命的開始。
?Stable Diffusion:開源模型的里程碑
從2021年初以來,可以從文本描述生成圖像的人工智能一直在快速發展。當時,OpenAI用DALL-E 1和CLIP展示了令人印象深刻的結果。
在2022年,OpenAI發布了令人印象深刻的DALL-E 2,谷歌展示了Imagen和Parti,Midjourney推出了公測版,Craiyon創作的AI圖像也遍布各種社交媒體。
而就現在最近,Stability AI又發布了一個全新的模型——Stable Diffusion。
不過,與DALL-E 2不同的是,Stable Diffusion可以生成OpenAI禁止的各種知名人士。
雖然像是Midjourney、Pixelz.ai等等這些系統也可以做到,但它們生成的質量,還遠沒有達到能與Stable Diffusion相媲美的程度,而且還都不是開源的。
現在有請我們的老朋友馬斯克,表演一個秒變「黑寡婦」(斯嘉麗·約翰遜)。
顯然,作為主要開發者的Stability AI,希望不止一家公司或團隊能夠訓練Stable Diffusion的變體。
比如,你是一個沒有海量的GPU算力的研究人員。不用擔心,Stable Diffusion即將能夠在一塊僅有5.1GB VRAM的顯卡上運行。
再比如,你是一個平時使用配備蘋果M1芯片的MacBook的愛好者,Stable Diffusion也可以運行。只不過,這時圖像生成的時間就要從幾秒鐘變成幾分鐘了。
如此看來,多模態模型正沿著以前大型語言模型所走的道路前進:遠離單一的供應商,并通過開放源碼廣泛提供眾多的替代方案。
此外,Runway已經在研究如何基于Stable Diffusion來實現文本到視頻的編輯了。
一句話,讓網球場變沙灘;
不管電閃雷鳴,還是風和日麗;
不管是在月球,還是在火星之上;
都無法阻止我打網球……
用計算來加速基礎AI的開源
在測試階段之后,Stable Diffusion就會免費,代碼和經過訓練的模型將作為開源發布。還將有一個帶有Web界面的托管版本,供用戶測試系統。
Stable Diffusion 是 Stability AI、RunwayML、LMU Munich、EleutherAI 和 LAION 的研究人員合作的結果。EleutherAI以其開源語言模型GPT-J-6B 和GPT-NeoX-20B等而聞名。
非營利組織 LAION(大規模人工智能開放網絡)為訓練數據提供了開源LAION 5B數據集,該團隊在初始測試階段根據人工反饋對其進行過濾,以創建最終的LAION-Aesthetics訓練數據集。
Runway的Patrick Esser和LMU 慕尼黑的Robin Rombach領導了這個項目,他們在海德堡大學 CompVis小組的研究奠定了這個項目的基礎。在海德堡大學,他們創建了廣泛使用的VQGAN和Latent Diffusion。這兩個模型再加上OpenAI和Google Brain的成果,使Stable Diffusion得以實現。
Stability AI成立于2020年,背后的出資人是數學家、計算機科學家Emad Mostaque。他曾在各種對沖基金擔任分析師。
憑借Stability AI和他的私人財富,Mostaque希望能夠培育一個開源AI研究社區。他的創業公司之前就支持創建「LAION 5B」數據集。為了訓練Stable Diffusion的模型,Stability AI為服務器提供了4,000個Nvidia A100 GPU。
「除了我們的75名員工之外,沒有任何其他人擁有決策權——無論是億萬富翁、大型基金,還是政府,我們是完全獨立的。」Mostaque說。「我們計劃使用我們的計算來加速基礎人工智能的開源。」
網友都玩兒瘋了
除了開頭地兩段視頻,也有網友用Stable Diffusion生成一段衰老的動畫。
他表示,制作過程中在長提示中改變一個詞,比在短提示中有更微妙的效果。此外,使用描述,如老,中年,幼兒,通常比說明具體的年齡,如10歲,40歲,80歲效果更好。
此外,還有各種夢幻的靜態圖片。
「情人」
「獅子」
Leyendecker和Maxence筆下的「黑魂」
「賽博京劇」
彩蛋
感受一下特斯拉的前人工智能和自動駕駛視覺總監Andrej Karpathy被虐的心路歷程。
看完大神制作的視頻之后,Karpathy非常激動。
然后一波操作搞出來的成果,放進幼兒園小班里都毫無違和感。絕望的Karpathy直呼想要請一位「提示工程師」替自己創作。最后Karpathy終于悟了,創作出了他非常滿意的新作——蒸汽朋克人工神經網絡機器,和藍莓意大利面。