作者:王瑞平
51CTO讀者成長計劃社群招募,咨詢小助手(微信號:CTOjishuzhan)
Stability AI在AIGC領域頗有名氣,目前,最受歡迎的產品是其AI圖像生成工具Stable Diffusion,它可以通過用戶輸入的文本提示生成非常復雜的圖像。
針對將軟件開源的問題,Stability AI的首席執行官Emad Mostaque一再公開強調:“Stability AI的愿景是利用其開源模型作為起點,幫助企業利用其私有的、受監管的數據使用生成式AI。”
1、開源Stable Studio
5月17日,Stability AI在其網站上開源了一款名為Stable Studio的應用。據悉,這是公司首個由文本生成圖像的應用程序Dream Studio的開源版本,是面向消費者的。
此舉為公司在AI生成圖像領域開啟了新篇章,并展現出Stability AI致力于在AI生態系統中推進開源的決心。
首席執行官Emad Mostaque也在推特上發布了關于開源的消息:“這是Stability AI在過去幾個月里為引領開源人工智能熱潮所進行的最新舉措。我們將開展尖端的UI/UX研究,這樣就能共同努力,釋放出開源模型的創造力。”
據了解,Dream Studio一直是Stability AI新模型和功能的主要界面。而該應用程序最初被設定成將生成式人工智能功能帶給大眾的平臺。從那時起,它的用戶已經在社區里創建了數百萬張圖片。
由于一直以來Dream Studio具有良好的用戶反饋,公司認為需要進行開放的、社區驅動式的開發,而不是靠封閉源代碼產品進行私人迭代。
Stability AI也在官網上表示:“我們的目標是參與更廣泛的社區合作,并為生成式人工智能創建出世界級的用戶界面。我們的目標是培育可以超越任何公司的項目。”
2、塑造Stable Studio的未來
Dream Studio最初被設想打造成為Disco Diffusion的動畫工作室。
隨著穩定擴散技術在2022年夏天的到來,焦點被轉移至圖像生成層面,目標是為生成式AI創造偉大的多模式體驗。為此,公司將在接下來的Stable Studio項目中公布聊天界面。
從啟用本地優先開發到嘗試新的插件系統,團隊也一直在努力為外部開發人員提供可擴展的系統,計劃為改進和增添新功能創建獎勵。
總之,Stable Studio的發布重申了Stability AI對開源和透明化的承諾。
3、發布Stable SDK
在過去的一個月里,該公司還開源了其它工具和模型,包括:用文本生成動畫的工具Stable Animation SDK以及大型語言模型套件Stable LM。
Mostaque在推特上說:“我們的使命是為激活人類潛力奠定基礎,而模型是樂高積木。”
Stable Animation SDK是一款專為藝術家和開發人員設計的工具,可實現最先進的Stable Diffusion,以生成令人驚嘆的動畫。
用戶可以通過各種方式創建動畫,包括:通過提示(沒有圖像)、源圖像或源視頻。
隨著Stability AI的動畫端點,藝術家有能力使用所有Stable Diffusion模型生成動畫,包括:Stable Diffusion 2.0和Stable Diffusion XL。
創建動畫共有三種方式:
(1)文本到動畫:用戶輸入文本提示并調整各種參數以產生動畫。
(2)文本輸入+初始圖像輸入:用戶提供一個初始圖像,作為創建動畫的起點。文本提示符與圖像一起使用可以輸出最終的動畫。
(3)輸入視頻+文本:用戶提供一個初始視頻作為動畫創建的基礎。通過調整各種參數,他們可以獲得一個由文本提示符指導生成的最終動畫。
Stability SDK發布后,用戶可以使用Stable Diffusion創建動畫。結果很別致,計算成本很高,并且具有非常獨特的風格。
4、發布Stable Vicuna
世界上第一個RLHF LLM開源聊天機器人
最近幾個月,聊天機器人的開發和發布取得了重大進展。因此,通過調整聊天語言模型創造更好的用戶體驗成為了熱門話題。而開放訪問和開源替代品的出現進一步激發了這種興趣。
這些開源聊天模型的成功歸功于兩種訓練范式:指令微調和基于人類反饋的強化學習(RLHF)。雖然研究者已經能夠通過構建開源框架幫助訓練這類模型,但始終缺乏同時應用這兩種范式的開放訪問和開源模型。大多數模型都是在沒有RLHF訓練的情況下使用指令微調。
最近,Open Assistant、Anthropic和Stanford已經開始向公眾提供聊天RLHF數據集。這些數據集結合trlX提供的RLHF直接訓練,構建出RLHF模型的支柱:Stable Vicuna。
Stable Vicuna是第一個通過RLHF訓練的大型開源聊天機器人,能夠進一步進行指令微調,是一個指令微調的LLaMA 13b模型。
這里有一些基準測試,展示出Stable Vicuna與其它類似大小開源聊天機器人的整體性能。
為實現Stable Vicuna的強大性能,研究者以Vicuna為基礎模型,并遵循Steinnon等人和Ouyang等人提出的典型三級RLHF。具體來說,他們混合三個數據集,并使用監督微調進一步訓練基本模型:
(1)Open Assistant對話數據集(OASST1)是一個人工生成、人工注釋的助理式對話語料庫,包含161443條消息、7213個偏好樣本,分布在66497棵對話樹中,使用35種不同的語言。
(2)GPT-4 All Prompt Generations是由GPT-3.5 Turbo生成的437,605個提示和響應的數據集。
(3)Alpaca是一個由Open AI的text-davinci-003引擎生成的包含52,000條指令和演示的數據集。
最后,研究者使用trlX執行近端策略優化(PPO)強化學習,對SFT模型進行RLHF訓練,獲得Stable Vicuna。
你可以從HuggingFace Hub上獲得StableVicuna-13B。請注意,你還需要訪問原始LLaMA模型,這需要使用GitHub repo或鏈接單獨申請LLaMA權重。一旦你有了權重delta和LLaMA權重,就可以使用GitHub repo中提供的腳本來組合它們并獲得StableVicuna-13B。
這只是Stable Vicuna的開始!接下來的幾周內將對聊天機器人進行迭代并在Stable Foundation服務器上部署Discord機器人。目前,您可以在Hugging Face空間上試用該模型。
5、將開源信息帶到美國首都
近些天,Stability AI公布了它發給美國參議院隱私、技術和法律司法小組委員會領導人理查德·布盧門撒爾和喬希·霍利的書面評論。
在信中,Mostaque強調了5月4日向白宮發送的一項聲明。即,該公司將參與一項倡議,通過社區主導,測試評估大型人工智能模型。在這封信后還附上了一篇題為“提升人工智能開放模型透明度的重要性:對美國人工智能監管的思考”的論文。
“我們鼓勵小組委員會大力促進人工智能的開放性,”Mostaque在信中說。“這些技術將成為數字經濟的支柱,公眾能夠監督它們的發展至關重要。開放模型和開放數據集將有助于提升安全性、促進競爭并確保美國在提升人工智能關鍵能力方面保持戰略領先地位。”
參考資料:
Latest moves show Stability AI is fully committed to open source — well, mostly