大模型之視頻圖像生成之工作流——ComfyUI和AI煉丹師 原創
“ 工作流既是對大模型技術的補充,又是大模型市場化的一個重要方向 ”
作為學習人工智能技術的人來說,工作流應該是一個耳熟能詳的技術,由于大模型的短板原因(邏輯推理,幻覺,知識不足等問題),導致大模型在實際應用中存在很多問題。
而又為了讓大模型能夠解決現實中工作與生活中的問題,技術人員就想了一個辦法,利用工作流結合大模型來完成任務,比如字節旗下的coze扣子平臺。
而今天我們要介紹的是基于SD(Stable Diffusion)擴散模型開發的工作流組件,與其對應的還有WebUI。
什么是ComfyUI,它有什么用?
ComfyUI 是一個開源項目,主要用于構建和可視化機器學習工作流程,特別是在圖像生成領域中非常受歡迎。它為用戶提供了一個基于節點的界面,使用戶能夠通過連接不同的功能節點來創建復雜的圖像生成任務。這些節點代表了圖像處理的不同步驟,比如文本到圖像的轉換、圖像到圖像的變換等。
在傳統的AIGC領域中,AIGC通常被用來生成文字,圖片和視頻,在之前的文章中也講到過關于AIGC方面的內容。
而AIGC面臨主要面臨的是什么問題?
AIGC面臨的主要問題其實是小眾領域,比如大模型在一些公眾領域表現良好,比如二次元,古風這些知名度比較高的領域;但如果讓AIGC生成一個抓泥鰍的視頻可能就沒那么好了。
原因是什么?
原因就是之前說的,大模型在垂直領域表現不佳,不論是AIGC,還是知識庫亦或者是Agent都面臨著這樣的問題。
怎么解決這種問題?
解決這種問題最好的方式就是重新設計與訓練一個垂直領域的大模型,但這種情況成本太高;而退而求其次,就是對大模型進行微調,但同樣的微調對很多小微企業也是不可接受的,不論是從成本角度還是從技術角度。
那么為什么要用工作流呢?
在當今訓練和微調大模型成本高居不下的情況下,訓練和微調一個大模型的成本實在是太高了,對絕大部分企業來說都得不償失。
而工作流的出現,在某些方面替代了大模型的微調功能;所謂的工作流,就是把任務拆分成一個一個的字節點,通過多個節點的配合達到最終目的。
而工作流在其中扮演著什么角色呢?
比如說讓大模型幫我生成一個美女跳舞的視頻,然后有多種風格可以選擇;而大模型直接輸出的結果可能不盡人意。
這時工作流的作用就體現了,比如說工作流由多個節點組成,第一個節點幫我生成一個美女跳舞的視頻;第二個節點,幫我在之前視頻的基礎上,生成一個古風的跳舞視頻;亦或者生成一個二次元的視頻。
這時通過工作流的方式,就可以把一個任務拆分成多個任務,這時就相當于給了大模型“思考”的時間,這時大模型的表現自然就會更好。
從事這種設計工作流輔助大模型進行任務處理的人員,就叫做AI煉丹師;它們的任務就是根據需求,設計不同的工作流,讓大模型用更小的成本,處理更復雜的任務。
本文轉載自公眾號AI探索時代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/kqdiDYuY8rmdFsFml5t6Uw??
