ComfyUI Party:將LLM與圖片工作流集成,圖片、語音、文本、視覺一體!(graphRAG、ollama)
Hi,這里是Aitrainee,歡迎閱讀本期新文章。
我們正在使用一些Agent平臺如FastGPT和Dify,他們注重于快速生成文本內容,知識庫問答,提供自定義能力和與現有系統的集成性。
同時,在AI繪畫方面,我們原來使用SD,后來使用ComfyUI。雖然ComfyUI被廣泛用于將文本轉化為圖像(文生圖),但它實際上是一種生成式AI內容(AIGC)的工具,其功能不僅限于此。它還能夠處理文本生成(文生文),因此可以實現多種內容的生成。
Dify中也有提供ComfyUI的集成工具,他是調用Comfy UI的服務。
所以,今天我們介紹ComfyUI LLM Party
這個工具挺酷的,他專注于LLM集成進ComfyUI里面。旨在基于comfyui作為前端,開發一套完整的LLM工作流構建節點,讓用戶可以快速便捷地構建自己的LLM工作流,并輕松集成到現有的圖片工作流中。
該插件在 ComfyUI 中支持絕大多數大語言模型,兼容 OpenAI 格式的 API 調用,并結合 OneAPI 調用幾乎所有 LLM API。支持的模型包括通義千問、智譜清言、DeepSeek 和 Kimi。
額外功能有:支持 Ollama 本地模型,模型鏈節點選項(LLM、VLM-GGUF、LLM-GGUF),以及 VLM 模型的圖像識別和提示詞反推。
實用工具包括 OpenAI 語音識別與合成、Markdown 轉 HTML、HTML 轉圖片,以及通過飛書機器人發送消息到多個平臺。
項目愿景:
1、從最基礎的 LLM 多工具調用、角色設定快速搭建自己的專屬AI助手、到可以行業落地的詞向量RAG、GraphRAG來本地化的管理行業內知識庫;
2、從單一的智能體流水線,到復雜的智能體與智能體輻射狀交互模式、環形交互模式的構建;
3、從個人用戶需要的接入自己的社交APP(QQ、飛書、Discord),到流媒體工作者需要的一站式LLM+TTS+ComfyUI工作流;
4、從普通學生所需要的第一個LLM應用的簡單上手起步,到科研工作者們常用的各類參數調試接口,模型適配。
挺酷的,我們圖片生成的工作流,一定有許多地方可以和視覺、語音LLM結合,比如:
上下文增強:通過LLM獲取用戶的意圖和上下文,優化生成過程,使生成的圖像更符合用戶需求。
圖像描述生成:使用視覺模型分析生成的圖像并自動生成描述,幫助用戶理解圖像內容,適用于無障礙應用。
又如官方所說的:
您可以將任何 ComfyUI 工作流封裝到 LLM 工具節點中。您可以讓您的 LLM 同時控制多個 ComfyUI 工作流。當您希望它完成某些任務時,它可以根據您的提示選擇合適的 ComfyUI 工作流,完成您的任務,并將結果返回給您。
“您的提示選擇合適的 ComfyUI 工作流”,這在我們Fastgpt、Coze或者Dify 中稱為:問題分類或意圖識別。
還有一些其他的,比如ComfyUI + GraphRAG,這些就是單純使用ComfyUI前端實現GraphRAG。
總之,節點式工作流本身就是千變萬化的,給ComfyUI引入LLM的支持,會讓它更加適合千變萬化的場景,創建更多復雜有趣的應用。
看看模型支持部分,基本上再配合One-API,市面上的模型都能支持,生產場景建議使用VLLM做模型加速部署,以API形式接入,而不是直接Hugging Face加載下載的模型,多說一句,ollama也不如Vllm,前者多卡部署大模型如70B的,推理會很慢,生成環境下基本不行。
這個項目包羅萬象,一直在兼容各種東西的路上,簡單的項目描述也要寫上許多字才能盡善盡美。
部署方面總共兩步吧
方法一下載較方便,可在ComfyUI中直接安裝該插件,之后環境部署就是給你的ComfyUI再添加一些這個插件需要的環境。
快速開始
從教程上來看,上手并不難,但是實際上因為它覆蓋的東西非常多,你需要深入的話,相應的你需要掌握很多東西,比如一些搜索引擎啊 searxng、neo4j KG、graphRAG、各種LLM的格式、llama.cpp 啊(這些我都弄過,往期文章有,但不全,有一些并沒有去寫)
具體你可以參考官方介紹。
本文轉載自 ??AI進修生??,作者: Aitrainee
