生圖效果媲美GPT-4o,一鍵搞定各類視覺生成任務丨港科廣&字節全新框架
圖像生成、視頻創作、照片精修需要找不同的模型完成也太太太太太麻煩了。
有沒有這樣一個“AI創作大師”,你只需要用一句話描述腦海中的靈感,它就能自動為你搭建流程、選擇工具、反復修改,最終交付高質量的視覺作品呢?
這一切,現在通過一個由港科大(廣州)和字節聯合出品的全新的開源框架——ComfyMind實現了。
ComfyMind是一個通用視覺生成框架,它旨在用一套系統,統一處理從文本到圖像、從圖像到視頻等所有主流視覺生成任務。
在多個行業基準測試中,ComfyMind的性能全面超越現有開源方法,達到了與閉源的GPT-4o-Image相媲美的水平。
從“手工作坊”到“智能工廠”
無論是讓棱鏡散射出物理精確的彩虹,還是給蛋糕切上一塊,甚至將一個Logo無縫融入產品,ComfyMind都能輕松勝任。
來看看效果。
結合光學知識,生成一張玻璃棱鏡的光散射的圖像:
給一張蛋糕的圖像,將給定蛋糕切角:
給一張Logo圖像,將Logo嵌入杯子:
生成一個長度為8秒的海邊燃燒的篝火的視頻:
雖然視覺生成模型突飛猛進,但真正能“一套系統包打所有任務”的開源框架依舊脆弱,難以支撐真實生產訴求;
相對地,閉源GPT-Image-1(即GPT-4o-Image)雖效果出眾,卻無法被社區自由擴展或調優。
ComfyUI的節點式設計為“可視化、模塊化”奠定了基礎,理論上任何任務都能通過組合節點完成;
然而,當工作流跨越多模態、多階段時,手工搭建不僅耗時費力,更對專業知識要求極高,成為創作的門檻。
ComfyAgent等LLM-驅動方案已經開始嘗試自動生成工作流,但它們依賴扁平JSON 解碼,既難以表達模塊層級,又缺乏執行端反饋,導致節點缺漏與語義漂移。
人類藝術家在構建復雜流程時,會先拆解任務,再局部試錯、局部修正。
借鑒這一策略,該團隊提出ComfyMind:以“原子工作流”為最小單位,以自然語言描述接口,結合樹狀規劃加局部反饋執行,將視覺內容創作轉化為分層決策問題,從而在保持靈活性的同時,顯著提升穩健性與擴展性。
給Comfyui裝上大腦,會規劃,更會“返工”
上圖展示了ComfyMind系統pipeline。
整體架構:“ComfyUI × 多代理協同”
ComfyMind將ComfyUI僅視為底層執行引擎:所有高層決策由規劃-執行-評估三代理協作完成。
規劃代理自頂向下拆解任務;
執行代理把每一步映射成JSON工作流并結合ComfyUI進行具體生成;
評估代理在生成流程結束時使用VLM判定生成質量與指令一致性,并把診斷信息返回給上一層級。
語義工作流接口:把節點圖“函數化”
論文提出的語義工作流接口將社區驗證的T2I、I2V、Mask生成等模板封裝為“原子工作流”,并以自然語言標注其功能和必選/可選參數。
規劃代理因此能夠在純語義空間像調用高階函數那樣組合模塊,無需接觸易錯的JSON語法,徹底消除“漏節點”“拼接錯誤”等結構性故障。
所有SWI描述集中于單一文檔直接注入LLM上下文,擺脫對3200+節點檢索數據集的依賴,實現零-RAG的快速擴展能力。
樹狀規劃+局部反饋:「分塊-修補」策略
復雜指令被遞歸拆分為子目標,形成 語義搜索樹;每個節點代表局部規劃,邊對應一次SWI調用。
系統在節點處僅執行鏈首函數并即時評估——若失敗,錯誤與重規劃被限制在當前層級,已通過的分支原地保留,避免全鏈重跑與策略振蕩。
全面的性能評估,在三大基準對比
ComfyBench自動工作流構建
ComfyMind在ComfyBench全難度任務上取得100%的通過率,消除JSON級失敗。
同時,將問題解決率在Vanilla、Complex、Creative難度上分別較ComfyAgent提升100%、292%和283%,凸顯多代理-ComfyUI體系在通用生成與編輯任務上的卓越泛化能力與輸出質量。
Geneval文生圖
在GenEval中,ComfyMind獲得0.90總分,較開源基線SD3與Janus-Pro-7B分別領先0.16和0.10,并在六大維度中的五項及總體成績超越GPT-Image-1。
定性對比進一步顯示,在各類約束下,本系統同時滿足了指令并生成視覺連貫的高質量圖像。
Reason-Edit圖像編輯
在Reason-Edit基準上,ComfyMind以0.906的GPT-score較前開源SOTA SmartEdit提升+0.334,并接近GPT-Image-1(0.929)。
定性對比亦表明,ComfyMind相較于在精準完成復雜編輯指令的同時還保持了非編輯區域的細節與風格一致。
而GPT-Image-1常出現紋理丟失、色調漂移或比例失真等瑕疵。
總結
論文提出了基于ComfyUI平臺構建的全新框架ComfyMind。
ComfyMind將視覺內容創建概念化為一個模塊化、語義結構化的規劃流程,并將基于樹的規劃與局部反饋執行相結合。
ComfyMind框架性能超越了之前的開源方法,并取得了與GPT-Image-1相當的結果。
相關論文,在線Demo, 代碼,項目主頁等均已公開公布。
感興趣的小伙伴可以進一步體驗和探索。
論文鏈接: https://arxiv.org/abs/2505.17908
項目主頁鏈接: https://litaoguo.github.io/ComfyMind.github.io/
在線Demo鏈接: https://envision-research.hkust-gz.edu.cn/ComfyMind/