騰訊混元發布開源加速庫,生圖時間縮短75%
6月6日,騰訊發布針對騰訊混元文生圖開源大模型(以下簡稱為混元DiT模型)的加速庫,讓推理效率大幅提升,生圖時間縮短75%。
混元DiT模型的使用門檻也大幅降低。用戶可以基于ComfyUI的圖形化界面,使用騰訊混元文生圖模型能力。同時,混元DiT模型已經部署至Hugging Face Diffusers通用模型庫中,用戶僅用三行代碼即可調用混元DiT模型,無需下載原始代碼庫。
此前,騰訊宣布旗下的混元文生圖大模型全面升級并對外開源,可供企業與個人開發者免費商用。這是業內首個中文原生的DiT架構文生圖開源模型,支持中英文雙語輸入及理解;采用了與 sora 一致的DiT架構,不僅可支持文生圖,也可作為視頻等多模態視覺生成的基礎。
騰訊混元DiT模型開源之后,受到了眾多社區開發者的認可。開源不到一個月,項目Github Star數就超過2100,位于開源社區熱門DiT模型前列。
混元DiT Github頁面
為了提升開發者使用體驗,騰訊混元官方上線了專屬的加速庫,讓推理時間縮短75%,提高大模型運行效率。開發者通過Hugging Face即可下載該推理加速工具。
項目組通過知識蒸餾和TensorRT高性能推理框架,實現了DiT模型的采樣步數壓縮與高效推理部署。蒸餾主要指降低擴散模型迭代的步數實現加速。模型整體結構和參數量不變,用戶在無需任何額外的操作和設備要求下使用蒸餾權重,即可降低50%迭代步數,實現耗時減半。TensorRT推理加速方案通過工程優化,可以進一步降低耗時,并且和模型權重解耦。同時使用兩者進行推理部署,可將推理時間縮短75%。
官方還分享了兩個降低用戶使用門檻的最新消息:經過與社區的共同努力,用戶可以基于ComfyUI的圖形化界面使用騰訊混元文生圖模型能力。同時,通過與Hugging Face團隊合作,混元DiT模型已經部署到Hugging Face官方模型庫Diffusers中,并編寫了適配該模型庫的調用和生成代碼,用戶可以直接通過該途徑調用混元DiT模型,大大簡化了用戶使用的成本。
ComfyUI是一款文生圖領域的WebUI界面設計,它將文生圖領域的擴散算法模塊化與圖形化,提升了生成效率與資源利用率,也大幅降低了開發者的使用門檻。用戶可以通過圖像化工作流使用混元DiT文生圖模型,實現與官方模型一樣的效果。
混元DiT文生圖模型的ComfyUI使用界面
此外,圍繞ComfyUI的使用生態,還衍生出強大的開源社區。混元DiT對ComfyUI的支持,也能讓社區的成員體驗基于最新DiT架構的文生圖模型。
作為知名的AI開源社區,Hugging Face的Diffusers是目前調用各種主流文生圖大模型的通用庫,已經成為當今文生圖大模型使用的社區標準。
將混元DiT模型適配進Hugging Face Diffusers,可以大幅提升模型的易用性和用戶基礎。用戶無需將原始代碼庫下載與部署到自身環境,安裝了Diffusers庫的開發者,僅需要運行幾行代碼,即可調用混元DiT模型,配置與調用都十分方便。同時,Hugging Face與騰訊混元團隊共同優化算法框架,加快了圖片的生成速度。
此舉也相當于為所有后續基于混元DiT的使用和開發提供了底層支持,覆蓋各種需要調用混元DiT的任何場景,包括上述的ComfyUI方式。同時對開發者而言,之前配置好的基于Diffusers的工作流和插件可以在少量修改的情況下直接用于混元DiT。
騰訊文生圖負責人蘆清林表示:“騰訊混元文生圖模型開源之后得到了眾多開發者的支持和反饋,我們十分高興,也同時在針對開發者的反饋與社區一起完善和優化基于混元DiT的開源生態,讓更多開發者能更便利地享受到最新的研究成果。也歡迎大家跟我們一起共建下一代視覺生成開源生態,推動大模型行業加速發展?!?/span>
附騰訊混元文生圖開源大模型(混元DiT模型)項目鏈接
官網:https://dit.hunyuan.tencent.com/
代碼:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf