文生圖10倍速，視頻實(shí)時(shí)渲染！清華發(fā)布LCM：兼容全部SD大模型、LoRA、插件等

作者：新智元 2023-11-23 13:24:38

人工智能新聞

全面兼容Stable Diffusion生態(tài)，LCM模型成功實(shí)現(xiàn)5-10倍生成速度的提升，實(shí)時(shí)AI藝術(shù)時(shí)代即將到來，所想即所得！

Latent Consistency Models（潛一致性模型）是一個(gè)以生成速度為主要亮點(diǎn)的圖像生成架構(gòu)。

和需要多步迭代傳統(tǒng)的擴(kuò)散模型（如Stable Diffusion）不同，LCM僅用1 - 4步即可達(dá)到傳統(tǒng)模型30步左右的效果。

由清華大學(xué)交叉信息研究院研究生駱?biāo)济愫妥T亦欽發(fā)明，LCM將文生圖生成速度提升了5-10倍，世界自此邁入實(shí)時(shí)生成式AI的時(shí)代。

LCM-LoRA: https://huggingface.co/papers/2311.05556

項(xiàng)目主頁：https://latent-consistency-models.github.io/

Stable Diffusion殺手：LCM

在LCM出現(xiàn)之前, 不同團(tuán)隊(duì)在各種方向探索了五花八門的SD1.5和SDXL替代方案。這些項(xiàng)目各有特色，但都存在著不兼容LoRA和不完全兼容Stable Diffusion生態(tài)的硬傷。按發(fā)布時(shí)間順序，比較重要的項(xiàng)目有：

模型名稱	介紹	生成速度	訓(xùn)練難度	SD生態(tài)兼容性
DeepFloyd IF	高質(zhì)量、可生成文字，但架構(gòu)復(fù)雜	更慢	更慢	不兼容
Kandinsky 2.2	比SDXL發(fā)布更早且質(zhì)量同樣高；兼容ControlNet	類似	類似	不兼容模型和LoRA，兼容ControlNet等部分插件
Wuerstchen V2	質(zhì)量和SDXL類似	2x - 2.5x	更容易	不兼容
SSD-1B	由Segmind蒸餾自SDXL，質(zhì)量略微下降	1.6x	更容易	部分兼容
PixArt-α	華為和高校合作研發(fā)，高質(zhì)量	類似	SD1.5十分之一	兼容ControlNet等部分插件
LCM (SDXL, SD1.5)	訓(xùn)練自DreamShaper、SDXL，高質(zhì)量、速度快	5x -10x	更容易	部分兼容
LCM-LoRA	體積小易用，插入即加速；犧牲部分質(zhì)量	5x -10x	更容易	兼容全部SD大模型、LoRA、ControlNet，大量插件

這時(shí)，LCM-LoRA出現(xiàn)了：將SD1.5、SSD1B、SDXL蒸餾為LCM的LoRA，將生成5倍加速生成能力帶到所有SDXL模型上并兼容所有現(xiàn)存的LoRA，同時(shí)犧牲了小部分生成質(zhì)量; 項(xiàng)目迅速獲得了Stable Diffusion生態(tài)大量插件、發(fā)行版本的支持。

LCM同時(shí)也發(fā)布了訓(xùn)練腳本，可以支持訓(xùn)練自己的LCM大模型（如LCM-SDXL）或LCM-LoRA，做到兼顧生成質(zhì)量和速度。只要一次訓(xùn)練，就可以在保持生成質(zhì)量的前提下提速5倍。

至此，LCM生態(tài)體系具備了完整替代SD的雛形。

截止至2023/11/22，已支持LCM的開源項(xiàng)目：

Stable Diffusion發(fā)行版

WebUI（原生支持LCM-LoRA，LCM插件支持LCM-SDXL）、ComfyUI、Fooocus（LCM-LoRA）、DrawThings

小模型
LCM-LoRA兼容其他LoRA，ControlNet
AnimateDiff WebUI插件

計(jì)劃中添加支持的項(xiàng)目：

WebUI主分支持
訓(xùn)練腳本Kohya SS
LCM-SDXL、LCM-DreamShaper專屬的ControlNet
LCM-AnimateDiff

隨著生態(tài)體系的逐漸發(fā)展，LCM有潛力作為新一代圖像生成底層完整替代Stable Diffusion。

未來展望

自Stable Diffusion發(fā)布至今，生成成本被緩慢優(yōu)化，而LCM的出現(xiàn)使得圖像生成成本直接下降了一個(gè)數(shù)量級。每當(dāng)革命性的技術(shù)出現(xiàn)，都會(huì)帶來重塑產(chǎn)業(yè)的大量機(jī)會(huì)。LCM至少能在圖像生成成本消失、視頻生成、實(shí)時(shí)生成三大方面給產(chǎn)業(yè)格局帶來重大變化。

1. 圖像生成成本消失

To C產(chǎn)品端，免費(fèi)替代收費(fèi)。受高昂的GPU算力成本限制，以Midjourney為代表的大量文生圖服務(wù)選擇免費(fèi)增值作為商業(yè)模型。LCM使手機(jī)客戶端、個(gè)人電腦CPU、瀏覽器（WebAssembly）、更容易彈性擴(kuò)容的CPU算力都可能在未來滿足圖像生成的算力需求。簡單的收費(fèi)文生圖服務(wù)如Midjourney會(huì)被高質(zhì)量的免費(fèi)服務(wù)替代。

To B服務(wù)端，減少的生成算力需求會(huì)被增長的訓(xùn)練算力需求替代。

AI圖片生成服務(wù)對算力的需求在峰值和谷底漲落極大，購買服務(wù)器閑置時(shí)間通常超過50%。這種特點(diǎn)促進(jìn)了大量函數(shù)計(jì)算GPU（serverless GPU）如美國Replicate、中國阿里云的蓬勃發(fā)展。

硬件虛擬化方面如國內(nèi)的瑞云、騰訊云等也在浪潮中推出了圖像模型訓(xùn)練相關(guān)虛擬桌面產(chǎn)品。隨著生成算力下放到邊緣、客戶端或更容易擴(kuò)容的CPU算力，AI生圖將普及到各類應(yīng)用場景中，圖像模型微調(diào)的需求會(huì)大幅上漲。在圖像領(lǐng)域，專業(yè)、易用、垂直的模型訓(xùn)練服務(wù)會(huì)成為下一階段云端GPU算力的主要消費(fèi)者。

2. 文生視頻

文生視頻目前極高的生成成本制約了技術(shù)的發(fā)展和普及，消費(fèi)級顯卡只能以緩慢的速度逐幀渲染。以AnimateDiff WebUI插件為代表的一批項(xiàng)目優(yōu)先支持了LCM，使得更多人能參與到文生視頻的開源項(xiàng)目中。更低的門檻必然會(huì)加速文生視頻的普及和發(fā)展。

3分鐘快速渲染：AnimateDiff Vid2Vid + LCM

3. 實(shí)時(shí)渲染

速度的增加催生了大量新應(yīng)用，不斷拓展著所有人的想象空間。

RT-LCM與AR

以RealTime LCM為先導(dǎo)，消費(fèi)級GPU上第一次實(shí)現(xiàn)了每秒10幀左右的實(shí)時(shí)視頻生成視頻，這在AR領(lǐng)域必然產(chǎn)生深遠(yuǎn)的影響。

目前高清、低延時(shí)捕捉重繪視線內(nèi)整個(gè)場景需要極高算力，所以過去AR應(yīng)用主要以添加新物體、提取特征后低清重繪部分物體為主。LCM使得實(shí)時(shí)重繪整個(gè)場景成為可能，在游戲、互動(dòng)式電影、社交等場景中都有無限的想象空間。

未來游戲場景不需新建，帶上AR眼鏡，身處的街道立刻轉(zhuǎn)換為霓虹閃爍的賽博朋克未來風(fēng)格供玩家探索；看未來的互動(dòng)式恐怖電影時(shí)帶上AR眼鏡，家中熟悉的一切可以無縫融入場景，嚇人的東西就藏在臥室門后。虛擬和現(xiàn)實(shí)將無縫融合，真實(shí)和夢境讓人愈發(fā)難以區(qū)分。而這一切底層都可能會(huì)有LCM的身影。

RT-LCM視頻渲染

交互方式 - 所想即所得（What you imagine is what you get）

由Krea.ai、ilumine.ai首先產(chǎn)品化的實(shí)時(shí)圖像編輯UI再次降低了創(chuàng)作的門檻、擴(kuò)大了創(chuàng)意的邊界，讓更多人在精細(xì)控制的基礎(chǔ)上獲得了最終畫作的實(shí)時(shí)反饋。

Krea.ai實(shí)時(shí)圖像編輯

實(shí)時(shí)圖像編輯

建模軟件 + LCM探索了3D建模的新方向，讓3D建模師在所見即所得基礎(chǔ)上更進(jìn)一步，獲得了所想即所得的能力。

LCM實(shí)時(shí)空間建模渲染

手是人類最沒用的東西，因?yàn)槭钟肋h(yuǎn)跟不上腦子的速度。所見即所得（What you see is what you get）太慢，所想即所得（What you imagine is what you get）會(huì)成為未來的創(chuàng)意工作的主流。

LCM第一次讓展示效果跟上了靈感創(chuàng)意產(chǎn)生的速度。新的交互方式持續(xù)涌現(xiàn)，AIGC革命的終點(diǎn)是將創(chuàng)意的成本、技術(shù)門檻降低至無限接近于0。不分行業(yè)，好的創(chuàng)意將會(huì)從稀缺變?yōu)檫^剩。LCM將我們向未來又推進(jìn)了一步。

責(zé)任編輯：張燕妮來源：新智元