成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

抽卡效率提升4.8倍!東北大學等開源優化版Stable-Diffusion.cpp:分辨率越高越快,生成質量更好

人工智能 新聞
北京大學等研究團隊優化了Sdcpp框架,通過引入Winograd算法和多項策略,顯著提升了圖像生成速度和內存效率,最高可提速4.79倍。

在AI生成圖像領域,Stable Diffusion已經成為一個里程碑式的工具,憑借其強大的圖像生成能力,被廣泛應用于藝術創作、商業設計等領域。

然而,生成高質量圖像的過程常常需要付出大量的時間和內存,這對于硬件資源有限的設備來說是一大挑戰。

為了應對這一問題,北京大學、東北大學、佐治亞大學發布了Stable-Diffusion.cpp(簡稱Sdcpp)的優化方法,引入了Winograd算法和三個優化策略,最終整圖生成速度最高可達到4.79倍,從此實現創作自由!

圖片

論文鏈接:https://arxiv.org/pdf/2412.05781

項目主頁:https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++實現,旨在無需外部依賴的情況下在CPU(以及可能配置GPU)上實現高效推理。Sdcpp作為一個高效的推理框架,不僅能夠顯著加速模型的運行,還能大幅減少內存占用。

Sdcpp的實現中,計算密集型的2D卷積運算是圖像生成的主要瓶頸,雖然功能強大,但效率卻不夠理想,推理速度較慢,內存占用高。

為了解決這些問題,研究人員在Sdcpp的基礎上,引入了Winograd算法,對Sdcpp中的卷積操作進行了革命性的改進,最終實現了性能與資源利用率的雙提升。

主要優化策略為:

  1. 分步處理:將卷積拆解為濾波器和激活權重的預處理、預處理張量的逐元素乘法和中間結果的后處理三個階段,提高運算效率。
  2. 局部優化:通過調整數據加載方式(散點存儲和聚集加載優化),減少 L1 緩存的切換,最大限度地減少緩存交換,提升內存使用效率。
  3. 并行處理:分析算子間的關聯性,將關聯性較小的運算動態分配到不同的計算線程與核心上,充分利用多線程和多核心架構,動態分配計算任務,充分發揮硬件性能,減少圖像生成延遲。

尤其是在M系列Mac設備上,優化了性能核心(P-core)和效率核心(E-core)的分工,使推理速度得到了顯著提升。

多設備、多模型支持

優化后的Sdcpp框架支持多個設備和模型,包括:

  • 主流Stable Diffusion模型:SDv1.4、v1.5、v2.1、SDXL和SDXL-Turbo;
  • 不同硬件平臺:Mac、Android、AMD等;
  • 擴展模塊:如支持LoRA,以及支持算子量化等,為用戶提供更高的靈活性。

此外,該框架還支持并且優化了diffusion transformer模型中的算子,進一步拓展了應用場景。

速度提升,快!

通過實際測試,優化成果令人振奮!

單卷積層的加速表現:對于多種卷積層配置,推理速度平均提升超過2倍!

研究人員測試了在一些在SD生成圖片過程中出現比較頻繁的卷積層,計算了在這些單卷積層上,優化的Sdcpp相較于原版Sdcpp的加速效果。在不同的卷積層上,推理速度提升至少達到2倍。

圖片

整圖生成速度對比:最高加速比達到4.79倍!

 圖像分辨率越大,方法的加速效果越明顯。在生成1024×1024分辨率圖像時,相比于原版Sdcpp,優化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超過4.6 倍(FP32 類型)。

 對于其他圖像尺寸和SD模型,優化的Sdcpp的加速效果也十分顯著(如SDv1.5模型生成512×512圖像時在M1 Pro上加速1.84 倍)。

 顯著的加速比主要得益于框架的局部優化(降低緩存交換并且提高內存使用效率),以及并行處理(動態分配計算任務并且提高運算并行度)。

圖片


圖片

更快的速度,不僅節省時間,更讓創作更自由!

實例展示:更真實的生成效果

下圖展示了使用 SDXL-Turbo 模型,原版Sdcpp以及我們優化的Sdcpp使用5步采樣,所生成的圖像對比:

圖片

可以看出,在相同配置和提示詞下,優化后的Sdcpp不僅速度更快,生成的圖像也更加細膩逼真,細節豐富,層次分明。

優化的Sdcpp能夠支持不同硬件平臺上(Mac、Android、AMD 等)各種主流SD模型(如SDv1.4、v1.5、v2.1、SDXL 和 SDXL-Turbo)的所有算子,確保使用這些SD模型能夠生成高質量的圖片。

該框架還會不斷進步,研究人員計劃優化更多操作符,提升兼容性;進一步提高模型量化的效率;探索在更多設備上的性能提升。

責任編輯:張燕妮 來源: 新智元
相關推薦

2018-05-21 18:01:05

華為

2025-04-28 09:10:00

2025-02-26 11:14:10

2022-12-13 15:10:39

存儲傳輸

2021-06-02 10:01:20

開源技術 軟件

2025-06-03 08:12:00

模型框架訓練

2018-11-01 19:44:03

ICT

2011-08-21 09:01:53

投影儀常見問題

2025-02-05 12:41:21

線性新范式分辨率

2025-01-21 09:15:00

2023-03-29 10:31:40

MIT論文

2023-12-14 13:30:00

AI模型

2025-06-09 08:50:00

2023-04-24 09:19:13

鸚鵡模型

2021-05-31 13:19:55

人臉識別人工智能數據

2019-12-03 19:59:00

易車App

2011-10-31 10:43:34

東軟NetEye軟件

2023-03-09 07:51:23

性能提升數據庫

2023-06-06 14:09:32

模型開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区视频在线观看 | 韩日一区二区 | 成人一区二区在线 | 久久的色| 日韩在线电影 | 久久国产精彩视频 | 欧美国产视频一区二区 | 99看片网| 欧美国产精品一区二区三区 | 亚洲精品一区二区网址 | 日韩免费高清视频 | 成人亚洲视频 | 欧洲一区二区三区 | 成人午夜电影在线观看 | 国产精品毛片在线 | 免费的日批视频 | aa级毛片毛片免费观看久 | 亚洲黄色在线免费观看 | 国产精品久久久久久久久动漫 | 亚洲精品在线91 | 亚洲成人自拍 | 日韩在线观看一区 | 日日日操 | www.日日夜夜 | 久久亚洲欧美日韩精品专区 | 黄色片在线观看网址 | 国产精品久久久久一区二区三区 | 瑟瑟视频在线看 | 久久久精彩视频 | 亚洲精品福利视频 | 亚洲va国产日韩欧美精品色婷婷 | 国产成人精品免高潮在线观看 | 日韩av一区在线观看 | 97视频在线看 | 啪一啪在线视频 | 成人免费视频播放 | 国产二区三区 | 狠狠爱视频 | 国产精品久久久久久久免费大片 | 一二三区视频 | 91视在线国内在线播放酒店 |