成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型

發布于 2024-12-31 07:56
瀏覽
0收藏

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

文章鏈接:https://arxiv.org/pdf/2412.18653
項目鏈接:https://chenglin-yang.github.io/1.58bit.flux.github.io/
git主頁:https://github.com/Chenglin-Yang

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

亮點分析

  • 1.58-bit FLUX,第一個將 FLUX 視覺 Transformer 的參數(共 119 億)減少 99.5% 至 1.58-bit 的量化模型,無需依賴圖像數據,大幅降低存儲需求。
  • 開發了一個高效的線性內核,針對 1.58-bit 計算進行了優化,實現了顯著的內存減少和推理加速。
  • 證明了1.58-bit FLUX在具有挑戰性的 T2I 基準測試中,性能與全精度 FLUX 模型相當。

總結速覽

解決的問題

  • 當前文本生成圖像(T2I)模型,如 DALLE 3、Stable Diffusion 3 等,參數量巨大,推理時內存需求高,難以在資源有限的設備(如移動設備)上部署。
  • 本文重點研究極低比特量化(1.58-bit)在 T2I 模型中的可行性,以減少存儲和內存需求,同時提升推理效率。

提出的方案

  • 選用 FLUX.1-dev 模型作為量化目標,通過后訓練量化方法將其權重壓縮為 1.58-bit(值限制為 {-1, 0, +1}),無需訪問圖像數據。
  • 開發專用的低比特操作優化內核,進一步提升推理效率。

應用的技術

  • 1.58-bit 權重量化:使用類似 BitNet b1.58 的方法,將模型的線性層權重壓縮至 1.58-bit,并通過 2-bit 有符號整數存儲權重,從而實現極低比特化。
  • 無監督量化方法:完全依賴 FLUX.1-dev 模型本身的自監督機制,無需依賴混合精度方案或額外的訓練數據。
  • 定制化內核:針對低比特操作優化的推理內核,降低內存使用并縮短推理延遲。

達到的效果

  • 存儲效率:模型存儲需求減少 7.7×,從 16-bit 壓縮到 2-bit。
  • 推理效率:推理時的內存使用減少 5.1×,推理延遲顯著改善。
  • 生成質量:在 GenEval 和 T2I Compbench 基準測試上,生成質量與全精度 FLUX 基本持平,驗證了方案的有效性和實用性。

實驗結果

設置

量化:使用一個校準數據集進行量化,數據集由 Parti-1k 數據集和 T2I CompBench 訓練集的提示語組成,共計 7,232 條提示語。整個過程完全不依賴圖像數據,不需要額外的數據集。量化將 FLUX 中 FluxTransformerBlock 和 FluxSingleTransformerBlock 的所有線性層權重壓縮至 1.58-bit,占模型總參數的 99.5%。

評估:在 GenEval 數據集 和 T2I CompBench 驗證集上評估 FLUX 和 1.58-bit FLUX,遵循官方的圖像生成流程。

  • GenEval 數據集:包含 553 條提示語,每條提示語生成 4 張圖像。
  • T2I CompBench 驗證集:包含 8 個類別,每個類別有 300 條提示語,每條提示語生成 10 張圖像,總計生成 24,000 張圖像進行評估。
  • 所有圖像均以 1024 × 1024 的分辨率生成,適用于 FLUX 和 1.58-bit FLUX。

結果

性能:在 T2I Compbench 和 GenEval 基準測試中,1.58-bit FLUX 與全精度 FLUX 的性能表現相當,具體結果見表 1 和表 2。在應用自定義線性內核前后,性能變化微乎其微,進一步驗證了實現的準確性。

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

效率:如下圖 2 所示,1.58-bit FLUX 在模型存儲和推理內存上取得了顯著提升。在推理延遲方面,如下表 3 所示,特別是在低性能但易于部署的 GPU(如 L20 和 A10)上,改進更為顯著。

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

結論與討論

本文提出了 1.58-bit FLUX,將 99.5% 的 Transformer 參數量化至 1.58-bit,并通過自定義計算內核實現了以下改進:

  • 存儲需求減少:模型存儲需求降低 7.7 倍。
  • 推理內存減少:推理內存使用減少超過 5.1 倍。

盡管實現了這些壓縮效果,1.58-bit FLUX 在 T2I 基準測試中表現出與全精度模型相當的性能,同時保持了較高的視覺質量。希望 1.58-bit FLUX 能夠激勵社區開發更適合移動設備的模型。

當前局限性

關于速度改進的局限性

  • 盡管 1.58-bit FLUX 降低了模型大小和內存消耗,但由于缺乏激活值量化和更高級的內核優化,其延遲改進有限。
  • 鑒于目前取得的成果,希望激勵社區開發適用于 1.58-bit 模型的自定義內核實現。

關于視覺質量的局限性

  • 如下圖 1、圖 3 和圖 4 所示,1.58-bit FLUX 能生成與文本提示高度一致的生動逼真的圖像,但在渲染超高分辨率細節時仍落后于原始 FLUX 模型。
  • 計劃在未來研究中縮小這一差距。

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

參數減少99.5%,媲美全精度FLUX!字節跳動等發布首個1.58-bit FLUX量化模型-AI.x社區

本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:https://mp.weixin.qq.com/s/ZFJ1f7YZZEKoEs5Ie1YAbA

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 午夜ww| 波多野结衣一区二区三区 | 国产日韩精品一区 | 国产精品久久国产精品99 | 欧美一区二区免费电影 | 日韩三级在线观看 | 蜜桃视频在线观看免费视频网站www | 一区二区福利视频 | 九九热免费在线观看 | 91精品中文字幕一区二区三区 | 国产在线中文字幕 | 国产丝袜人妖cd露出 | 99久久精品国产毛片 | 给我免费的视频在线观看 | 亚洲精品免费视频 | 欧美一区二区三区视频在线 | 日本午夜免费福利视频 | 国产精品视频入口 | 请别相信他免费喜剧电影在线观看 | 精精国产xxxx视频在线播放 | 亚洲一区二区三区视频 | 亚洲国产欧美在线 | 久久久久久久av麻豆果冻 | 人人射人人 | yiren22综合网成人 | 久久亚洲一区 | 久久久久国产 | 国产精品海角社区在线观看 | 国产精品成人69xxx免费视频 | 三区在线| 亚洲午夜一区二区 | 久久精品免费 | 91精品国产高清一区二区三区 | 亚洲性视频 | 欧美狠狠操 | 中文字幕乱码一区二区三区 | 亚洲天堂999 | 在线观看精品 | 久久久免费 | 久久久亚洲 | 久久成人免费视频 |