成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟、國科大開啟1Bit時代:大模型轉三進制,速度快4倍能耗降至1/41

人工智能 新聞
近年來,大語言模型(LLM)的參數規模和能力快速增長,既在廣泛的自然語言處理任務中表現出了卓越的性能,也為部署帶來了挑戰,并引發人們擔憂高能耗會對環境和經濟造成影響。

把大模型的權重統統改成三元表示,速度和效率的提升讓人害怕。

今天凌晨,由微軟、國科大等機構提交的一篇論文在 AI 圈里被人們爭相轉閱。該研究提出了一種 1-bit 大模型,實現效果讓人只想說兩個字:震驚。

圖片

如果該論文的方法可以廣泛使用,這可能是生成式 AI 的新時代。

對此,已經有人在暢想 1-bit 大模型的適用場景,看起來很適合物聯網,這在以前是不可想象的。

圖片

人們還發現,這個提升速度不是線性的 —— 而是,模型越大,這么做帶來的提升就越大。

圖片

還有這種好事?看起來英偉達要掂量掂量了。

近年來,大語言模型(LLM)的參數規模和能力快速增長,既在廣泛的自然語言處理任務中表現出了卓越的性能,也為部署帶來了挑戰,并引發人們擔憂高能耗會對環境和經濟造成影響。

因此,使用后訓練(post-training)量化技術來創建低 bit 推理模型成為上述問題的解決方案。這類技術可以降低權重和激活函數的精度,顯著降低 LLM 的內存和計算需求。目前的發展趨勢是從 16 bits 轉向更低的 bit,比如 4 bits。然而,雖然這類量化技術在 LLM 中廣泛使用,但并不是最優的。

最近的工作提出了 1-bit 模型架構,比如 2023 年 10 月微軟研究院、國科大和清華大學的研究者推出了 BitNet,在降低 LLM 成本的同時為保持模型性能提供了一個很有希望的技術方向。

BitNet 是第一個支持訓練 1-bit 大語言模型的新型網絡結構,具有強大的可擴展性和穩定性,能夠顯著減少大語言模型的訓練和推理成本。與最先進的 8-bit 量化方法和全精度 Transformer 基線相比,BitNet 在大幅降低內存占用和計算能耗的同時,表現出了極具競爭力的性能。

此外,BitNet 擁有與全精度 Transformer 相似的擴展法則(Scaling Law),在保持效率和性能優勢的同時,還可以更加高效地將其能力擴展到更大的語言模型上, 從而讓 1 比特大語言模型(1-bit LLM)成為可能。

BitNet 從頭訓練的 1-bit Transformers 在能效方面取得了有競爭力的結果。來源:https://arxiv.org/pdf/2310.11453.pdf

如今,微軟研究院、國科大同一團隊(作者部分變化)的研究者推出了 BitNet 的重要 1-bit 變體,即 BitNet b1.58,其中每個參數都是三元并取值為 {-1, 0, 1}。他們在原來的 1-bit 上添加了一個附加值 0,得到二進制系統中的 1.58 bits。

BitNet b1.58 繼承了原始 1-bit BitNet 的所有優點,包括新的計算范式,使得矩陣乘法幾乎不需要乘法運算,并可以進行高度優化。同時,BitNet b1.58 具有與原始 1-bit BitNet 相同的能耗,相較于 FP16 LLM 基線在內存消耗、吞吐量和延遲方面更加高效。


  • 論文地址:https://arxiv.org/pdf/2402.17764.pdf
  • 論文標題:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

此外,BitNet b1.58 還具有兩個額外優勢。其一是建模能力更強,這是由于它明確支持了特征過濾,在模型權重中包含了 0 值,顯著提升了 1-bit LLM 的性能。其二實驗結果表明,當使用相同配置(比如模型大小、訓練 token 數)時,從 3B 參數規模開始, BitNet b1.58 在困惑度和最終任務的性能方面媲美全精度(FP16)基線方法。

如下圖 1 所示,BitNet b1.58 為降低 LLM 推理成本(延遲、吞吐量和能耗)并保持模型性能提供了一個帕累托(Pareto)解決方案。

圖片

BitNet b1.58 介紹

BitNet b1.58 基于 BitNet 架構,并且用 BitLinear 替代 nn.Linear 的 Transformer。BitNet b1.58 是從頭開始訓練的,具有 1.58 bit 權重和 8 bit 激活。與原始 BitNet 架構相比,它引入了一些修改,總結為如下:

圖片

用于激活的量化函數與 BitNet 中的實現相同,只是該研究沒有將非線性函數之前的激活縮放到 [0, Q_b] 范圍。相反,每個 token 的激活范圍為 [?Q_b, Q_b],從而消除零點量化。這樣做對于實現和系統級優化更加方便和簡單,同時對實驗中的性能產生的影響可以忽略不計。

與 LLaMA 類似的組件。LLaMA 架構已成為開源大語言模型的基本標準。為了擁抱開源社區,該研究設計的 BitNet b1.58 采用了類似 LLaMA 的組件。具體來說,它使用了 RMSNorm、SwiGLU、旋轉嵌入,并且移除了所有偏置。通過這種方式,BitNet b1.58 可以很容易的集成到流行的開源軟件中(例如,Huggingface、vLLM 和 llama.cpp2)。

實驗及結果

該研究將 BitNet b1.58 與此前該研究重現的各種大小的 FP16 LLaMA LLM 進行了比較,并評估了模型在一系列語言任務上的零樣本性能。除此之外,實驗還比較了 LLaMA LLM 和 BitNet b1.58 運行時的 GPU 內存消耗和延遲。

表 1 總結了 BitNet b1.58 和 LLaMA LLM 的困惑度和成本:在困惑度方面,當模型大小為 3B 時,BitNet b1.58 開始與全精度 LLaMA LLM 匹配,同時速度提高了 2.71 倍,使用的 GPU 內存減少了 3.55 倍。特別是,當模型大小為 3.9B 時,BitNet b1.58 的速度是 LLaMA LLM 3B 的 2.4 倍,消耗的內存減少了 3.32 倍,但性能顯著優于 LLaMA LLM 3B。

圖片

表 2 結果表明,隨著模型尺寸的增加,BitNet b1.58 和 LLaMA LLM 之間的性能差距縮小。更重要的是,BitNet b1.58 可以匹配從 3B 大小開始的全精度基線的性能。與困惑度觀察類似,最終任務( end-task)結果表明 BitNet b1.58 3.9B 優于 LLaMA LLM 3B,具有更低的內存和延遲成本。

內存和延遲:該研究進一步將模型大小擴展到 7B、13B 和 70B 并評估成本。圖 2 顯示了延遲和內存的趨勢,隨著模型大小的增加,增長速度(speed-up)也在增加。特別是,BitNet b1.58 70B 比 LLaMA LLM 基線快 4.1 倍。這是因為 nn.Linear 的時間成本隨著模型大小的增加而增加,內存消耗同樣遵循類似的趨勢。延遲和內存都是用 2 位核測量的,因此仍有優化空間以進一步降低成本。

能耗。該研究還對 BitNet b1.58 和 LLaMA LLM 的算術運算能耗進行了評估,主要關注矩陣乘法。圖 3 說明了能耗成本的構成。BitNet b1.58 的大部分是 INT8 加法計算,而 LLaMA LLM 則由 FP16 加法和 FP16 乘法組成。根據 [Hor14,ZZL22] 中的能量模型,BitNet b1.58 在 7nm 芯片上的矩陣乘法運算能耗節省了 71.4 倍。

該研究進一步報告了能夠處理 512 個 token 模型的端到端能耗成本。結果表明,隨著模型規模的擴大,與 FP16 LLaMA LLM 基線相比,BitNet b1.58 在能耗方面變得越來越高效。這是因為 nn.Linear 的百分比隨著模型大小的增加而增長,而對于較大的模型,其他組件的成本較小。

吞吐量。該研究比較了 BitNet b1.58 和 LLaMA LLM 在 70B 參數體量上在兩個 80GB A100 卡上的吞吐量,使用 pipeline 并行性 [HCB+19],以便 LLaMA LLM 70B 可以在設備上運行。實驗增加了 batch size,直到達到 GPU 內存限制,序列長度為 512。表 3 顯示 BitNet b1.58 70B 最多可以支持 LLaMA LLM batch size 的 11 倍,從而將吞吐量提高 8.9 倍。

更多技術細節請查看原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-08 13:04:01

2009-09-22 10:09:58

AHCIWindows 7加速

2025-01-13 07:00:00

2021-01-04 09:58:46

5G6G運營商

2009-02-25 08:47:42

MacSafari4

2025-06-11 14:39:50

AILLMMistral

2011-11-29 16:33:29

惠普激光打印機

2025-04-21 18:43:31

深度學習微軟開源

2025-04-30 09:16:00

2025-01-08 13:15:02

2024-03-11 09:27:00

框架模型AI

2010-09-30 10:13:55

超算HPC

2024-03-04 09:00:00

模型壓縮

2022-12-15 18:20:46

ClickHouse存儲引擎

2017-11-13 12:18:09

創可帖縫針繃帶

2024-10-30 09:42:43

固態硬盤SSD閃存

2025-06-03 08:49:00

2010-02-24 09:22:28

2011-03-28 16:52:08

用戶體驗Android

2018-11-12 12:02:54

SSD硬盤最快
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美a在线 | 国产精品一区在线观看你懂的 | 羞羞涩涩在线观看 | 精品中文字幕一区二区三区 | 久热精品免费 | 欧美男人天堂 | 亚洲国产欧美一区 | 国产一区二 | 欧美精品一区二区三区四区 在线 | 日韩电影免费在线观看中文字幕 | 久久久五月天 | 国产久 | 免费观看日韩av | 欧美日韩黄 | 亚洲视频网 | 日本精品一区二区三区在线观看视频 | 天堂视频一区 | 精品久久久久久久久久久院品网 | www.亚洲一区二区 | 先锋资源在线 | 作爱视频免费看 | 亚洲成人免费在线 | 亚洲精品乱码久久久久久蜜桃91 | 欧美精品综合 | 亚洲精品久久久久久宅男 | 亚州激情 | 成人午夜免费福利视频 | 成人影院网站ww555久久精品 | 一区二区视频 | 成人国产在线视频 | 欧美精品电影一区 | 成人污污视频 | 国产日韩精品一区二区三区 | 精品国产91乱码一区二区三区 | 91资源在线| 欧美成人免费在线视频 | 日韩高清av | 成人免费视频 | 久久国产精品一区二区三区 | 亚洲理论在线观看电影 | 国产精品亚洲精品 |