CPU推理僅29ms,微軟開源第一個原生 1 bit 大模型,內(nèi)存只需Qwen 1.5B的1/15
微軟研究院發(fā)布了第一個開源的、原生的 1 bit 大型語言模型(LLM):BitNet b1.58 2B4T:
- 內(nèi)存占用:BitNet b1.58 2B4T 的非嵌入層內(nèi)存占用僅為0.4GB,遠低于其他全精度模型。
- 能耗:估計的解碼能耗為0.028焦耳,遠低于其他模型。
- 解碼延遲:在CPU上,BitNet b1.58 2B4T 的平均延遲為29ms,遠低于其他模型。
BitNet b1.58 2B4T參數(shù)規(guī)模達到20億,在包含4T tokens的語料庫上進行訓練,并在多個基準測試中表現(xiàn)出與同規(guī)模的領(lǐng)先全精度模型(LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等)相當?shù)男阅堋?/span>
選擇了一個領(lǐng)先的全精度模型Qwen2.5 1.5B,并對其應用了兩種標準的INT4量化方法:GPTQ和AWQ。
- 內(nèi)存占用:BitNet b1.58 2B4T的非嵌入層內(nèi)存占用僅為0.4GB,遠低于Qwen2.5 1.5B的2.6GB(即使在INT4量化后,Qwen2.5 1.5B的內(nèi)存占用仍為0.7GB)。
- 性能:盡管INT4量化顯著減少了Qwen2.5 1.5B的內(nèi)存占用,但BitNet b1.58 2B4T在大多數(shù)基準測試中保持了更強的性能。
模型權(quán)重已通過 Hugging Face 公開發(fā)布,沖上熱榜Top1,并提供了針對 GPU 和 CPU 架構(gòu)的開源推理實現(xiàn)。
現(xiàn)有的1bit模型要么是基于全精度模型的后訓練量化(PTQ),導致性能顯著下降;要么是規(guī)模較小的原生1bit模型;BitNet b1.58 2B4T 模型完全從頭開始訓練,核心創(chuàng)新是用自定義的 BitLinear 層替換了標準的全精度線性層。這些 BitLinear 層包括:
- 權(quán)重量化:在前向傳播中,模型權(quán)重被量化為1.58bit,使用絕對均值(absmean)量化方案將權(quán)重映射到三元值{-1, 0, +1}。
- 激活量化:線性投影中的激活被量化為8bit整數(shù),使用絕對最大值(absmax)量化策略,按token應用。
- 歸一化:引入子層歸一化(subln)以增強訓練穩(wěn)定性。
除了 BitLinear 層外,還集成了多種已建立的 LLM 技術(shù)以增強性能和穩(wěn)定性,包括在前饋網(wǎng)絡(FFN)子層中使用 ReLU2 激活函數(shù)、RoPE 以及去除所有線性層和歸一化層的偏置項。
BitNet b1.58 2B4T 的訓練過程包括三個階段:
- 預訓練:目標是賦予模型廣泛的世界知識和基礎(chǔ)語言能力。使用了兩階段學習率計劃和權(quán)重衰減策略,以及包含公共文本和代碼數(shù)據(jù)集的預訓練語料庫。
- 監(jiān)督微調(diào)(SFT):通過多樣化的指令跟隨和對話數(shù)據(jù)集增強模型的指令跟隨能力和對話交互格式的性能。
- 直接偏好優(yōu)化(DPO):進一步使模型的行為與人類對有用性和安全性的偏好對齊,直接優(yōu)化語言模型以使用偏好數(shù)據(jù),避免了訓練單獨的獎勵模型。
https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report
本文轉(zhuǎn)載自??PaperAgent??
