成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟再放LLM量化大招!原生4bit量化,成本暴減,性能幾乎0損失

人工智能 新聞
原生1bit大模型BitNet b1.58 2B4T再升級!微軟公布BitNet v2,性能幾乎0損失,而占用內(nèi)存和計算成本顯著降低。

最近,微軟亞研院的研究團隊開源了原生1bit精度的大模型:BitNet b1.58 2B4T。

還沒過幾天,原班人馬帶著第二代BitNet v2來了!

這次性能幾乎0損失,但占用內(nèi)存和計算成本顯著降低!

圖片

論文鏈接:https://arxiv.org/abs/2504.18415

先前的開創(chuàng)性研究,如BitNet b1.58,已經(jīng)證明:

即使將權(quán)重量化到1.58位,也能在極大降低推理成本(延遲、內(nèi)存占用、吞吐量、能耗)的同時,保持與全精度模型相當(dāng)?shù)男阅堋?/span>

然而,激活值異常點讓1比特大語言模型部署變得復(fù)雜。

BitNet v2框架,首次實現(xiàn)對1比特LLMs的原生4比特激活值量化。

針對注意力機制和前饋網(wǎng)絡(luò)中激活值的異常分布問題,在激活值量化前,H-BitLinear模塊施加在線Hadamard變換(Hadamard transformation)。

圖片

圖1上半部分:BitNet v2整體架構(gòu)以及H-BitLinear模塊的概覽

這種變換能將尖銳的激活值分布轉(zhuǎn)化為更接近高斯形態(tài)的平滑分布,從而適配低比特表示。

原生4比特計算

得益于下一代GPU(如GB200)等硬件的進步,深度學(xué)習(xí)領(lǐng)域正迅速采用量化和低比特推理技術(shù)。

新硬件原生支持4比特計算,為大規(guī)模模型帶來顯著的效率提升。

圖片

計算機中32、16、8比特浮點數(shù)不同的表示方法

然而,盡管BitNet b1.58將權(quán)重量化為1.58比特,緩解了內(nèi)存帶寬瓶頸,但它的激活值仍保持8比特精度。

模型無法充分利用新硬件的4比特計算能力。

實現(xiàn)更低比特寬度的激活值對于最大化硬件利用率至關(guān)重要,尤其是在批處理推理場景中,高效的內(nèi)核設(shè)計尤為重要。

關(guān)鍵問題在于LLM內(nèi)部激活值的不均勻分布。

雖然注意力機制和前饋網(wǎng)絡(luò)(FFN)層的輸入通常呈現(xiàn)類高斯分布,適合量化,但中間狀態(tài)(最終投影前的輸出)往往包含顯著的離群值,阻礙了激進的低比特量化。

圖片

圖1下半部分:注意力層中輸出投影Wo和前饋網(wǎng)絡(luò)中下投影Wdown的激活分布情況

對輸入采用4比特量化和對中間狀態(tài)使用8比特稀疏化,可以解決這一問題。

盡管性能損失較小,但稀疏化并不適合批處理推理場景的最大吞吐量需求,因為硬件更傾向于密集計算以提升效率。

為彌合這一差距并充分發(fā)揮1.58比特LLM在4比特計算中的潛力,研究團隊提出了BitNet v2框架,實現(xiàn)了模型全流程的原生4比特激活值,框架核心創(chuàng)新是H-BitLinear。

BitNet v2:原生4位激活

BitNet v2模型基于類似LLaMA的組件構(gòu)建,包括RMS歸一化SwishGLU激活函數(shù),并完全移除了偏置項(bias)

圖片

BitNet v2的整體架構(gòu)

與先前的BitNet相比,BitNet v2在注意力模塊的輸出投影Wo和前饋網(wǎng)絡(luò)(FFN)的下投影Wdown中,引入了H-BitLinear模塊,以專門處理中間狀態(tài)中出現(xiàn)的異常通道(outlier channels)。

BitNet v2的訓(xùn)練流程分為兩階段:

首先,從零開始使用1.58位權(quán)重和8位激活(INT8)進行預(yù)訓(xùn)練;

隨后,在保持權(quán)重量化不變的基礎(chǔ)上,將所有線性層(除輸入/輸出embedding外)進一步微調(diào)為4位激活(INT4)。

H-BitLinear模塊

BitNet v2采用逐張量平均絕對值量化(per-tensor absmean)策略對權(quán)重進行三值量化(也就是{-1, 0, 1}):

圖片

關(guān)于低比特激活的問題,已有研究指出:

  • 注意力層和前饋網(wǎng)絡(luò)中前置線性變換的輸入激活,通常呈現(xiàn)高斯分布,較適合量化;
  • 注意力輸出(Wo)和FFN下投影(Wdown)的中間狀態(tài)激活,則往往包含大量離群通道(outlier channels),且大部分值集中于0附近,嚴(yán)重影響低位量化精度。

H-BitLinear可以取代注意力機制輸出投影和FFN下投影的標(biāo)準(zhǔn)線性層。

H-BitLinear在激活量化前應(yīng)用在線哈達瑪變換),把中間狀態(tài)中尖銳、易產(chǎn)生離群值的分布重塑為更易處理的類高斯分布,顯著減少1.58比特模型中離群值的影響。

Hadamard變換定義如下:

圖片

其中的矩陣乘法采用快速Hadamard變換算法(Fast Hadamard Transform,F(xiàn)HT),其計算復(fù)雜度為O(nlogn)。

Hadamard矩陣是一類特殊的正交矩陣。

它的特點是每個元素只能是+1或-1,并且每行(或每列)之間的內(nèi)積為0,表示彼此正交。

阿達馬矩陣的命名來自于法國數(shù)學(xué)家Jacques Solomon Hadamard。

圖片

法國數(shù)學(xué)家:Jacques Solomon Hadamard

如圖2和圖3所示,引入Hadamard變換后,中間狀態(tài)的分布更加接近高斯形態(tài)。

這顯著減少了離群值數(shù)量,使其更適合進行4位激活量化(INT4)

圖2:在使用8位激活時,BitNet b1.58與BitNet v2的激活分布對比。

圖片

圖3:采用8比特激活值時,BitNet b1.58與BitNet v2在前饋網(wǎng)絡(luò)Wdown層和注意力機制Wo層的激活值分布對比。

對于8位激活(INT8)和4位激活(INT4)量化策略,分別采用下列策略:

圖片

綜上,H-BitLinear層的整體矩陣運算可表示為

其中,LN(?)表示層歸一化(LayerNorm)。

研究團隊從頭開始使用8比特激活值訓(xùn)練BitNet v2,與BitNet b1.58相比性能損失微乎其微。

隨后,通過少量數(shù)據(jù)高效微調(diào),模型即可適配原生4比特激活值。

實驗結(jié)果

實驗表明,4比特BitNet v2變體在性能上與BitNet a4.8相當(dāng),但在批處理推理場景中提供更高的計算效率。

此外,與后訓(xùn)練量化方法SpinQuant和QuaRot,則幾乎全面領(lǐng)先。

比BitNet b1.58更快

BitNet V2與BitNet b1.58比,性能幾乎0損失。

BitNet v2及其基線模型的詳細(xì)實驗結(jié)果,如表1所示。

在注意力機制和前饋網(wǎng)絡(luò)(FFN)層的量化前引入哈達瑪變換后,模型的困惑度(perplexity)下降極小。

對于8比特激活值,BitNet v2相較于BitNet b1.58表現(xiàn)出更高的性能,在1.3B、3B和7B模型規(guī)模上,終端任務(wù)的平均準(zhǔn)確率分別提升了0.16%、0.49%和0.61%。

此外,BitNet v2支持所有線性層的原生4比特激活值,從而顯著提升了批處理推理的效率。

在使用INT4(4比特整數(shù))激活值時,BitNet v2的困惑度與BitNet a4.8相當(dāng),同時在3B和7B模型的下游任務(wù)中展現(xiàn)出更優(yōu)的性能。

表1:BitNet v2、BitNet a4.8與BitNet b1.58在終端任務(wù)上的困惑度及性能表現(xiàn)

表2和表3分別總結(jié)了BitNet v2(8比特激活,a8)和BitNet v2(4比特激活,a4)在低比特注意力機制下的詳細(xì)結(jié)果。

研究人員對QKV狀態(tài)采用了RoPE(旋轉(zhuǎn)位置編碼)后的量化方法。

QKV頭通過absmax函數(shù)直接量化為無符號整數(shù),無需任何校準(zhǔn)數(shù)據(jù)集。

如表2和表3所示,采用3比特KV緩存的BitNet v2在3B和7B模型上的準(zhǔn)確率與使用全精度KV緩存的模型相當(dāng)。

表2:BitNet v2在終端任務(wù)上的零樣本準(zhǔn)確率,其中激活使用8位,而QKV狀態(tài)的位寬則有所不同。

表3:BitNet v2在終端任務(wù)上的零樣本準(zhǔn)確率,其中激活使用4位,而QKV狀態(tài)的位寬則有所不同。

與其他后訓(xùn)練量化方法的對比

BitNet v2 (a4)與主流的后訓(xùn)練量化基線方法進行了對比,包括SpinQuantQuaRot,在1.3B參數(shù)規(guī)模的模型上進行了評測。

QuaRot通過引入隨機Hadamard變換以緩解特征離群問題,SpinQuant則使用了可學(xué)習(xí)的旋轉(zhuǎn)矩陣(rotary matrix)

隨后,這兩種方法分別采用GPTQabsmax策略,將權(quán)重和激活量化到4位。

由于BitNet b1.58沿用訓(xùn)練時使用的absmean函數(shù)進行權(quán)重量化,而非使用GPTQ。

在各項指標(biāo)上,BitNet v2穩(wěn)拿第一,具體結(jié)果見表4。

表4:BitNet v2、QuaRot和SpinQuant在各項下游任務(wù)上的困惑度(Perplexity)與零樣本準(zhǔn)確率(Zero-shot Accuracy)對比

另外,在Hadamard變換對不同模型尺寸(1.3B和3B)影響的實驗(見表5)中,研究者發(fā)現(xiàn):

沒有旋轉(zhuǎn)處理(No rotation)時,模型直接發(fā)散,無法正常訓(xùn)練;

引入Hadamard旋轉(zhuǎn)(無論是權(quán)重+激活,還是僅激活),都能顯著穩(wěn)定低位訓(xùn)練,并提高最終準(zhǔn)確率。

表5:不同規(guī)模下H-BitLinear的Hadamard變換的消融研究。

模型訓(xùn)練、消融實驗等其他內(nèi)容和細(xì)節(jié),請參閱原文。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-30 09:16:00

2023-11-17 22:55:09

量化模型

2024-11-08 10:00:00

AI模型

2025-05-06 13:42:16

微軟Phi-4模型

2023-11-27 09:00:00

GPTQ大型語言模型

2024-04-23 13:10:41

數(shù)據(jù)訓(xùn)練

2025-01-23 08:30:00

2016-03-21 12:56:26

2023-10-12 12:11:58

2014-08-08 15:36:39

Apdex

2023-09-28 21:55:12

AndroidApp

2023-06-12 00:36:28

迭代向量化Pandas

2022-12-05 08:00:00

數(shù)據(jù)庫向量化數(shù)據(jù)庫性能

2024-09-11 15:59:31

LLM.int8()大模型量化

2017-03-07 16:09:14

IBM量子計算互聯(lián)網(wǎng)

2023-06-09 15:28:33

數(shù)據(jù)質(zhì)量數(shù)據(jù)價值

2025-04-27 09:15:40

2009-05-25 17:48:16

IT服務(wù)管理

2024-12-30 10:35:00

訓(xùn)練數(shù)據(jù)模型

2018-07-30 09:22:13

微軟 Windows 虛擬機
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线亚洲一区 | 91亚洲精品国偷拍自产在线观看 | 免费的一级视频 | 亚洲综合一区二区三区 | 免费特黄视频 | 亚洲精品黄色 | 精品欧美一区二区三区久久久 | 拍拍无遮挡人做人爱视频免费观看 | 亚洲乱码国产乱码精品精98午夜 | 午夜丰满少妇一级毛片 | 美女一区 | 久久高清免费视频 | 成人在线电影在线观看 | 成人av久久 | h视频在线播放 | 欧美在线视频观看 | 久久久国产一区二区三区四区小说 | 久久只有精品 | 中文字幕乱码视频32 | 365夜爽爽欧美性午夜免费视频 | 秋霞av国产精品一区 | 成人无遮挡毛片免费看 | 久久久xxx | 成人网在线观看 | 国产精品久久久久久妇女 | 久久av网站 | 亚洲成人一区二区在线 | 亚洲欧美一区二区三区1000 | 精品一区二区三区日本 | 欧美成年黄网站色视频 | 欧美一级大黄 | www国产成人 | 国产精品久久久久久久久久久久 | 中文成人无字幕乱码精品 | h视频免费看 | 久久夜视频 | 黄色毛片免费 | 日本三级网址 | 欧美成人自拍视频 | 日韩在线一区二区三区 | 久久国 |