成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="k0aym"></noscript>

<code id="k0aym"></code>

<menu id="k0aym"><s id="k0aym"></s></menu><noscript id="k0aym"><strong id="k0aym"></strong></noscript>

<noscript id="k0aym"><optgroup id="k0aym"></optgroup></noscript>

<delect id="k0aym"><blockquote id="k0aym"></blockquote></delect>

<noscript id="k0aym"></noscript>

<sup id="k0aym"></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

清華、哈工大把大模型壓縮到了1bit，把大模型放在手機里跑的愿望就快要實現(xiàn)了！

作者：機器之心 2024-03-04 09:00:00

人工智能新聞

近期，清華大學和哈爾濱工業(yè)大學聯(lián)合發(fā)布了一篇論文：把大模型壓縮到 1.0073 個比特時，仍然能使其保持約 83% 的性能！

自從大模型火爆出圈以后，人們對壓縮大模型的愿望從未消減。這是因為，雖然大模型在很多方面表現(xiàn)出優(yōu)秀的能力，但高昂的的部署代價極大提升了它的使用門檻。這種代價主要來自于空間占用和計算量?！改Ｐ土炕?nbsp;通過把大模型的參數(shù)轉化為低位寬的表示，進而節(jié)省空間占用。目前，主流方法可以在幾乎不損失模型性能的情況下把已有模型壓縮至 4bit。然而，低于 3bit 的量化像一堵不可逾越的高墻，讓研究人員望而生畏。

圖 1 : 量化模型的困惑度在 2bit 時迅速上升

近期，一篇由清華大學、哈爾濱工業(yè)大學合作發(fā)表在 arXiv 上的論文為突破這一阻礙帶來了希望，在國內外學術圈引起了不小的關注。這篇論文也在一周前登上 huggingface 的熱點論文，并被著名論文推薦師 AK 推薦。研究團隊直接越過 2bit 這一量化級別，大膽地進行了 1bit 量化的嘗試，這在模型量化的研究中尚屬首次。

論文標題：OneBit: Towards Extremely Low-bit Large Language Models

論文地址：https://arxiv.org/pdf/2402.11295.pdf

作者提出的方法稱作「OneBit」，非常貼切地形容了這一工作的本質：把預訓練大模型壓縮到真正的 1bit。該論文提出了模型參數(shù) 1bit 表示的新方法，以及量化模型參數(shù)的初始化方法，并通過量化感知訓練（QAT）把高精度預訓練模型的能力遷移至 1bit 量化模型。實驗表明，這一方法能夠在極大幅度壓縮模型參數(shù)的同時，保證 LLaMA 模型至少 83% 的性能。

作者指出，當模型參數(shù)壓縮至 1bit 后，矩陣乘法中的「元素乘」將不復存在，取而代之的是更快速的「位賦值」操作，這將大大提升計算效率。這一研究的重要意義在于，它不但跨越了 2bit 量化的鴻溝，也使在 PC 和智能手機上部署大模型成為可能。

已有工作的局限性

模型量化主要通過把模型的 nn.Linear 層（Embedding 層和 Lm_head 層除外）轉化為低精度表示實現(xiàn)空間壓縮。此前工作 [1,2] 的基礎是利用 Round-To-Nearest（RTN）方法把高精度浮點數(shù)近似映射到附近的整數(shù)網格。這可以被表示成。

然而基于 RTN 的方法在極低位寬時（3bit 以下）存在嚴重的精度損失問題，量化后的模型能力損失十分嚴重。特別是，量化后參數(shù)以 1bit 表示時，RTN 中的縮放系數(shù) s 和零點 z 會失去實際意義。這導致基于 RTN 的量化方法在 1bit 量化時幾乎失效，難以有效地保留原模型的性能。

此外，此前的研究中也曾對 1bit 模型可能采用什么結構進行過探索。幾個月前的工作 BitNet [3] 通過讓模型參數(shù)通過 Sign (?) 函數(shù)并轉為 + 1/-1 來實現(xiàn) 1bit 表示。但這一方法存在性能損失嚴重、訓練過程不穩(wěn)定的問題，限制了其實際應用。

OneBit 框架

OneBit 的方法框架包括全新的 1bit 層結構、基于 SVID 的參數(shù)初始化方法和基于量化感知知識蒸餾的知識遷移。

1. 新的 1bit 結構

OneBit 的終極目標是將 LLMs 的權重矩陣壓縮到 1bit。真正的 1bit 要求每個權重值只能用 1bit 表示，即只有兩種可能的狀態(tài)。作者認為，在大模型的參數(shù)中，有兩個重要因素都必須被考慮進來，那就是浮點數(shù)的高精度和參數(shù)矩陣的高秩。

因此，作者引入兩個 FP16 格式的值向量以補償由于量化導致的精度損失。這種設計不僅保持了原始權重矩陣的高秩，而且通過值向量提供了必要的浮點精度，有助于模型的訓練和知識遷移。1bit 線性層的結構與 FP16 高精度線性層的結構對比如下圖：

圖 3 : FP16 線性層與 OneBit 線性層的對比

左側的 (a) 是 FP16 精度模型結構，右側的 (b) 是 OneBit 框架的線性層?？梢姡?OneBit 框架中，只有值向量 g 和 h 保持 FP16 格式，而權重矩陣則全部由 ±1 組成。這樣的結構兼顧了精度和秩，對保證穩(wěn)定且高質量的學習過程很有意義。

OneBit 對模型的壓縮幅度究竟如何？作者在論文中給了一個計算。假設對一個 4096*4096 的線性層進行壓縮，那么 OneBit 需要一個 4096*4096 的 1bit 矩陣，和兩個 4096*1 的 16bit 值向量。這里面總的位數(shù)為 16,908,288，總的參數(shù)個數(shù)為 16,785,408，平均每個參數(shù)占用僅僅約 1.0073 個 bit。這樣的壓縮幅度是空前的，可以說是真正的 1bit 大模型。

2. 基于 SVID 初始化量化模型

為了使用充分訓練好的原模型更好地初始化量化后的模型，進而促進更好的知識遷移效果，作者提出一種新的參數(shù)矩陣分解方法，稱為「值 - 符號獨立的矩陣分解（SVID）」。這一矩陣分解方法把符號和絕對值分開，并把絕對值進行秩 - 1 近似，其逼近原矩陣參數(shù)的方式可以表示成：

這里的秩 - 1 近似可以通過常見的矩陣分解方式實現(xiàn)，例如奇異值分解（SVD）和非負矩陣分解（NMF）。而后，作者在數(shù)學上給出這種 SVID 方法可以通過交換運算次序來和 1bit 模型框架相匹配，進而實現(xiàn)參數(shù)初始化。并且，論文還證明了符號矩陣在分解過程中確實起到了近似原矩陣的作用。

3. 通過知識蒸餾遷移原模型能力

作者指出，解決大模型超低位寬量化的有效途徑可能是量化感知訓練 QAT。在 OneBit 模型結構下，通過知識蒸餾從未量化模型中學習，實現(xiàn)能力向量化模型的遷移。具體地，學生模型主要接受教師模型 logits 和 hidden state 的指導。

訓練時，值向量和矩陣的值會被更新。模型量化完成后，直接把 Sign (?) 后的參數(shù)保存下來，在推理和部署時直接使用。

實驗及結果

OneBit 與 FP16 Transformer、經典的訓練后量化強基線 GPTQ、量化感知訓練強基線 LLM-QAT 和最新的 2bit 權重量化強基線 OmniQuant 進行了比較。此外，由于目前還沒有 1bit 權重量化的研究，作者只對自己的 OneBit 框架使用了 1bit 權重量化，而對其他方法采取 2bit 量化設置，屬于典型的「以弱勝強」。

在模型選擇上，作者也選擇了從 1.3B 到 13B 不同大小、OPT 和 LLaMA-1/2 不同系列的模型來證明 OneBit 的有效性。在評價指標上，作者沿用了以往模型量化的兩大評價維度：驗證集的困惑度和常識推理的 Zero-shot 準確度。

表 1 : OneBit 與基線方法的效果比較（OPT 模型與 LLaMA-1 模型）

表 2 : OneBit 與基線方法的效果比較（LLaMA-2 模型）

表 1 和表 2 展示出了 OneBit 相比于其他方法在 1bit 量化時的優(yōu)勢。就量化模型在驗證集的困惑度而言，OneBit 與 FP16 模型最為接近。就 Zero-shot 準確度而言，除 OPT 模型的個別數(shù)據(jù)集外，OneBit 量化模型幾乎取得了最佳的性能。其余的 2bit 量化方法在兩種評價指標上呈現(xiàn)較大的損失。

值得注意的是，OneBit 在模型越大時，效果往往越好。也就是說，隨著模型規(guī)模增大，F(xiàn)P16 精度模型在困惑度降低上收效甚微，但 OneBit 卻表現(xiàn)出更多的困惑度下降。此外，作者還指出量化感知訓練對于超低位寬量化或許十分有必要。

圖 4 : 常識推理任務對比

圖 5 : 世界知識對比

圖 6 : 幾種模型的空間占用和平均位寬

圖 4 - 圖 6 還對比了幾類小模型的空間占用和性能損失，它們是通過不同的途徑獲得的：包括兩個充分訓練的模型 Pythia-1.0B 和 TinyLLaMA-1.1B，以及通過低秩分解獲得的 LowRank Llama 和 OneBit-7B?？梢钥闯?，盡管 OneBit-7B 有最小的平均位寬、占用最小的空間，它在常識推理能力上仍然優(yōu)于不遜于其他模型。作者同時指出，模型在社會科學領域面臨較嚴重的知識遺忘?？偟膩碚f，OneBit-7B 展示出了其實際應用價值。正如圖 7 所展示的，OneBit 量化后的 LLaMA-7B 模型經過指令微調后，展示出了流暢的文本生成能力。

圖 7 : OneBit 框架量化后的 LLaMA-7B 模型的能力

討論與分析

1. 效率

表 3 : OneBit 在不同 LLaMA 模型的壓縮比

表 3 給出的是 OneBit 對不同規(guī)模 LLaMA 模型的壓縮比。可以看出，OneBit 對模型的壓縮比均超過 90%，這一壓縮能力是史無前例的。其中值得注意的是，隨著模型增大，OneBit 的壓縮比越高，這是由于 Embedding 層這種不參與量化的參數(shù)占比越來越小。前文提到，模型越大，OneBit 帶來的性能增益越大，這顯示出 OneBit 在更大模型上的優(yōu)勢。

圖 8 : 模型大小與性能的權衡

雖然超低比特量化可能會導致一定的性能損失，但如圖 8 所示，它在大小和性能之間達到了良好的平衡。作者認為，壓縮模型的大小十分重要，特別是在移動設備上部署模型時。

此外，作者還指出了 1bit 量化模型在計算上的優(yōu)勢。由于參數(shù)是純二進制的，可以用 0/1 在 1bit 內表示，這毫無疑問地節(jié)省大量的空間。高精度模型中矩陣乘法的元素相乘可以被變成高效的位運算，只需位賦值和加法就可以完成矩陣乘積，非常有應用前景。

2. 魯棒性

二值網絡普遍面臨訓練不穩(wěn)定、收斂困難的問題。得益于作者引入的高精度值向量，模型訓練的前向計算和后向計算均表現(xiàn)的十分穩(wěn)定。BitNet 更早地提出 1bit 模型結構，但該結構很難從充分訓練的高精度模型中遷移能力。如圖 9 所示，作者嘗試了多種不同的學習率來測試 BitNet 的遷移學習能力，發(fā)現(xiàn)在教師指導下其收斂難度較大，也在側面證明了 OneBit 的穩(wěn)定訓練價值。

圖 9 : BitNet 在多種不同學習率下的訓練后量化能力

論文的最后，作者還建議了超低位寬未來可能得研究方向。例如，尋找更優(yōu)的參數(shù)初始化方法、更少的訓練代價，或進一步考慮激活值的量化。

更多技術細節(jié)請查看原論文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：精品欧美乱码久久久久久 | 狠狠草视频 | 国产精品一区二区精品 | 国产成人一区二区三区 | 九九99靖品 | 国产成人精品综合 | 爱综合| 日韩精品视频一区二区三区 | 羞羞视频在线观看免费观看 | 午夜精品久久久久99蜜 | 视频一区二区国产 | 福利视频一区二区三区 | 国产aⅴ | 午夜国产一级 | 91久久久久久久 | 日韩精品在线一区二区 | 观看av| 欧美视频精品 | 成人av色 | 免费人成激情视频在线观看冫 | 国产精品亚洲一区二区三区在线 | 国产亚洲精品久久久优势 | www.亚洲成人网 | 91精品国产综合久久久久久蜜臀 | 国产精品久久久久久久久免费 | 中文字幕av网站 | 国产福利视频 | 国产一区二区三区亚洲 | 国产一区二区不卡 | av男人的天堂av | 一级a爱片性色毛片免费 | 亚洲一二三区在线观看 | 国产精品欧美日韩 | 久草免费福利 | 中文字幕久久精品 | 我要看免费一级毛片 | 欧美性精品 | 欧美日韩国产在线 | 国产日韩精品一区 | 岛国av免费在线观看 | a在线视频 |

<option id="q8cw4"><small id="q8cw4"></small></option>

<table id="q8cw4"><object id="q8cw4"></object></table>

<code id="q8cw4"><object id="q8cw4"></object></code>

<noscript id="q8cw4"><optgroup id="q8cw4"></optgroup></noscript>