成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

消費級GPU成功運行1760億參數大模型

人工智能
語言模型的規模一直在變大,PaLM 有 540B 參數,OPT、GPT-3 和 BLOOM 有大約 176B 參數,模型還在朝著更大的方向發展。

在消費級 GPU 上運行大規模模型是機器學習社區正面臨的挑戰。

語言模型的規模一直在變大,PaLM 有 540B 參數,OPT、GPT-3 和 BLOOM 有大約 176B 參數,模型還在朝著更大的方向發展。

圖片

?這些模型很難在易于訪問的設備上運行。例如,BLOOM-176B 需要在 8 個 80GB A100 GPU(每個約 15000 美元)上運行才能完成推理任務,而微調 BLOOM-176B 則需要 72 個這樣的 GPU。PaLM 等更大的模型將需要更多的資源。

我們需要找到方法來降低這些模型的資源需求,同時保持模型的性能。領域內已經開發了各種試圖縮小模型大小的技術,例如量化和蒸餾。

BLOOM 是去年由 1000 多名志愿研究人員在一個名為「BigScience」的項目中創建的,該項目由人工智能初創公司 Hugging Face 利用法國政府的資金運作,今年 7 月 12 日 BLOOM 模型正式發布。

使用 Int8 推理會大幅減少模型的內存占用,卻不會降低模型的預測性能。基于此,來自華盛頓大學、Meta AI 研究院等(原 Facebook AI Research )機構的研究員聯合 HuggingFace 開展了一項研究,試圖讓經過訓練的 BLOOM-176B 在更少的 GPU 上運行,并將所提方法完全集成到 HuggingFace Transformers 中。

圖片

?

  • 論文地址:https://arxiv.org/pdf/2208.07339.pdf
  • Github 地址:https://github.com/timdettmers/bitsandbytes

該研究為 transformer 提出了首個數十億規模的 Int8 量化過程,該過程不會影響模型的推理性能。它可以加載一個具有 16-bit 或 32-bit 權重的 175B 參數的 transformer,并將前饋和注意力投影層轉換為 8-bit。其將推理所需的內存減少了一半,同時保持了全精度性能。

該研究將向量量化和混合精度分解的組合命名為 LLM.int8()。實驗表明,通過使用 LLM.int8(),可以在消費級 GPU 上使用多達 175B 參數的 LLM 執行推理,而不會降低性能。該方法不僅為異常值對模型性能的影響提供了新思路,還首次使在消費級 GPU 的單個服務器上使用非常大的模型成為可能,例如 OPT-175B/BLOOM。

圖片

方法簡介

機器學習模型的大小取決于參數的數量及其精度,通常是 float32、float16 或 bfloat16 之一。float32 (FP32) 代表標準化的 IEEE 32 位浮點表示,使用這種數據類型可以表示范圍廣泛的浮點數。FP32 為「指數」保留 8 位,為「尾數」保留 23 位,為數字的符號保留 1 位。并且,大多數硬件都支持 FP32 操作和指令。

而 float16 (FP16) 為指數保留 5 位,為尾數保留 10 位。這使得 FP16 數字的可表示范圍遠低于 FP32,面臨溢出(試圖表示一個非常大的數字)和下溢(表示一個非常小的數字)的風險。

出現溢出時會得到 NaN(非數字)的結果,如果像在神經網絡中那樣進行順序計算,那么很多工作都會崩潰。bfloat16 (BF16) 則能夠避免這種問題。BF16 為指數保留 8 位,為小數保留 7 位,意味著 BF16 可以保留與 FP32 相同的動態范圍。

理想情況下,訓練和推理應該在 FP32 中完成,但它的速度比 FP16/BF16 慢,因此要使用混合精度來提高訓練速度。但在實踐中,半精度權重在推理過程中也能提供與 FP32 相似的質量。這意味著我們可以使用一半精度的權重并使用一半的 GPU 來完成相同的結果。

但是,如果我們可以使用不同的數據類型以更少的內存存儲這些權重呢?一種稱為量化的方法已廣泛用于深度學習。

該研究首先在實驗中用 2-byte BF16/FP16 半精度代替 4-byte FP32 精度,實現了幾乎相同的推理結果。這樣一來,模型減小了一半。但是如果進一步降低這個數字,精度會隨之降低,那推理質量就會急劇下降。

為了彌補這一點,該研究引入 8bit 量化。這種方法使用四分之一的精度,因此只需要四分之一模型大小,但這不是通過去除另一半 bit 來實現的。

圖片

兩種最常見的 8-bit 量化技術為 zero-point 量化和 absmax(absolute maximum)量化。這兩種方法將浮點值映射為更緊湊的 int8(1 字節)值。

例如,在 zero-point 量化中,如果數據范圍是 -1.0——1.0,量化到 -127——127,其擴展因子為 127。在這個擴展因子下,例如值 0.3 將被擴展為 0.3*127 = 38.1。量化通常會采用四舍五入(rounding),得到了 38。如果反過來,將得到 38/127=0.2992——在這個例子中有 0.008 的量化誤差。這些看似微小的錯誤在通過模型層傳播時往往會累積和增長,并導致性能下降。

圖片

?

雖然這些技術能夠量化深度學習模型,但它們通常會導致模型準確率下降。但是集成到 Hugging Face Transformers 和 Accelerate 庫中的 LLM.int8(),是第一種即使對于帶有 176B 參數的大型模型 (如 BLOOM) 也不會降低性能的技術。

LLM.int8()算法可以這樣解釋,本質上,LLM.int8()試圖通過三個步驟來完成矩陣乘法計算:

  • 從輸入隱藏狀態中,按列提取異常值(即大于某個閾值的值)。
  • 將 FP16 中的異常值與 int8 中的非異常值進行矩陣乘法。
  • 在 FP16 中對非異常值進行去量化,將異常值和非異常值相加,得到完整的結果。

這些步驟可以在下面的動畫中總結:

圖片

最后,該研究還關注了一個問題:速度比原生模型更快嗎?

LLM.int8() 方法的主要目的是使大型模型更易于訪問而不會降低性能。但是,如果它非常慢,那么用處也不大了。研究團隊對多個模型的生成速度進行了基準測試,發現帶有 LLM.int8() 的 BLOOM-176B 比 fp16 版本慢了大約 15% 到 23%——這是完全可以接受的。而較小的模型(如 T5-3B 和 T5-11B)的減速幅度更大。研究團隊正在努力提升這些小型模型的運行速度。

? 圖片 ?

責任編輯:未麗燕 來源: 機器之心
相關推薦

2023-06-07 17:55:01

模型性能

2022-07-20 16:36:02

模型AI

2023-06-02 15:47:49

2023-08-25 09:34:24

模型訓練

2023-06-12 11:49:37

GPT-4 API論文

2023-12-13 12:55:39

模型數據

2022-06-25 21:17:15

人工智能訓練

2023-07-23 17:27:12

2023-06-20 13:38:22

2024-03-07 12:30:56

數據模型

2023-04-26 13:56:17

模型ChatGPT

2023-09-13 10:09:00

模型數據

2025-05-09 01:00:00

大語言模型LLMGPU內存

2024-08-05 14:36:17

大型語言模型量化

2024-03-25 14:22:07

大型語言模型GaLore

2023-08-03 19:11:45

2023-04-21 10:37:40

語言模型

2023-05-19 10:26:01

谷歌模型

2024-02-29 12:56:00

AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 麻豆av网| 日韩中文在线视频 | 成人在线一区二区三区 | 色偷偷人人澡人人爽人人模 | 亚洲精彩免费视频 | 亚洲网站在线观看 | 欧美精品在线观看 | 啪一啪在线视频 | 亚洲a一区二区 | 综合久久99 | 我爱操 | 91 在线 | 欧美日韩中文字幕 | 国产ts人妖一区二区三区 | 偷拍自拍网| 国产专区在线 | 欧美精品99 | 91麻豆产精品久久久久久夏晴子 | 亚洲精品天堂 | 99久久精品视频免费 | 国产91久久久久久久免费 | 一区二区三区在线免费观看 | 国产精品毛片一区二区在线看 | 国产视频久 | 亚洲一二三区免费 | 久久高清| 天堂一区二区三区 | 亚洲一区二区三区福利 | 嫩呦国产一区二区三区av | 日韩欧美理论片 | 中文字幕一区二区三区乱码图片 | 亚洲欧美视频一区 | 欧美国产亚洲一区二区 | 欧美一区免费 | 欧美激情第一区 | 久久久久无码国产精品一区 | 国产视频观看 | 在线观看视频一区 | 日本在线观看网址 | 久久久久久久一区 | 日韩在线免费视频 |