成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一行代碼訓練成本再降30%,AI大模型混合精度訓練再升級

人工智能
AI大模型開發系統Colossal-AI的混合精度訓練再度升級,支持主流的BF16(O2) + FP8(O1)的新一代混合精度訓練方案。僅需一行代碼,即可對主流LLM模型能夠獲得平均30%的加速效果,降低相應大模型開發成本,并保證訓練收斂性。

FP8通過其獨特的數值表示方式,能夠在保持一定精度的同時,在大模型訓練中提高訓練速度、節省內存占用,最終降低訓練成本。

AI大模型開發系統Colossal-AI的混合精度訓練再度升級,支持主流的BF16(O2) + FP8(O1)的新一代混合精度訓練方案。

僅需一行代碼,即可對主流LLM模型能夠獲得平均30%的加速效果,降低相應大模型開發成本,并保證訓練收斂性。

無需引入額外的手寫CUDA算子,避免了較長的AOT編譯時間和復雜的編譯環境配置。

開源地址:https://github.com/hpcaitech/ColossalAI

FP8混合精度訓練

低精度計算一直是GPU硬件發展趨勢。

從最早的FP32,到目前通用的FP16/BF16,再到Hopper系列芯片(H100, H200, H800等)支持的FP8,低精度計算速度越來越快,所需的內存也越來越低,非常符合大模型時代對硬件的需求。

目前FP8混合精度訓練影響訓練結果的最大因素就是scaling方案,常見的方案有兩種:

  • 延遲scaling
  • 實時scaling

延遲scaling采用之前一段時間窗口內的scaling值來估計當前scaling,同時將scaling的更新和矩陣乘法(gemm)融合起來。這種計算方法效率較高,但由于是估算的scaling,所以對收斂性影響較大。

實時scaling直接采用當前的張量值來計算scaling,所以計算效率較低,但是對收斂性影響較小。根據英偉達的報告,這兩種scaling方案的計算效率差距在10%以內。

Colossal-AI采用了對訓練收斂性影響較小的實時scaling方案,同時實現有著不輸其他延遲scaling實現的性能。

在單卡H100上對矩陣乘法進行的測試,可以看到矩陣的維度越大,FP8的加速效果越明顯,而且Colossal-AI的實現與Transformer Engine的性能幾乎一致,如圖1所示。但Transformer Engine需要復雜的AOT編譯環境配置和較長的編譯時間。

圖片圖片

△圖1. 單卡GEMM性能測試

為了實驗結果更貼近現實,Colossal-AI直接在主流LLM上進行了實際訓練的測試。

首先在H100單卡上進行了測試,以下測試中Transformer Engine (TE)采用的其默認的延遲scaling方案。

圖片圖片

圖片圖片

同時進行了收斂性測試,可以看到FP8混合精度訓練的loss曲線與bf16的基本一致,如圖4所示:

圖片圖片


△圖4. H100單卡 LLaMA2-7B 混合精度訓練loss曲線

Colossal-AI還測試了H800多卡并行訓練場景下的性能。在單機8卡H800上訓練LLaMA2-7B,Colossal-AI FP8對比Colossal-AI BF16有35%的吞吐提升,對比Torch FSDP BF16有94%的吞吐提升。

圖片圖片

在單機8卡H800上訓練LLaMA2-13B,Colossal-AI FP8對比Colossal-AI BF16有39%的吞吐提升。

圖片圖片

在2機16卡H800上訓練Cohere Command-R 35B,Colossal-AI FP8對比Colossal-AI BF16有10%的吞吐提升,如圖7所示:

圖片圖片

根據英偉達的報告和測試經驗,對FP8混合精度訓練性能調優有一些初步的認識:

  • 盡量少使用張量并行,用流水線并行代替張量并行
  • 模型hidden size越大,加速效果越明顯
  • 矩陣乘法占比高的模型加速效果大

由于上述實驗中Command-R 35B采用了張量并行,所以加速效果不太明顯。

Colossal-AI對FP8的支持較為廣泛,各種并行方式都能和FP8混合精度訓練兼容。使用時,僅需在初始化plugin時開啟FP8即可:

from colossalai.booster.plugin import GeminiPlugin, HybridParallelPlugin, LowLevelZeroPlugin
...
plugin = LowLevelZeroPlugin(..., use_fp8=True)
plugin = GeminiPlugin(..., use_fp8=True)
plugin = HybridParallelPlugin(..., use_fp8=True)

除此之外,無需多余的代碼和AOT編譯。

開源地址:https://github.com/hpcaitech/ColossalAI

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-11-10 09:41:44

Python代碼

2023-02-20 13:50:39

AI 領域建模大數據

2020-07-13 14:30:35

人工智能機器學習技術

2023-11-02 12:49:00

AI模型

2021-05-11 20:46:17

Python代碼分類

2024-07-08 13:11:40

2021-12-06 20:32:41

AI

2023-02-09 16:32:16

混合精度深度學習

2023-10-18 12:50:12

數據模型

2025-03-11 09:20:00

2025-04-01 09:54:09

AI算法大模型AI

2020-11-17 08:36:08

云計算混合云技術

2023-07-12 10:04:20

模型訓練

2023-06-15 09:58:48

2025-01-09 08:01:10

2023-06-27 12:56:23

微軟AI

2025-03-12 12:10:13

2022-06-15 11:27:15

開源代碼項目

2024-11-27 14:30:00

模型訓練

2025-03-13 12:39:22

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠爱免费视频 | 欧美videosex性极品hd | 国产目拍亚洲精品99久久精品 | 人人人人干 | 欧美一区二区三区在线播放 | 亚洲国产一区视频 | 99久久久国产精品 | 99精品欧美一区二区蜜桃免费 | 精品网站999www | 中国一级毛片免费 | 午夜一区二区三区视频 | 欧美一区二区三区四区在线 | 国产精品久久精品 | 国产欧美一区二区三区在线看蜜臀 | 亚洲va国产日韩欧美精品色婷婷 | 五月天激情综合网 | 在线区| 玖玖视频免费 | 91精品国产综合久久久久久蜜臀 | 在线播放中文字幕 | 欧美日韩在线综合 | www日本在线观看 | 亚洲欧美日韩国产 | 日韩精品在线看 | 久久久久久看片 | 九九精品久久久 | 中文成人在线 | 一级毛片播放 | 亚洲一区国产精品 | 精区3d动漫一品二品精区 | 亚洲色片网站 | 性高湖久久久久久久久3小时 | 日韩综合在线 | 视频在线一区 | 成人亚洲网 | 欧美中文在线 | 色婷婷av99xx | av一区二区三区 | 亚洲电影一级片 | 91在线观看免费 | 蜜月va乱码一区二区三区 |