成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10倍!微軟開(kāi)源史上最大NLG模型,可訓(xùn)練1000億參數(shù)的模型

新聞 深度學(xué)習(xí)
人工智能的最新趨勢(shì)是,更大的自然語(yǔ)言模型可以提供更好的準(zhǔn)確性,但是由于成本、時(shí)間和代碼集成的障礙,較大的模型難以訓(xùn)練。

人工智能的最新趨勢(shì)是,更大的自然語(yǔ)言模型可以提供更好的準(zhǔn)確性,但是由于成本、時(shí)間和代碼集成的障礙,較大的模型難以訓(xùn)練。

微軟日前開(kāi)源了一個(gè)深度學(xué)習(xí)優(yōu)化庫(kù) DeepSpeed,通過(guò)提高規(guī)模、速度、可用性并降低成本,可以在當(dāng)前一代的 GPU 集群上訓(xùn)練具有超過(guò) 1000 億個(gè)參數(shù)的深度學(xué)習(xí)模型,極大促進(jìn)大型模型的訓(xùn)練。同時(shí),與最新技術(shù)相比,其系統(tǒng)性能可以提高 5 倍以上。

10倍!微软开源史上最大NLG模型,可训练1000亿参数的模型

根據(jù)微軟的介紹,DeepSpeed 庫(kù)中有一個(gè)名為 ZeRO(零冗余優(yōu)化器,Zero Redundancy Optimizer)的組件,這是一種新的并行優(yōu)化器,它可以大大減少模型和數(shù)據(jù)并行所需的資源,同時(shí)可以大量增加可訓(xùn)練的參數(shù)數(shù)量。

研究人員利用這些突破創(chuàng)建了圖靈自然語(yǔ)言生成模型(Turing-NLG),這是最大的公開(kāi)語(yǔ)言模型,參數(shù)為 170 億。

ZeRO 作為 DeepSpeed 的一部分,是一種用于大規(guī)模分布式深度學(xué)習(xí)的新內(nèi)存優(yōu)化技術(shù),它可以在當(dāng)前的 GPU 集群上訓(xùn)練具有 1000 億個(gè)參數(shù)的深度學(xué)習(xí)模型,其吞吐量是當(dāng)前最佳系統(tǒng)的 3 到 5 倍。它還為訓(xùn)練具有數(shù)萬(wàn)億個(gè)參數(shù)的模型提供了一條清晰的思路。

ZeRO 具有三個(gè)主要的優(yōu)化階段,分別對(duì)應(yīng)于優(yōu)化器狀態(tài)、梯度和參數(shù)分區(qū)。

10倍!微软开源史上最大NLG模型,可训练1000亿参数的模型

ZeRO 克服了數(shù)據(jù)并行和模型并行的局限性,同時(shí)實(shí)現(xiàn)兩者的優(yōu)點(diǎn),它通過(guò)跨數(shù)據(jù)并行進(jìn)程將模型狀態(tài)劃分為上圖所示的參數(shù)、梯度和優(yōu)化器狀態(tài)分區(qū),而不是復(fù)制它們,從而消除了數(shù)據(jù)并行進(jìn)程之間的內(nèi)存冗余。

在訓(xùn)練期間使用動(dòng)態(tài)通信規(guī)劃(dynamic communication schedule),在分布式設(shè)備之間共享必要的狀態(tài),以保持?jǐn)?shù)據(jù)并行的計(jì)算粒度和通信量。

目前實(shí)施了 ZeRO 的第一階段,即優(yōu)化器狀態(tài)分區(qū)(簡(jiǎn)稱 ZeRO-OS),具有支持 1000 億參數(shù)模型的強(qiáng)大能力,此階段與 DeepSpeed 一起發(fā)布。

DeepSpeed 與 PyTorch 兼容,DeepSpeed API 是在 PyTorch 上進(jìn)行的輕量級(jí)封裝,這意味著開(kāi)發(fā)者可以使用 PyTorch 中的一切,而無(wú)需學(xué)習(xí)新平臺(tái)。此外,DeepSpeed 管理著所有樣板化的 SOTA 訓(xùn)練技術(shù),例如分布式訓(xùn)練、混合精度、梯度累積和檢查點(diǎn),開(kāi)發(fā)者可以專注于模型開(kāi)發(fā)。

同時(shí),開(kāi)發(fā)者僅需對(duì) PyTorch 模型進(jìn)行幾行代碼的更改,就可以利用 DeepSpeed 獨(dú)特的效率和效益優(yōu)勢(shì)來(lái)提高速度和規(guī)模。

10倍!微软开源史上最大NLG模型,可训练1000亿参数的模型

DeepSpeed 在以下四個(gè)方面都表現(xiàn)出色:

規(guī)模:目前最先進(jìn)的大型模型,例如 OpenAI GPT-2、NVIDIA Megatron-LM 和 Google T5,分別具有 15 億、83 億和 110 億個(gè)參數(shù),而 DeepSpeed 的 ZeRO 第一階段提供系統(tǒng)支持,以運(yùn)行多達(dá) 1000 億個(gè)參數(shù)的模型,這是比當(dāng)前最先進(jìn)的模型大 10 倍。

未來(lái)計(jì)劃增加對(duì) ZeRO 第二和第三階段的支持,從而提供高達(dá) 2000 億個(gè)乃至數(shù)萬(wàn)億個(gè)參數(shù)的模型的能力。

速度:在各種硬件上,目前觀察到的吞吐量比當(dāng)前最先進(jìn)技術(shù)高出 5 倍。例如,為了在 GPT 系列工作負(fù)載上訓(xùn)練大型模型,DeepSpeed 將基于 ZeRO 的數(shù)據(jù)并行與 NVIDIA Megatron-LM 模型并行相結(jié)合,在具有低帶寬互連的 NVIDIA GPU 集群上(沒(méi)有 NVIDIA NVLink 或 Infiniband),與僅對(duì)具有 15 億參數(shù)的標(biāo)準(zhǔn) GPT-2 模型使用 Megatron-LM 相比,DeepSpeed 將吞吐量提高了 3.75 倍。

在具有高帶寬互連的 NVIDIA DGX-2 集群上,對(duì)于 20 至 800 億個(gè)參數(shù)的模型,速度要快 3 到 5 倍。這些吞吐量的提高來(lái)自 DeepSpeed 更高的內(nèi)存效率以及使用較低程度的模型并行和較大的批處理量來(lái)擬合這些模型的能力。

成本:提高吞吐量意味著大大降低訓(xùn)練成本,例如,要訓(xùn)練具有 200 億個(gè)參數(shù)的模型,DeepSpeed 需要的資源是原來(lái)的 3/4。

易用性:只需更改幾行代碼即可使 PyTorch 模型使用 DeepSpeed 和 ZeRO。與當(dāng)前的模型并行庫(kù)相比,DeepSpeed 不需要重新設(shè)計(jì)代碼或重構(gòu)模型,它也沒(méi)有對(duì)模型尺寸、批處理大小或任何其它訓(xùn)練參數(shù)加以限制。

對(duì)于參數(shù)多達(dá) 60 億的模型,可以方便地使用由 ZeRO 提供的數(shù)據(jù)并行能力,而無(wú)需模型并行。而相比之下,對(duì)于參數(shù)超過(guò) 13 億的模型,標(biāo)準(zhǔn)數(shù)據(jù)并行將耗盡內(nèi)存。ZeRO 第二和第三階段將進(jìn)一步增加僅通過(guò)數(shù)據(jù)并行即可訓(xùn)練的模型大小。此外,DeepSpeed 支持 ZeRO 支持的數(shù)據(jù)并行與模型并行的靈活組合。

最后附上GitHub地址:https://github.com/microsoft/DeepSpeed

 

責(zé)任編輯:張燕妮 來(lái)源: 開(kāi)源最前線
相關(guān)推薦

2023-07-18 15:05:00

開(kāi)源大模型

2023-12-03 08:49:38

微軟開(kāi)源

2023-03-14 14:09:00

訓(xùn)練人工智能

2022-12-06 14:11:32

開(kāi)源模型

2023-12-13 12:55:39

模型數(shù)據(jù)

2023-09-13 06:54:44

AI模型測(cè)試

2023-11-06 11:26:55

模型開(kāi)源

2023-08-03 19:11:45

2020-11-18 10:29:07

模型人工智能開(kāi)源

2022-01-14 15:01:53

谷歌開(kāi)源技術(shù)

2025-06-24 09:08:31

2023-09-26 14:21:33

模型開(kāi)源Qwen-14B

2021-10-27 15:42:50

模型人工智能深度學(xué)習(xí)

2024-03-14 11:55:33

AI訓(xùn)練

2019-06-10 00:45:01

谷歌開(kāi)源圖像識(shí)別

2022-06-25 21:17:15

人工智能訓(xùn)練

2021-01-25 13:45:14

模型人工智能深度學(xué)習(xí)

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2023-10-31 12:45:00

智能數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品日韩在线观看一区二区 | 国产精品久久国产精品 | 九九99九九精彩46 | 免费成人高清在线视频 | 国产午夜一级 | 久久婷婷国产麻豆91 | 国产精品99久久久久久www | 欧美 日韩 国产 成人 在线 | 亚洲日本成人 | 久久精品国产一区二区电影 | 久久激情网| 91在线视频免费观看 | 日韩在线视频一区 | 久久在线视频 | 亚洲视频一区在线观看 | 99精品一区二区 | h小视频| 国产精品波多野结衣 | 日本黄色一级视频 | 国产良家自拍 | 二区在线视频 | 亚洲一区网站 | 一区二区三区免费 | 欧美国产精品 | 亚洲午夜精品 | 性做久久久久久免费观看欧美 | 一区二区三区久久久 | 成人免费片 | 日本人做爰大片免费观看一老师 | 亚洲成人一区二区在线 | 99精品免费视频 | 亚洲福利 | 国产一区免费 | 久久久久久a | 色啪网| 欧美男人天堂 | 成人免费网视频 | 国产片侵犯亲女视频播放 | 亚洲毛片网站 | 91文字幕巨乱亚洲香蕉 | 国产精品久久久久久久久久免费看 |