成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型訓(xùn)練成本降低近一半!新加坡國立大學(xué)最新優(yōu)化器已投入使用

人工智能 新聞
隨著大語言模型不斷增加的參數(shù)量,訓(xùn)練時的內(nèi)存消耗問題更為嚴峻。研究團隊提出了 CAME 優(yōu)化器,在減少內(nèi)存消耗的同時,擁有與Adam相同的性能。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

優(yōu)化器在大語言模型的訓(xùn)練中占據(jù)了大量內(nèi)存資源。

現(xiàn)在有一種新的優(yōu)化方式,在性能保持不變的情況下將內(nèi)存消耗降低了一半。

該成果由新加坡國立大學(xué)打造,在ACL會議上獲得了杰出論文獎,并已經(jīng)投入了實際應(yīng)用。

圖片圖片

隨著大語言模型不斷增加的參數(shù)量,訓(xùn)練時的內(nèi)存消耗問題更為嚴峻。

研究團隊提出了 CAME 優(yōu)化器,在減少內(nèi)存消耗的同時,擁有與Adam相同的性能。

圖片圖片

CAME優(yōu)化器在多個常用的大規(guī)模語言模型的預(yù)訓(xùn)練上取得了相同甚至超越Adam優(yōu)化器的訓(xùn)練表現(xiàn),并對大batch預(yù)訓(xùn)練場景顯示出更強的魯棒性。

進一步地,通過CAME優(yōu)化器訓(xùn)練大語言模型,能夠大幅度降低大模型訓(xùn)練的成本。

實現(xiàn)方法

CAME 優(yōu)化器基于 Adafactor 優(yōu)化器改進而來,后者在大規(guī)模語言模型的預(yù)訓(xùn)練任務(wù)中往往帶來訓(xùn)練性能的損失。

Adafactor中的非負矩陣分解操作在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中不可避免地會產(chǎn)生錯誤,對這些錯誤的修正就是性能損失的來源。

而通過對比發(fā)現(xiàn),當起始數(shù)值mt和當前數(shù)值t相差較小時,mt的置信度更高。

圖片圖片

受這一點啟發(fā),團隊提出了一種新的優(yōu)化算法。

下圖中的藍色部分就是CAME相比Adafactor增加的部分。

圖片圖片

CAME 優(yōu)化器基于模型更新的置信度進行更新量修正,同時對引入的置信度矩陣進行非負矩陣分解操作。

最終,CAME成功以Adafactor的消耗得到了Adam的效果。

相同效果僅消耗一半資源

團隊使用CAME分別訓(xùn)練了BERT、GPT-2和T5模型。

此前常用的Adam(效果更優(yōu))和Adafactor(消耗更低)是衡量CAME表現(xiàn)的參照。

其中,在訓(xùn)練BERT的過程中,CAME僅用一半的步數(shù)就達到了和Adafaactor相當?shù)木取?/p>

△左側(cè)為8K規(guī)模,右側(cè)為32K規(guī)模△左側(cè)為8K規(guī)模,右側(cè)為32K規(guī)模

對于GPT-2,從損失和困惑度兩個角度看,CAME的表現(xiàn)和Adam十分接近。

圖片

在T5模型的訓(xùn)練中,CAME也呈現(xiàn)出了相似的結(jié)果。

圖片

而對于模型的微調(diào),CAME在精確度上的表現(xiàn)也不輸于基準。

資源消耗方面,在使用PyTorch訓(xùn)練4B數(shù)據(jù)量的BERT時,CAME消耗的內(nèi)存資源比基準減少了近一半。

團隊簡介

新加坡國立大學(xué)HPC-AI 實驗室是尤洋教授領(lǐng)導(dǎo)的高性能計算與人工智能實驗室。

實驗室致力于高性能計算、機器學(xué)習(xí)系統(tǒng)和分布式并行計算的研究和創(chuàng)新,并推動在大規(guī)模語言模型等領(lǐng)域的應(yīng)用。

實驗室負責人尤洋是新加坡國立大學(xué)計算機系的校長青年教授(Presidential Young Professor)

尤洋在2021年被選入福布斯30歲以下精英榜(亞洲)并獲得IEEE-CS超算杰出新人獎,當前的研究重點是大規(guī)模深度學(xué)習(xí)訓(xùn)練算法的分布式優(yōu)化。

本文第一作者羅旸是該實驗室的在讀碩士生,他當前研究重點為大模型訓(xùn)練的穩(wěn)定性以及高效訓(xùn)練。

論文地址:https://arxiv.org/abs/2307.02047

GitHub項目頁:https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-04-12 15:10:12

框架模型

2023-06-07 14:16:11

AIGPT-4

2024-02-29 11:56:10

AI模型

2023-02-20 13:50:39

AI 領(lǐng)域建模大數(shù)據(jù)

2022-07-06 14:43:21

決策樹算法

2025-05-21 09:14:38

2023-01-05 21:25:06

毫末

2023-05-19 13:01:10

ChatGPT模型

2023-12-06 13:39:00

模型訓(xùn)練

2024-09-26 00:11:01

2013-12-09 09:20:17

谷歌GCEIaaS

2023-09-19 09:22:54

數(shù)據(jù)訓(xùn)練

2012-11-19 10:44:02

移動設(shè)備社交網(wǎng)絡(luò)網(wǎng)絡(luò)接入

2023-07-20 12:32:42

Linux桌面

2023-02-17 10:32:20

2023-10-21 12:42:19

模型訓(xùn)練

2011-11-07 10:06:28

惠普ARM服務(wù)器Moonshot

2009-04-09 19:21:02

Vmware虛擬化服務(wù)器

2025-02-19 14:10:00

AI3D生成

2023-04-24 16:25:47

3D開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩不卡合集视频 | 黄色片网站国产 | 国产精品一区二区三区在线 | 一区二区在线免费播放 | 国产精品精品久久久 | 国产精品欧美一区二区三区不卡 | 欧美一区二区三区久久精品 | 精品一区国产 | 久久伊人精品 | 一区二区三区不卡视频 | 中文字幕一级毛片视频 | 亚洲美女在线视频 | 一区二区三区四区免费视频 | 玖玖国产 | 青青久久av北条麻妃海外网 | 日本精品视频一区二区 | 亚洲国产一区在线 | 伊人久久成人 | 亚洲欧美日韩电影 | 亚洲国产免费 | 国产在线网址 | 日本成人午夜影院 | 久久亚洲天堂 | 精品视频一区二区 | 一区影视| 国产91在线观看 | 日韩高清电影 | 亚洲精品日本 | 91麻豆产精品久久久久久 | 亚洲成人一区二区三区 | 精品久久久久久久久久久久久久久久久 | www.久久 | 午夜日韩 | 天天夜干 | 91精品国产91久久久久久 | 日韩午夜一区二区三区 | 巨大荫蒂视频欧美另类大 | 精品一区二区免费视频 | a视频在线 | 国产精品免费看 | av毛片 |