成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

訓大模型講究「化勁」!陶大程帶隊:一文打盡「高效訓練」方案,別再說硬件是唯一瓶頸

人工智能 新聞
在實驗室訓大模型不能用死勁兒,這篇綜述教你四兩撥千斤!

深度學習領域已經取得了階段性重大進展,特別是在計算機視覺、自然語言處理和語音等方面,使用大數據訓練得到的大規模模型對于實際應用、提高工業生產力和促進社會發展具有巨大的前景。

圖片

不過大模型也需要大算力才能訓得動,隨著人們對計算能力要求的不斷提高,盡管已有許多研究探索高效的訓練方法,但仍然沒有對深度學習模型加速技術的全面綜述。

最近,來自悉尼大學、中國科學技術大學等機構的研究人員發布了一篇綜述,全面總結了大規模深度學習模型的高效訓練技術,展現了訓練過程中的各個組件內的通用機制。

圖片

論文鏈接:https://arxiv.org/pdf/2304.03589.pdf

研究人員考慮了最基本的權重更新公式,并將其基本組成部分劃分為五個主要方面: 

圖片

1、以數據為中心(data-centric),包括數據集正則化、數據采樣和以數據為中心的課程學習技術,可以顯著降低數據樣本的計算復雜性;

2、以模型為中心(model-centric),包括基本模塊的加速、壓縮訓練、模型初始化和以模型為中心的課程學習技術,側重于通過減少參數計算來加速訓練;

3、以優化為中心(optimization-centric),包括學習率的選擇、使用大batch size、高效目標函數的設計、模型加權平均技術等;側重于訓練策略以提高大規模模型的通用性;

4、預算訓練(budgeted training),包括一些在硬件受限的情況下使用的加速技術;

5、以系統為中心(system-centric),包括一些高效的分布式框架和開源庫,為加速算法的實現提供足夠的硬件支持。

以數據為中心的高效訓練

最近,大規模模型的進展大放異彩,而其對數據集的要求卻急劇增加。巨大的數據樣本被用來驅動訓練過程并取得出色的性能。因此,以數據為中心的研究對實際加速至關重要。

數據處理(data processing)的基本作用是在不額外增加標注成本的情況下,高效地增加數據樣本的多樣性;由于數據標注的成本往往過于昂貴,部分開發機構無法負擔,也凸顯了以數據為中心領域的研究的重要性;同時,數據處理還注重提高數據樣本的并行加載效率。

研究人員將所有這些對數據的高效處理稱為「以數據為中心」(data-centric)的方法,可以顯著提高訓練大規模模型的性能。

文中從以下幾個方面回顧和研究技術:

數據正則化 Data Regularization

數據正則化是一種預處理技術,通過一系列的數據變換來增強原始數據樣本的多樣性,可以提高訓練樣本在特征空間中的等效表示,不需要額外的標簽信息的要求。

高效的數據正則化方法在訓練過程中被廣泛使用,能夠顯著提高大規模模型的泛化性能。

數據采樣 Data sampling

數據采樣也是一種有效的方法,從大批量的樣本中選擇一個子集來對梯度進行更新,它的好處是以小批量的訓練的方式,可以減少當前批次中那些不重要的或不好樣本的影響。

通常情況下,采樣出來的數據是更重要的,性能與使用全批次訓練得到的模型相當;每次迭代的概率需要隨著訓練過程逐漸調整,以確保采樣沒有偏差。

以數據為中心的課程學習 Data-centric Curriculum Learning

課程學習在訓練過程的不同階段研究漸進的訓練設置,以減少整體的計算成本。

在開始的時候,使用低質量的數據集訓練足以學習低層次的特征;然后使用高質量的數據集(更多的增強和復雜的預處理方法)逐漸幫助學習復雜的特征,并達到與使用整個訓練集相同的精度。

以模型為中心的高效訓練

設計高效的模型架構始終是深度學習領域最重要的研究之一,一個優秀的模型應當是一個高效的特征提取器,可以投射到容易分離的高級特征中。

與其他特別關注高效、新穎的模型架構的工作不同,這篇論文在「以模型為中心」的研究中更加關注通用模塊的等價替代方案,在具有可比性的情況下實現更高的訓練效率。

幾乎所有的大型模型都是由小模塊或層組成的,所以對模型的調研可以為高效訓練大規模模型提供指導作用,研究人員主要從以下幾個方面研究:

架構效率 Architecture Efficiency

隨著深度模型中參數量的急劇增加,也帶來了巨大的計算消耗,所以需要實現一個高效的替代方案來近似原始版本的模型架構的性能,這個方向也逐漸受到學術界的重視;這種替換不僅僅是數值計算的近似,還包括深度模型中的結構簡化和融合。

研究人員根據不同的架構來區分現有的加速技術,并展示了一些觀察和結論。

壓縮訓練效率 Compression Training Efficiency

壓縮一直是計算加速的研究方向之一,在數字信號處理(多媒體計算/圖像處理)中起著關鍵作用。

傳統的壓縮包括兩個主要分支:量化和稀疏,文中詳細說明了二者現有的成就和對深度訓練的貢獻。

初始化效率 Initialization Efficiency

模型參數的初始化在現有的理論分析和實際場景中都是一個非常重要的因素。

一個不好的初始化狀態甚至會導致整個訓練在早期的訓練階段崩潰和停滯,而一個好的初始化狀態則有助于在一個平滑的損失范圍內加快整個收斂的速度,文中主要從模型初始化的角度研究評估和算法設計。

以模型為中心的課程學習 Model-centric Curriculum Learning

從以模型為中心的角度來看,課程學習通常從大規模模型中的一個小模型或部分參數開始訓練,然后逐漸恢復到整個架構;在加速訓練過程中顯示了較大優勢,并且沒有明顯的負面效應,文中回顧了該方法在訓練過程中的實現和效率。

以優化為中心的高效學習

優化方法的加速方案一直是機器學習領域的一個重要研究方向,在實現最優條件的同時降低復雜性一直是學術界追求的目標。

近年來,高效、強大的優化方法在訓練深度神經網絡方面取得了重要突破,作為機器學習中廣泛使用的基本優化器,SGD類的優化器成功地幫助深度模型實現各種實際應用,不過隨著問題的日益復雜,SGD更容易陷入局部最小值,無法穩定地泛化。

為了解決這些困難,Adam及其變種被提出來,在更新上引入自適應性,這種做法在大規模的網絡訓練中取得了良好的效果,例如在BERT、Transformer和ViT模型中都有應用。

除了所設計的優化器的自身性能外,對加速訓練技術的組合也很重要。

研究人員基于優化的角度,將目前對加速訓練的思考總結為以下幾個方面:

學習率  Learning rate

學習率是非凸優化的一個重要的超參數,在當前的深度網絡訓練中也是至關重要的,像Adam及其變種這樣的自適應方法,已經成功地在深度模型上取得了卓越的進展。

圖片

一些基于高階梯度的調整學習率的策略也有效地實現了加速訓練,學習率衰減的實現也會影響到訓練過程中的性能。

大批尺寸 Large batchsize

采用更大的批處理量將有效地提高訓練效率,能夠直接減少完成一個epoch訓練所需的迭代次數;在樣本總量固定的情況下,處理一個更大的批尺寸比處理多個小批尺寸的樣本來說消耗更低,因為可以提高內存利用率和降低通信瓶頸。

高效的目標 Efficient objective

最基礎的ERM在最小化問題上起到關鍵作用,使得許多任務得以實際運用。

隨著對大型網絡研究的深入,一些作品更加關注優化和泛化之間的差距,并提出有效的目標以減少測試誤差;從不同的角度解釋泛化的重要性,并在訓練中對其進行聯合優化,可以大大加快測試的準確性。

加權平均  Averaged weights

加權平均是一種實用的技術,可以增強模型的通用性,因為考慮的是歷史狀態的加權平均,有一組凍結的或可學習的系數,可以大大加快訓練進程。

預算化高效訓練

最近有幾項工作專注于用較少的資源訓練深度學習模型,并且盡可能地實現更高的精度。

這類問題被定義為預算訓練(budgeted training),即在給定的預算(對可測量成本的限制)下進行訓練,以實現最高的模型性能。

為了系統地考慮硬件支持以接近真實情況,研究人員將預算訓練定義為在給定的設備和有限的時間內進行訓練,例如,在單個低端深度學習服務器上訓練一天,以獲得具有最佳性能的模型。

圖片

對預算內訓練的研究可以闡明如何制作預算內訓練的訓練配方,包括決定模型大小、模型結構、學習率安排和其他幾個影響性能的可調整因素的配置,以及結合適合可用預算的高效訓練技術,文中主要回顧了預算訓練的幾項先進技術。

以系統為中心的高效訓練

以系統為中心的研究就是為所設計的算法提供具體的實現方法,研究的是能夠真正實現高效訓練的硬件的有效和實際執行。

研究人員重點關注通用計算設備的實現,例如多節點集群中的CPU和GPU設備,從硬件的角度解決設計算法中的潛在沖突是關注的核心。

文中主要回顧了現有框架和第三方庫中的硬件實現技術,這些技術有效地支持了數據、模型和優化的處理,并介紹一些現有的開源平臺,為模型的建立、有效利用數據進行訓練、混合精度訓練和分布式訓練提供了堅實的框架。

以系統為中心的數據效率 System-centric Data Efficiency

高效的數據處理和數據并行是系統實現中的兩個重要關注點。

隨著數據量的快速增加,低效的數據處理逐漸成為訓練效率的瓶頸,尤其是在多節點上的大規模訓練,設計更多對硬件友好的計算方法和并行化可以有效避免訓練中的時間浪費。

以系統為中心的模型效率 System-centric Model Efficiency

隨著模型參數數量的急劇擴大,從模型角度看,系統效率已經成為重要的瓶頸之一,大規模模型的存儲和計算效率給硬件實現帶來巨大挑戰。

文中主要回顧如何實現部署的高效I/O和模型并行的精簡實現,以加快實際訓練的速度。

以系統為中心的優化效率 System-centric Optimization Efficiency

優化過程代表了每個迭代中的反向傳播和更新,也是訓練中最耗時的計算,因此以系統為中心的優化的實現直接決定了訓練的效率。

為了清楚地解讀系統優化的特點,文中重點關注不同計算階段的效率,并回顧每個過程的改進。

開源框架 Open Source Frameworks

高效的開源框架可以促進訓練,作為嫁接(grafting)算法設計和硬件支持的橋梁,研究人員調查了一系列開源框架,并分析了每個設計的優勢和劣勢。

圖片

結論

研究人員回顧了有效訓練大規模深度學習模型的通用訓練加速技術,考慮了梯度更新公式中的所有組件,涵蓋了深度學習領域的整個訓練過程。

文中還提出了一個新穎的分類法,將這些技術總結歸類為五個主要方向:以數據為中心、以模型為中心、以優化為中心、預算訓練和以系統為中心。

前四部分主要從算法設計和方法論的角度進行綜合研究,而在「以系統為中心的高效訓練」部分,從范式創新和硬件支持的角度總結了實際實現情況。

文中回顧并總結了與每個部分相對應的常用或最新開發的技術,每項技術的優勢和權衡,并討論局限性和有前景的未來研究方向;在提供全面的技術回顧和指導的同時,這篇綜述還提出了當前高效訓練的突破口和瓶頸。

研究人員希望能幫助研究人員高效地實現通用的訓練加速,并為高效訓練的未來發展提供一些有意義和有前景的影響;除了在每一節末尾提到的一些潛在的進展之外,更廣泛的、有前景的觀點如下:

1、 高效的Profile搜索

高效訓練可以從數據增強組合、模型結構、優化器設計等角度出發,為模型設計預建的和可定制的profile搜索策略,相關研究已經取得了一些進展。

新的模型架構和壓縮模式、新的預訓練任務、對「模型邊緣」(model-edge)知識的利用同樣值得探索。

2、自適應調度器 Adaptive Scheduler

使用一個面向優化的調度器,如課程學習、學習速率和批次大小以及模型的復雜性,有可能實現更好的性能;Budget-aware調度器可以動態適應剩余預算,降低人工設計的成本;自適應調度器可以用來探索并行性和通信方法,同時考慮到更通用且實際的情況,例如在跨越多地區和數據中心的異構網絡中進行大規模去中心化訓練。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-08-26 10:01:50

2023-01-31 13:25:58

SOTA生成式模型

2024-05-29 12:13:50

2024-09-13 17:02:29

2024-09-04 16:19:06

語言模型統計語言模型

2025-05-30 05:00:00

AI模型數據訓練

2021-01-15 18:15:27

人工智能AI

2025-05-30 01:00:00

RAG大模型流程

2020-09-21 14:35:00

算法圖表視覺化

2023-09-12 07:02:19

騰訊混元大模型

2024-12-11 12:58:57

2023-05-16 12:11:22

2025-01-06 11:10:00

架構模型AI

2023-09-25 07:31:19

算力AI框架

2024-07-23 10:34:57

2021-05-14 14:01:31

加密貨幣網絡安全加密錢包

2024-01-29 09:04:15

Wi-Fi數據設備

2022-07-26 00:00:03

語言模型人工智能

2025-04-01 07:00:00

2025-03-26 10:57:40

PyTorchGGUF
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜专区 | 久久久av中文字幕 | 亚洲一区二区在线播放 | 99精品久久久久 | 亚洲国产成人在线 | 欧美日本在线 | 亚洲一区中文字幕 | 亚洲日韩中文字幕 | 亚洲第1页 | 99视频在线免费观看 | 欧美日韩高清免费 | 91久久国产 | 久久另类 | 欧美精品91爱爱 | 亚洲天堂影院 | 久久国产欧美日韩精品 | 成年免费大片黄在线观看一级 | 中文av在线播放 | 国产一区二区在线免费 | 欧美午夜精品久久久久免费视 | 久久这里只有精品首页 | 久久伊| 国产在线精品一区二区三区 | 中文字幕亚洲一区二区三区 | 一级欧美日韩 | 国产成人精品久久二区二区91 | 黄色激情毛片 | 亚洲一区二区三区视频 | 91一区二区 | 久久大陆 | 日韩精品成人免费观看视频 | 日韩区| 欧美一级大片 | 日韩一区二区三区av | 四虎在线视频 | 国产一区二区精品在线观看 | 国产高清在线观看 | 久久精品免费一区二区 | 日韩欧美亚洲 | 日韩午夜电影在线观看 | 日本激情视频中文字幕 |