成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模型合并之 PMA 策略:大型語言模型預訓練的 “加速引擎”

人工智能
大型語言模型發(fā)展迅猛,但預訓練成本高昂、訓練不穩(wěn)定等問題需要解決。本文探討了預訓練模型合并技術,尤其是 PMA 策略,為模型開發(fā)帶來新思路。在模型性能、訓練效率及成本優(yōu)化等方面均有顯著優(yōu)勢,雖有局限但前景廣闊,引發(fā)對 AI 模型優(yōu)化與資源高效利用的深刻思考。

大家好,我是肆〇柒。在 AI 領域,大型語言模型(LLM)在自然語言處理、智能問答系統(tǒng)和代碼生成等眾多任務中展現(xiàn)出卓越能力。然而,這些模型的發(fā)展面臨諸多挑戰(zhàn),包括預訓練成本高昂、特定領域后訓練效果有限、性能擴展預測不確定以及大規(guī)模訓練不穩(wěn)定等問題。而模型合并技術作為一種新興方法,為解決這些挑戰(zhàn)提供了新思路。盡管模型合并技術在后訓練階段已顯示出顯著優(yōu)勢,但在預訓練階段的研究相對較少。我看到一篇關于在預訓練階段模型合并的研究論文,這篇論文是由 ByteDance Seed 發(fā)表的,此文深入探討了預訓練過程中的模型合并技術,并重點介紹了一種創(chuàng)新的預訓練模型平均(PMA)策略。下面我們就一起來看看這篇論文說了啥。

研究背景

大型語言模型雖在性能上表現(xiàn)出色,但其發(fā)展面臨多重阻礙。預訓練成本高昂,例如 GPT-3 的預訓練成本高達數(shù)百萬美元,對中小研究團隊構成巨大經(jīng)濟壓力。特定領域后訓練效果不理想,模型在通用領域的優(yōu)異表現(xiàn)難以完全復制到特定專業(yè)領域。性能擴展預測的不確定性使得模型開發(fā)方向難以確定。大規(guī)模訓練的不穩(wěn)定性可能導致訓練進程失敗。

然而,模型合并技術在后訓練階段的應用為我們提供了借鑒。DARE 方法可通過合并不同模型,在 GSM8K 數(shù)據(jù)集上的得分從 2.2 提升至 66.3,展現(xiàn)出模型合并挖掘模型潛力的巨大優(yōu)勢。但預訓練階段的模型合并研究較少,LAWA 方法雖嘗試利用模型合并加速 LLM 訓練,但隨著模型和數(shù)據(jù)規(guī)模的爆炸式增長,獨立研究人員面臨無法獲取大規(guī)模預訓練中間 check point 的困境,限制了預訓練模型合并的研究進展。

研究方法:預訓練模型平均(PMA)策略

PMA 策略作為本文的核心創(chuàng)新點,主張在預訓練的不同階段,將多個模型 check point 的權重進行融合,實現(xiàn)模型層面的深度整合。

在實施過程中,研究者們選擇了 Dense 模型和 MoE 架構作為實驗載體。Dense 模型能夠充分捕捉數(shù)據(jù)的復雜模式,而 MoE 架構在處理大規(guī)模數(shù)據(jù)時展現(xiàn)出獨特優(yōu)勢。學習率調度策略采用 Warmup-Stable-Decay(先在 warmup 階段緩慢提升學習率,接著在穩(wěn)定階段保持恒定學習率,最后在 decay 階段逐步降低學習率)策略。評估指標涵蓋多個維度,包括模型在下游任務中的準確率和訓練過程中的損失變化等。

實驗設計全面而巧妙。研究者們在恒定學習率階段對 PMA 策略進行了深入探索,還踏入了余弦退火階段這一復雜領域。他們對不同規(guī)模的模型進行了全面訓練,從小型的Seed-MoE-1.3B/13B 到大型的 Seed-MoE-10B/100B 等。所使用的數(shù)據(jù)集規(guī)模宏大,內部預訓練語料包含數(shù)萬億個 token,涵蓋多種語言和領域,為模型訓練提供了豐富資源。

實驗結果與分析:性能提升

在恒定學習率階段,PMA 策略為模型性能帶來了顯著提升。以 Seed-MoE-1.3B/13B 模型為例,在 Humaneval 基準測試中,其性能從 31.1 提升至 36.6;Seed-MoE-10B/100B 模型在 GSM8K 數(shù)據(jù)集上的表現(xiàn)也從 54.3 提升至 61.6。這些提升代表著模型在代碼生成和數(shù)學問題解決等復雜任務上能力的顯著增強。

如下圖所示,不同大小的 MoE 模型在穩(wěn)定訓練階段經(jīng)過模型合并后,在多個下游任務上的性能得到了顯著提升,充分展示了 PMA 策略的有效性。

圖片

不同大小的Mixture of Experts(MoE)模型在穩(wěn)定訓練情況下的下游任務性能比較,以及模型合并前后的性能對比

在余弦退火階段,PMA 策略展現(xiàn)出了驚人效果。隨著學習率的逐步降低,模型表現(xiàn)出良好的收斂性。更令人驚喜的是,PMA 策略在早期退火階段就能取得與退火過程結束時相當甚至更優(yōu)的性能。這表明 PMA 策略能夠更早地找到接近最優(yōu)解的參數(shù)組合,加速模型的收斂過程。

如下圖所示,不同大小的 MoE 模型在余弦退火階段經(jīng)過模型合并后的整體性能變化。

圖片

不同大小MoE模型退火訓練下,合并前后整體性能對比

僅僅使用 Warmup-Stable 階段與 PMA 策略相結合,跳過退火階段的實驗設計,結果有力地論證了這種簡化訓練流程的可能性。這種創(chuàng)新的訓練方式在加速模型驗證的同時,還顯著降低計算資源的需求,為大規(guī)模模型訓練節(jié)省大量時間和金錢成本。

如下圖所示,在穩(wěn)定訓練階段使用 PMA 策略與真實退火模型的性能對比。

圖片

圖片

穩(wěn)定訓練下的模型融合結果與真實退火模型在下游任務性能上的比較

不同合并方法對比

在模型合并方法的探索中,研究者們對 Simple Moving Average(SMA)、Weighted Moving Average(WMA)和 Exponential Moving Average(EMA)這三種常見的方法進行了深入研究和比較,以應對不同的訓練場景和需求。

這三種方法各有特點。SMA 方法在所有模型 check point 上均勻分配權重,對待每個 check point 都一視同仁。WMA 方法更注重近期的模型 check point ,認為它們更具參考價值,因此賦予它們更大的權重。而 EMA 方法通過指數(shù)遞減的方式分配權重,對最近的模型 check point 更為敏感,能夠快速響應模型在訓練后期的變化。

從數(shù)學原理來看,WMA 方法在訓練早期表現(xiàn)更優(yōu)的原因在于其權重分配策略能夠更好地捕捉模型參數(shù)的變化趨勢。在訓練初期,模型參數(shù)更新較快,近期的 check point 包含了更多的新信息。WMA 通過賦予這些 check point 更大的權重,能夠更有效地利用這些新信息,從而更快地逼近最優(yōu)解。隨著訓練的進行,模型參數(shù)逐漸趨于穩(wěn)定,各方法之間的權重差異對性能的影響逐漸減弱。這一過程可以通過對模型參數(shù)更新的數(shù)學建模來進一步驗證。假設模型參數(shù)在訓練過程中遵循某種動態(tài)變化規(guī)律,如隨機梯度下降(SGD)中的參數(shù)更新公式:

在 Seed-MoE-1.3/13B 模型的實驗中,這些方法展現(xiàn)出了不同的優(yōu)勢。在訓練早期,模型的參數(shù)尚未穩(wěn)定,變化較大,此時 WMA 方法因其對近期 check point 的重視,在性能上表現(xiàn)更為出色。然而,隨著訓練的推進,模型參數(shù)逐漸趨于穩(wěn)定,各方法之間的性能差異逐漸縮小?;谄鋵崿F(xiàn)的簡單性和在大多數(shù)情況下的穩(wěn)定性,SMA 方法在后續(xù)實驗中成為了優(yōu)先選擇的對象,它在各種復雜的環(huán)境中都能保持穩(wěn)定的發(fā)揮。

如下圖所示,不同模型合并方法(WMA、SMA、EMA 不同參數(shù))對最終模型性能的影響在訓練的不同階段各有優(yōu)勢,這為選擇合適的合并方法提供了依據(jù)。

圖片

不同模型融合方法對最終模型性能的影響

模型合并的優(yōu)化應用

確定最佳合并參數(shù)

在模型合并的優(yōu)化應用中,確定最佳合并參數(shù)至關重要。研究者們通過對不同規(guī)模模型的消融研究,探索了模型合并時的最佳間隔(V)和模型數(shù)量(N)這兩個關鍵參數(shù)。以 Seed-MoE-1.3/13B 模型為例,在訓練早期,較小的間隔和較少的模型數(shù)量會因包含過多不穩(wěn)定的權重而導致性能下降。而隨著訓練的進行,模型的權重逐漸穩(wěn)定,較大間隔和較多模型數(shù)量的組合則能更好地融合不同階段的知識,提升模型性能。研究發(fā)現(xiàn),對于不同規(guī)模的模型,最佳參數(shù)選擇呈現(xiàn)出一定的規(guī)律性。小型模型如 1.3B/13B 模型,最佳間隔約為 8B tokens;而大型模型如 10B/100B 模型,最佳間隔則需要擴大到 80B tokens 左右。

如下圖所示,不同間隔(V)和模型數(shù)量(N)對模型性能的影響揭示了確定最佳合并參數(shù)的重要性。

圖片

不同模型融合超參數(shù)對最終模型性能的影響

下游訓練的促進作用(PMA - init)

PMA - init 作為 PMA 策略在下游訓練階段的創(chuàng)新應用,將模型合并后的權重作為初始化權重,以改善下游模型性能并穩(wěn)定訓練過程。在持續(xù)訓練(CT)階段,實驗結果顯示,采用 PMA - init 的模型在初始訓練階段的損失值普遍低于基線模型。盡管在訓練后期,兩種初始化方式的損失值逐漸趨于一致,但 PMA - init 模型在早期的快速收斂為整個訓練過程節(jié)省了寶貴時間。在監(jiān)督微調(SFT)階段,雖然 PMA - init 的優(yōu)勢不像在 CT 階段那樣明顯,但它仍然在某些情況下能夠帶來性能提升,并且不會對最終性能造成負面影響。

下表展示了在不同學習率調度下,PMA-init 對模型性能的具體提升數(shù)據(jù)。可以對照前文關于 PMA-init 在 SFT 階段作用的描述來理解,幫助大家更直觀地理解 PMA-init 在不同學習率設置下的效果差異。

模型

Open-Benchmark

In-house Evaluation

指標

MMLU

LiveBench

AMC-2023

GPQA

LiveCodeBench

OOD

Reasoning

IF

BaseLine2e-5->2e-6

86.8

50.5

61.0

55.2

39.7

32.6

32.1

36.3

PMA2e-5->2e-6

87.1

52.0

64.0

54.0

39.4

34.7

34.0

38.8

PMA1e-5->2e-6


87.2

53.2

65.5

54.4

39.7

33.8

33.2

37.3

PMA4e-5->2e-6


87.2

53.2

65.5

54.4

39.7

33.8

33.2

37.3

如下圖所示,PMA-init 技術與基線模型在不同學習率調度下的損失曲線和性能指標對比,突出了 PMA-init 在 CT 階段的優(yōu)勢。

圖片

圖片

損失曲線(上)和性能指標(下)在CT階段隨不同學習率調度策略的變化,其中采用余弦調度器將學習率從學習率峰值衰減到學習率終點(表示為lrpeak→lrend)的對比情況

對訓練穩(wěn)定性的提升

在大規(guī)模 LLM 訓練中,訓練不穩(wěn)定性現(xiàn)象如損失突增或發(fā)散等問題,可能破壞訓練進程,浪費大量計算資源。PMA - init 在提升訓練穩(wěn)定性方面表現(xiàn)出色。通過在小模型上使用大比率學習率模擬訓練不穩(wěn)定性的實驗,研究者們發(fā)現(xiàn),在監(jiān)督微調(SFT)階段應用 PMA - init 能夠顯著穩(wěn)定 GradNorm 指標,并減少損失突增的頻率。當模型遭遇不可恢復的損失突增時,PMA - init 提供了一種可靠的恢復方法。通過合并前幾個保存的 check point ,訓練可以重新回到正確軌道上,繼續(xù)沿著原有軌跡前進,避免了資源的巨大浪費。

如下圖所示,PMA-init 對初始化與 SFT 階段模型的 GradNorm 指標以及在小模型上使用 PMA-init 恢復訓練前后的損失曲線的影響,突出了其對訓練穩(wěn)定性的提升作用。

圖片

圖片

上:使用PMA初始化進行SFT訓練的GradNorm對比。下:從PMA初始化恢復訓練與原始訓練的預訓練損失曲線對比

模型合并的機制探究

從理論層面深入探究模型合并的機制,研究者們發(fā)現(xiàn),不同模型 check point 的權重平均能夠有效降低模型的損失。這是因為不同 check point 在參數(shù)空間中探索了不同的區(qū)域,它們的權重偏差在合并后相互補充,使得合并后的模型更接近最優(yōu)解。通過可視化方法,選取 Seed-MoE-1.3B/13B 預訓練中的多個 check point ,研究者們繪制了特定層中兩個參數(shù)的平均分布情況以及 MMLU(Massive Multitask Language Understanding,一個綜合性的基準測試,用于評估模型在多種語言理解任務上的表現(xiàn))分數(shù)的等高線圖。這些圖像清晰地展示了各個模型權重位置以及合并后的模型權重位置如何更接近高 MMLU 分數(shù)區(qū)域,進一步佐證了模型合并的效果和原理。

如下圖所示,通過可視化方式展示了模型合并后權重位置更接近高 MMLU 分數(shù)區(qū)域的現(xiàn)象,揭示了模型合并的原理。

圖片

MMLU分數(shù)等高線的可視化,用于比較原始模型與合并模型的權重

總結以及自己的實踐

這篇論文通過深入研究和實驗驗證,得出了一個明確的結論:PMA 策略在預訓練模型合并領域具有重大意義和價值。它在穩(wěn)定訓練階段合并 check point ,不僅能夠帶來顯著的性能提升,還可以準確預測退火行為,為模型訓練提供了一種強大的模擬工具,從而簡化開發(fā)流程并降低訓練成本。PMA - init 在下游訓練中的成功應用,尤其是在提升訓練穩(wěn)定性方面的重要作用,為模型訓練提供了一種可靠的恢復方法。

但是這篇論文的研究也存在一些局限性。在學習率對模型合并影響方面的探索仍顯不足,不同學習率設置下模型合并效果的差異可能對實際訓練過程中的學習率調度策略選擇產生重要啟示,這需要進一步深入挖掘。此外,模型合并技術在 RL 訓練等post train場景中的應用前景廣闊,但也面臨著諸多挑戰(zhàn)。RL 訓練中模型與環(huán)境交互的復雜性和特殊性,如何將模型合并技術與 RL 算法相結合,以提高模型在強化學習過程中的穩(wěn)定性和性能,也可以是未來關注火探索的方向。

在寫本文的過程中,我對模型合并技術在預訓練階段的應用有了一定的了解。我認識到,模型合并是一種蘊含著深刻數(shù)學原理和智能策略的技術。它能夠在不同的模型 check point 之間尋找到一種微妙的平衡,將各個階段的知識巧妙融合,從而創(chuàng)造出更加強大和穩(wěn)定的模型。

我通過閱讀字節(jié)的這篇關于預訓練階段模型合并的研究論文,讓我回想起去年有一段時間,我因為項目需要關注過模型合并技術,并且實操過。當然,這與本文所介紹的合并階段不同,本文是在 pretrain 階段,而我實踐的是在 post-train 階段進行的模型合并。

回想當時 Qwen2 的開源模型發(fā)布,讓模型性能有了飛躍,甚至 Qwen2 的 72B 很長一段時間在 Huggingface 處于 No 1 霸榜的地位。但有個問題出現(xiàn)了,Qwen2 并不包含 32B 模型(Qwen1.5 有)。這讓我有點郁悶,所以就打起了模型合并的主意。我想通過不同的合并算法,結合 finetune 來實現(xiàn)一個高性能的 30B 左右的模型。但后來,Qwen 團隊發(fā)布了 Qwen2.5,這次有了 32B,模型合并這件事我就放下了。

到了去年年底的時候,因為建立自己的開源模型倉庫的原因,我又一次關注到了 huggingface 上的 Qwen2.5 32B 的 finetune + merge 的模型,這與我當時的思路有點像,但又不完全一樣。我們的區(qū)別在于:

  • 我之前的目標是想通過合并模型的方式,得到一個特定參數(shù)量的高性能模型
  • 而這個作者是為了保證 SFT 以后的模型通用性能不要下降太多

這很有趣,如果他的想法被驗證可行,也是一件很有意思的事情。但當我對這位作者的模型跑了 benchmark 以后,我發(fā)現(xiàn)了幾個問題,作為一個總結性的內容分享在這里吧:

1. 通過對基礎模型進行 sft,合并 lora adapter 以后,再合并基礎模型,這樣的方式,在一定程度上保有了通用能力。(比僅 sft 不合并的效果要好點)

2. 合并后的模型,其通用能力的保有并不全面,模型在指令跟隨、工具調用、代碼、推理、語言能力(尤其小語種)等重要維度,均顯示了性能下降。

3. sft 的目標任務性能,在模型合并后也發(fā)生了下降。

4. 在業(yè)務私有評測集上的性能表現(xiàn),會出現(xiàn)不穩(wěn)定的情況。

面對這樣的情況,結合當時項目已交付的現(xiàn)實,所以我沒有繼續(xù)研究下去。那么,我依然堅持以前的觀點:開源模型在經(jīng)過業(yè)務SFT后,應盡量專注于業(yè)務私域的任務。經(jīng)過微調訓練,其在這些特定任務上的性能會表現(xiàn)優(yōu)異。但需要注意的是,此時它在通用任務上的表現(xiàn)會有所衰減,因此不建議再執(zhí)行通用任務。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-19 10:09:55

2024-12-23 08:03:13

2023-06-24 19:59:40

2024-11-04 00:24:56

2024-01-29 00:24:07

圖像模型預訓練

2023-02-01 09:46:29

2024-04-16 16:14:01

人工智能LLMRAG

2022-03-04 19:07:03

模型視覺人工智能

2024-01-03 18:53:13

語言模型LLM

2017-12-26 13:53:31

深度學習遷移學習

2023-06-19 16:05:22

大型語言模型人工智能

2023-11-19 23:36:50

2024-12-12 09:11:58

2023-01-05 09:33:37

視覺模型訓練

2023-02-05 13:06:07

ChatGPT看圖方法

2024-08-13 08:09:34

2023-11-27 15:34:51

大語言模型PubMedBERT

2023-06-12 07:50:45

2023-06-09 08:00:00

QLoRa語言模型微調

2025-06-13 09:29:51

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久久久免费看 | 美女张开腿露出尿口 | a级毛片毛片免费观看久潮喷 | 日韩亚洲一区二区 | 欧美日韩国产一区二区三区不卡 | 久久这里只有精品首页 | 亚洲免费视频在线观看 | 欧美在线视频一区二区 | 草比av | 国产一区二区三区四区 | 欧美日韩在线综合 | 久久精品国产一区二区三区不卡 | 性做久久久久久免费观看欧美 | 午夜精品久久久久久久 | 久久激情视频 | 亚洲精品乱码久久久久久久久 | 成人免费一区二区三区视频网站 | 亚洲国产aⅴ精品 | 中文字幕不卡视频在线观看 | 成年人免费网站 | 日韩av中文 | 国产一区不卡在线观看 | 日韩中文在线观看 | 国产精品久久久亚洲 | 一区二区三区在线免费观看 | 日韩精品一区二区三区 | 日本一区二区视频 | 日本人麻豆 | 国产精品免费福利 | 美女日皮网站 | 日韩视频―中文字幕 | 国产视频1区 | 日韩综合一区 | 亚洲欧洲日本国产 | 国产电影一区二区在线观看 | 中文字幕乱码一区二区三区 | 91麻豆精品国产91久久久更新资源速度超快 | 夜夜操天天艹 | 黄色免费av| 国产精品视频一二三区 | 欧美精品91|