成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek并非完美,訓練過程存在“深度詛咒”

人工智能 新聞
大連理工、西湖大學、牛津大學等研究人員對DeepSeek、Qwen、Llama和Mistral研究發現,這些模型的深層在訓練過程中表現并不好,甚至可以被完全剪枝而不會影響模型性能。

高性能大模型在訓練的過程中通常需要數千個GPU,耗費數月甚至更長時間才能完成一次訓練。這種巨大的資源投入使得模型的每一層都必須高效訓練,才能確保算力資源最大化利用。

但大連理工、西湖大學、牛津大學等研究人員對DeepSeek、Qwen、Llama和Mistral研究發現,這些模型的深層在訓練過程中表現并不好,甚至可以被完全剪枝而不會影響模型性能。

例如,研究人員對DeepSeek-7B模型進行了逐層剪枝,以評估每一層對模型整體性能的貢獻。結果顯示,移除模型的深層對性能的影響微乎其微,而移除淺層性能會明顯下降。這表明DeepSeek模型的深層在訓練過程中未能有效學習到有用的特征,而淺層則承擔了大部分的特征提取任務。

這種現象稱為“深度詛咒”(Curse of Depth),同時研究人員也提出了一種有效的解決方法——LayerNorm Scaling(層歸一化縮放)。

圖片

深度詛咒介紹

“深度詛咒”現象的根源在于Pre-LN的特性。Pre-LN是一種在Transformer架構模型中廣泛使用的歸一化技術,它在每一層的輸入上進行歸一化,而不是在輸出上。這種歸一化方式雖然能夠穩定模型的訓練過程,但也帶來了一個嚴重的問題,隨著模型深度的增加,Pre-LN的輸出方差會呈指數級增長。

這種方差的爆炸性增長導致深層的Transformer塊的導數接近于單位矩陣,使得這些層在訓練過程中幾乎不貢獻任何有效的信息。換句話說,深層在訓練過程中變成了單位映射,無法學習到有用的特征。

圖片

“深度詛咒”的存在對大語言模型的訓練和優化帶來了嚴重的挑戰。首先,深層的訓練不足導致了資源的浪費。在訓練大語言模型時,通常需要大量的計算資源和時間。由于深層未能有效學習到有用的特征,算力資源在很大程度上被浪費了。

深層的無效性限制了模型性能的進一步提升。盡管淺層能夠承擔大部分的特征提取任務,但深層的無效性使得模型無法充分利用其深度優勢。

此外,“深度詛咒”還對模型的可擴展性帶來了難題。隨著模型規模的增加,深層的無效性愈發突出,這使得模型的訓練和優化變得更加困難。例如,在訓練超大型模型時,深層的訓練不足可能導致模型的收斂速度變慢,甚至無法收斂。

解決方法——LayerNorm Scaling

LayerNorm Scaling 的核心思想是對Pre-LN輸出方差的精準控制。在一個多層的 Transformer 模型中,每一層的層歸一化輸出都會被乘以一個特定的縮放因子。這個縮放因子與當前層的深度密切相關,是層深度平方根的倒數。

圖片

為大家舉個簡單易懂的例子,大模型就像一座高樓,每一層都是其中的一層樓,而 LayerNorm Scaling 就是給每一層樓的 “能量輸出” 進行了精細調節。

圖片

對于較低的樓層(淺層),縮放因子相對較大,這意味著它們的輸出被調整的幅度較小,能夠保持相對較強的 “能量”;對于較高的樓層(深層),縮放因子較小,這樣就有效地降低了深層輸出的“能量強度”,避免了方差的過度積累。

通過這種方式,整個模型的輸出方差得到了有效控制,不會再出現深層方差爆炸的情況。(整個計算過程比較復雜,有興趣的小伙伴可以直接看論文)

從模型訓練的視角來看,在傳統的 Pre-LN 模型訓練中,由于深層方差的不斷增大,梯度在反向傳播過程中會受到很大干擾。深層的梯度信息變得不穩定,這就像在傳遞接力棒時,接力棒在后面幾棒的傳遞過程中總是掉落,導致信息傳遞不暢。

使得深層在訓練時難以學習到有效的特征,模型的整體訓練效果大打折扣。而 LayerNorm Scaling通過控制方差,穩定了梯度流。

在反向傳播過程中,梯度能夠更加順暢地從模型的輸出層傳遞到輸入層,每一層都能接收到準確而穩定的梯度信號,從而能夠更有效地進行參數更新和學習。

實驗結果

為了驗證LayerNorm Scaling的有效性,研究人員在不同規模的模型上進行了廣泛的實驗。實驗涵蓋了從1.3億參數到10億參數的模型。

實驗結果顯示,LayerNorm Scaling在預訓練階段顯著提升了模型性能,與傳統的Pre-LN相比,降低了困惑度,并減少了訓練所需的token數量

例如,在LLaMA-130M模型上,LayerNorm Scaling將困惑度從26.73降低到25.76,而在10億參數的LLaMA-1B模型上,困惑度從17.02降低到15.71。這些結果表明,LayerNorm Scaling不僅能夠有效控制深層的方差增長,還能夠顯著提升模型的訓練效率和性能。

圖片

研究人員對LayerNorm Scaling在監督微調階段的表現進行了評估。實驗結果顯示,LayerNorm Scaling在多個下游任務上均優于其他歸一化技術。

例如,在LLaMA-250M模型上,LayerNorm Scaling在ARC-e任務上的性能提升了3.56%,在所有任務上的平均性能提升了1.80%。這表明,LayerNorm Scaling不僅在預訓練階段表現出色,在微調階段也能夠顯著提升模型的性能。

此外,研究人員將DeepSeek-7B模型的歸一化方法從傳統的Pre-LN替換為LayerNorm Scaling。在整個訓練過程中,深層塊的學習能力得到了顯著提升,能夠積極地參與到模型的學習過程中,為模型的性能提升貢獻力量。困惑度下降的幅度更為明顯,下降速度也更穩定。

論文地址:https://arxiv.org/abs/2502.05795

責任編輯:張燕妮 來源: AIGC開放社區
相關推薦

2025-06-13 02:55:00

2022-12-19 08:40:42

2023-01-06 08:42:02

學習訓練

2015-03-16 11:16:59

生物識別身份驗證數據中心

2024-11-12 09:20:03

神經網絡語言模型

2017-04-25 18:03:11

Caffe深度學習框架

2012-07-24 09:00:18

鍵盤Windows 8

2012-11-27 09:33:13

數據中心

2015-01-15 10:21:22

2012-02-23 09:24:52

大數據云計算

2009-11-27 09:05:19

Windows 7Chrome兼容性

2009-11-26 11:00:28

Chrome瀏覽器Windows 7

2020-11-02 18:38:17

Batch Norma深度學習

2023-11-18 09:40:58

數據模型

2025-02-07 13:10:06

2022-04-08 14:40:59

框架訓練模型

2025-01-24 15:40:00

2025-04-30 09:19:32

2025-03-03 10:42:50

深度學習PyTorch大型語言模型

2017-05-03 22:05:48

深度學習候選采樣深度學習庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久久久图文区 | 日本不卡免费新一二三区 | 91久久国产综合久久91精品网站 | 99热.com| 日韩欧美福利视频 | 81精品国产乱码久久久久久 | 人人看人人干 | 亚洲精品综合 | 免费在线性爱视频 | 欧美一区二区三区在线 | 荷兰欧美一级毛片 | 国产一区二区精品 | 特一级毛片 | 国产高清在线 | 欧美日韩在线一区二区三区 | 一级黄色片免费 | 美日韩一区二区 | 精品国产一区二区三区在线观看 | 中文字幕精品一区二区三区精品 | 日韩视频高清 | 亚洲欧美在线免费观看 | 成人午夜影院 | 久久精品欧美一区二区三区不卡 | 免费日韩网站 | 宅男噜噜噜66一区二区 | 夜夜爽99久久国产综合精品女不卡 | 亚洲黄色av| 欧美xxxx色视频在线观看免费 | 久久久久久国产 | 国产一区在线免费 | 国产在线观看一区二区 | 色偷偷888欧美精品久久久 | 亚洲精品黄色 | 91亚洲国产成人久久精品网站 | 人人干人人艹 | 一区二区三区中文字幕 | 国产在线观看一区二区三区 | 人妖无码 | 成人精品久久 | 涩涩视频在线看 | 成人av网站在线观看 |