成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="22qgg"><object id="22qgg"></object></abbr>

<input id="22qgg"></input>

<s id="22qgg"><tbody id="22qgg"></tbody></s>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

大模型調參技巧—如何實現超參的跨模型尺度遷移原創

發布于 2025-3-17 13:07

瀏覽

0收藏

本篇介紹超參數（學習率）跨模型尺度的遷移規律。

眾所周知，完整訓練一次大型LLM的成本是昂貴的，這就決定了我們不可能像以前一樣直接在大型LLM上反復測試超參數。

一個很自然的想法是希望可以在同結構的小模型上仔細搜索超參數，找到最優組合后直接遷移到大模型上。

盡管這個想法很樸素，但要實現它并不簡單，它需要我們了解常見的超參數與模型尺度之間的縮放規律，本次介紹的文Maximal Update Parametrization，簡稱“muP”，正是這個想法的一個實踐。具體出自論文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》。

先說結論，muP主要研究超參數跨模型尺度的遷移規律。這里有幾個關鍵詞：

1、超參數，目前主要指學習率；

2、模型尺度，目前主要是模型寬度；

3、這里的核心是“遷移”。

請注意，muP并不研究什么是最優的超參數，只研究最優超參數隨著模型尺度的變化規律，所以我們需要在某個小模型上搜索最優的超參數組合，然后遷移到大模型上，這就是muP的使用場景和使用方法。

推導muP的原理是讓模型的前向傳播、反向傳播和損失增量都不隨模型尺度的變化而發生明顯變化：

1、具體做法是分析初始化的數量級，然后認為結論可以代表后續優化的規律；

2、說白了就是假設做好初始化，后面就會自動沿著正確的軌跡走

具體方法

論文提出了一種名為μTransfer的方法來解決大型神經網絡的超參數（HP）調整問題。這個方法的核心思想是利用最大更新參數化（Maximal Update Parametrization，簡稱μP）的特性，該特性表明在模型大小變化時，許多最優的HP保持穩定。

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

具體來說，μTransfer的解決方案包括以下幾個步驟：

1. 目標模型的μP參數化：首先，將目標大型模型（即最終希望調整的模型）按照μP進行參數化。這確保了模型在訓練過程中，各層的更新幅度保持一致，從而在模型寬度增加時，HPs保持穩定。

2. 在小型代理模型上調整HP：然后，研究者在一個小版本的代理模型上進行HP調整。這個小型模型在寬度和/或深度上小于目標模型，但采用相同的μP參數化。

3. 零成本轉移（Zero-Shot Transfer）：一旦在小型代理模型上找到了接近最優的HPs，這些HPs可以直接轉移到全尺寸的目標模型上，而無需在目標模型上進行額外的調整。這種轉移是基于μP理論，即在無限寬度極限下，模型的HPs趨于穩定。

4. 驗證和測試：最后，研究者在目標模型上驗證這些轉移過來的HPs，并與直接在目標模型上進行調整的結果進行比較，以確保性能達到預期。

比較關鍵的改進點是Normalization和殘差的影響，尤其是Normalization，它使得不依賴特殊的初始化就可以穩定前向傳播，帶來了更大的自由度和可能性。

具體示例

論文比較難理解，下面基于蘇神的文舉一個前向傳播的例子，更詳細的推理推薦直接去看蘇神的文章。（可以點擊后面原文鏈接直接跳轉）

首先依然用RMS（Root Mean Square）來作為矩陣尺度的指標

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

那么muP就是想研究超參數關于d的變化規律。

考慮線性層表示為

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

其中

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

我們的目的是為了讓遷移時穩定，即初始化階段X的RMS跟Y的RMS大致相等，那么W的初始化

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

Kaiming初始化跟LeCun初始化相比，只是方差相差一個（跟模型尺度無關的）常數2，可以證明其他激活函數的結果也類似。因此可以得到結論

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

這也說明了“激活函數的影響是模型尺度無關的”。

這里直接給出最終所有優化器下的結論。

大模型調參技巧—如何實現超參的跨模型尺度遷移-AI.x社區

這里的W指的是除Win,Wout外的所有參數，還有要強調的是，這里的關系都是“正比于”而不是“等于”。

實驗驗證

論文在Transformer、ResNet、GPT等模型上均進行了實驗，我們可以主要來看看GPT3上的實驗。

這塊作者在GPT-3的一個小型代理模型（約40M參數）上確定了超參數，然后將這些參數轉移到完整的6.7B參數模型。實驗結果顯示，μTransfer模型的性能優于原始GPT-3模型，并且與兩倍大的13B模型相當。

總結

基于muP可以在小模型上以相對較小的成本仔細搜索超參數（這里主要是學習率和初始化），然后遷移到大模型上，降低大模型的煉丹成本。當然μTransfer在實際應用中還有很多的潛在改進方向，比如如自動化代理模型選擇、跨平臺實現等。

文轉載自公眾號瓦力算法學研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/6OZBR1IKi8mW93jrXNjZlA??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

贊

收藏

回復

舉報

回復

相關推薦

重編程大語言模型實現跨模態交互的時序預測 | ICLR 2024

輕薄滴假象 ? 2814瀏覽 ? 0回復
跨模型的Function_Calling來了

ermulong ? 4744瀏覽 ? 0回復
WWW'24 文本增強實現統一跨域時間序列預測

海因斯DK ? 4389瀏覽 ? 0回復
從零實現大模型-BERT微調

魚蟲子 ? 3255瀏覽 ? 0回復
大模型應用落地：如何選擇合適的 Embedding 模型？

玄姐聊AGI ? 5058瀏覽 ? 0回復
什么是超參數？大模型的超參數是做什么用的？超參數和大模型參數有什么關系？

AI探索時代 ? 6297瀏覽 ? 0回復
大模型微調技巧 | 高質量指令數據篩選方法-MoDS

NLP工作站 ? 4065瀏覽 ? 0回復
多模態大模型的實現原理，以及技術難點

AI探索時代 ? 5570瀏覽 ? 0回復
不依賴CUDA的大模型推理已經實現

夜行神魚 ? 2746瀏覽 ? 0回復
KVSharer：基于不相似性實現跨層 KV Cache 共享

amei2000go ? 3123瀏覽 ? 0回復
微調大型語言模型（LLM）的五個技巧

51CTO內容精選 ? 2702瀏覽 ? 0回復
大模型面試實戰！Prompt調優

ermulong ? 3017瀏覽 ? 0回復
大模型提示詞，事實上就是一種聊天技巧

AI探索時代 ? 2311瀏覽 ? 0回復
多尺度深度卷積神經網絡的多尺度特征輸出分析

步驚云_32 ? 2076瀏覽 ? 0回復
大語言模型：表面的推理能力背后是出色的規劃技巧

51CTO內容精選 ? 2514瀏覽 ? 0回復
DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路

大模型自然語言處理 ? 2416瀏覽 ? 0回復
如何優化AI提示詞？掌握這5個技巧，讓你的大模型交互更高效！

Halo咯咯 ? 3461瀏覽 ? 0回復
機器學習超參數：用大白話講清楚模型調優的秘密

FairyGirlhub ? 1546瀏覽 ? 0回復
從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題

AI博物院 ? 4738瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

LLM面經——多模態大模型訓練中”模態懶惰“問題如何解決？ 4天前發布
大模型面經——MLLM中模態對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： FlexTok-一種圖像編碼新方式

下一篇： ZeroHSI-一種零樣本的四維人類-場景交互合成方法

社區精華內容

目錄

主站蜘蛛池模板：国产精品久久国产愉拍 | 人妖av| 天天看天天干 | 日韩一区二区在线播放 | 91亚洲精品久久久电影 | 91福利网 | 国产高潮av| 午夜久久| 午夜大片| av中文在线观看 | 国产在线一区二 | 国产有码 | 九色91视频 | 密乳av| 黄色大片免费看 | 精品一区二区三区在线观看国产 | 亚洲一区二区在线 | 男女羞羞视频免费 | 国产免费一区二区 | 自拍偷拍av| 欧美日韩在线免费观看 | 九九热精品在线 | 成年人在线播放 | 国产日韩欧美在线播放 | 成人av免费在线观看 | 91久久久久 | 精品一区二区三区四区在线 | 成人午夜免费视频 | 夜夜夜夜夜夜曰天天天 | 最新中文字幕第一页视频 | 国产一级黄色网 | 淫片一级国产 | www.蜜桃av.com| 国产精品一区在线观看 | 国产亚洲成av人片在线观看桃 | 日韩一区二区在线视频 | 国产精品久久久99 | 日韩成人精品一区二区三区 | av网址在线播放 | 卡通动漫第一页 | 久久久国产一区二区三区 |

<kbd id="gaeqe"><table id="gaeqe"></table></kbd>

<s id="gaeqe"><tbody id="gaeqe"></tbody></s>

<bdo id="gaeqe"></bdo>

<pre id="gaeqe"></pre><button id="gaeqe"><menu id="gaeqe"></menu></button>

<code id="gaeqe"><source id="gaeqe"></source></code>

<kbd id="gaeqe"><code id="gaeqe"></code></kbd>