成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題

發(fā)布于 2024-7-8 07:38
瀏覽
0收藏

寫在前面

大型語言模型在預(yù)訓(xùn)練過程中,如何選取數(shù)據(jù)的混合比例(利用較少的Tokens來實現(xiàn)較小的Loss從而加速預(yù)訓(xùn)練過程)是一個復(fù)雜和關(guān)鍵的問題。手動確認數(shù)據(jù)集中各個組成的比例是不可擴展的,并且很可能不是最優(yōu)選擇。

今天給大家介紹一個用回歸任務(wù)解決大模型數(shù)據(jù)混合問題的方法-RegMix。其核心思想是,利用不同的數(shù)據(jù)混合比例先訓(xùn)練多個小模型并獲取其結(jié)果,在利用這些樣本訓(xùn)練一個回歸模型,再遍歷所有比例利用回歸模型找到最優(yōu)的數(shù)據(jù)混合比例,最后用最優(yōu)數(shù)據(jù)混合比例訓(xùn)練更大的語言模型。

Paper: https://arxiv.org/abs/2407.01492
Github: https://github.com/sail-sg/regmix

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

通過訓(xùn)練512個1M的小模型,擬合回歸模型,找到top64的數(shù)據(jù)混合比例,訓(xùn)練1B模型,最優(yōu)數(shù)據(jù)混合比例訓(xùn)練的模型的驗證集loss也是最低。

方法

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

整體流程如上圖所示,

  • 生成隨機數(shù)據(jù)混合比例,按照比例采用混合數(shù)據(jù)并訓(xùn)練小模型;
  • 利用數(shù)據(jù)混合比例作為特征值,模型訓(xùn)練的目標(biāo)值作為標(biāo)簽,擬合回歸模型;
  • 在模擬更大數(shù)據(jù)混合比例空間,利用回歸模型預(yù)測最佳目標(biāo)值,以獲取最佳混合比例;
  • 使用模擬出的最佳混合比例的數(shù)據(jù)訓(xùn)練更大的模型。

訓(xùn)練小模型時越多越好,但為了節(jié)約成本需要盡量減少小模型訓(xùn)練次數(shù),那么在初始化數(shù)據(jù)混合比例時就需要時多樣化的,并且每個數(shù)據(jù)領(lǐng)域需要都存在極端值,數(shù)據(jù)采用過程主要是基于Tokens(chunk-level)分布的狄利克雷分布來實現(xiàn)。

詳見:mixture_config/synthesize_mixture.py

同時在擬合回歸模型時,采用了線性回歸LightGBM兩種回歸模型。

結(jié)果

數(shù)據(jù)集采用Pile dataset中不涉及版權(quán)的17個數(shù)據(jù)集,如下表所示,

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

512個1M小模型在1B Tokens訓(xùn)練得到的回歸模型,與在25B Tokens數(shù)據(jù)下訓(xùn)練的1B模型,排序具有97.12%的高相關(guān)性,如下表所示,

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

同時訓(xùn)練次數(shù)要比訓(xùn)練的總Token數(shù)要重要,更影響回歸模型的效果,并且采用LightGBM建模要比線性回歸建模要好。

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

PS:跟作者@乾神交流過,512個樣本訓(xùn)練回歸模型會不會數(shù)據(jù)量太少,乾神說他們做過1024的實驗,但并回歸模型效果無明顯提高,并且從成本考慮,那么512最佳。

不同的數(shù)據(jù)混合比例對下游任務(wù)結(jié)果影響較大,在Lambada數(shù)據(jù)集上最好和最差的效果相差14.6%,如下表所示,

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

同時發(fā)現(xiàn)了一個與傳統(tǒng)理解不一致的結(jié)果,一般我們?nèi)蝿?wù)維基數(shù)據(jù)質(zhì)量很高,是評估大型語言模型最具代表性的數(shù)據(jù)集。但實驗結(jié)果發(fā)現(xiàn),網(wǎng)絡(luò)數(shù)據(jù)集上評估的效果,更能體現(xiàn)模型在下游任務(wù)上的好壞,如下圖所示,可以發(fā)現(xiàn)Pile-CC數(shù)據(jù)集作為驗證時損失值與下游任務(wù)的相關(guān)性更強。

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

并且RegMix可以發(fā)現(xiàn)各領(lǐng)域數(shù)據(jù)之間是如何相互作用的,數(shù)據(jù)領(lǐng)域之間復(fù)雜的相互作用利用人類固有經(jīng)驗很難直接區(qū)分。

RegMix-用回歸任務(wù)解決大模型數(shù)據(jù)混合問題-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP工作站??,作者:劉聰NLP

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 免费毛片在线 | 成人国产在线视频 | 欧美一区免费 | 国产一区二区三区四区 | 一本色道精品久久一区二区三区 | 日本精品一区二区三区在线观看视频 | 最新av在线播放 | 情侣黄网站免费看 | 91手机精品视频 | 久久av一区二区三区 | 韩国av一区二区 | 日韩精品免费在线 | 日本不卡一区 | 福利影院在线看 | japanhd成人 | www.久久艹 | 免费在线视频a | 国产精品久久久久aaaa九色 | 亚洲精品一区二区三区丝袜 | 国产一区二区三区免费观看视频 | 网站黄色av | 亚洲网站在线播放 | 蜜桃视频一区二区三区 | 中文字幕一区二区三区四区 | a级大片免费观看 | 久久久91精品国产一区二区三区 | 成人在线免费视频观看 | 蜜桃av一区二区三区 | 天堂视频免费 | 亚洲精品影院 | 国产毛片久久久久久久久春天 | www.青青草 | 91精品亚洲| 欧美一二区 | 成人小视频在线观看 | 91在线精品秘密一区二区 | 黄a网| 日韩精品在线一区 | 特黄视频 | 日韩一区二区在线免费观看 | 日本高清视频在线播放 |