成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陳丹琦帶著清華特獎(jiǎng)學(xué)弟發(fā)布新成果:打破谷歌BERT提出的訓(xùn)練規(guī)律

人工智能 新聞
陳丹琦團(tuán)隊(duì)展示了最新的研究成果。團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)典NLP模型BERT提出的預(yù)訓(xùn)練“15%掩蔽率”法則,是可以被打破的!

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

新晉斯隆獎(jiǎng)得主如何慶祝?

公開最新研究成果算不算?

就在斯隆獎(jiǎng)宣布當(dāng)天,陳丹琦團(tuán)隊(duì)展示了最新的研究成果。

團(tuán)隊(duì)發(fā)現(xiàn),經(jīng)典NLP模型BERT提出的預(yù)訓(xùn)練“15%掩蔽率”法則,是可以被打破的!

“15%掩蔽率”,指在一項(xiàng)預(yù)訓(xùn)練任務(wù)中,隨機(jī)遮住15%的單詞,并通過訓(xùn)練讓AI學(xué)會(huì)預(yù)測(cè)遮住的單詞。

陳丹琦團(tuán)隊(duì)認(rèn)為,如果將掩蔽率提升到40%,性能甚至比15%的時(shí)候還要更好:

不僅如此,這篇文章還提出了一種新的方法,來更好地提升40%掩蔽率下NLP模型訓(xùn)練的效果。

一位抱抱臉(Hugging Face)工程師對(duì)此表示:

關(guān)于BERT有個(gè)很有意思的事情,它雖然是一項(xiàng)開創(chuàng)性的研究,然而它的那些訓(xùn)練方式都是錯(cuò)誤或不必要的。

這篇論文的共同一作高天宇,也是清華特獎(jiǎng)獲得者,本科期間曾發(fā)表過四篇頂會(huì)論文。

那么,論文究竟是怎么得出這一結(jié)論的呢?

“大模型更適合高掩蔽率”

陳丹琦團(tuán)隊(duì)先是從掩蔽率、迭代次數(shù)和模型大小三個(gè)方向,驗(yàn)證了這一結(jié)論。

他們先是用了一系列不同的掩蔽率來訓(xùn)練NLP模型,參數(shù)如下:

結(jié)果發(fā)現(xiàn),除了小部分?jǐn)?shù)據(jù)集以外,模型在包括MNLI、QNLI、QQP、STS-B、SQuAD等數(shù)據(jù)集上的訓(xùn)練效果,40%掩蔽率都比15%都要更好

為了進(jìn)一步迭代次數(shù) (training step)受掩蔽率的影響效果,作者們同樣記錄了不同迭代率下模型的效果。

結(jié)果顯示,隨著迭代次數(shù)的增加,40%掩蔽率基本都表現(xiàn)出了比15%更好的性能:

不僅如此,作者們還發(fā)現(xiàn),更大的模型,更適合用40%掩蔽率去訓(xùn)練。

結(jié)果顯示,大模型在40%掩蔽率的情況下,性能比中等NLP模型要更好:

這么看來,只將掩蔽率設(shè)置為15%,確實(shí)沒有40%的訓(xùn)練效果更好,而且,更大的NLP模型還更適合用40%的掩蔽率來訓(xùn)練。

團(tuán)隊(duì)猜測(cè),任務(wù)難一些能促使模型學(xué)到更多特征,而大模型正是有這種余裕。

為了探究其中的原理,作者們又提出了一個(gè)新的評(píng)估方法。

將掩蔽率拆分為2個(gè)指標(biāo)

具體來說,就是將掩蔽率拆分為破壞率 (corruption rate)和預(yù)測(cè)率 (prediction rate)2個(gè)指標(biāo)。

其中,破壞率是句子被破壞的比例,預(yù)測(cè)率是模型預(yù)測(cè)的比例。

例如,“我喜歡打籃球”語料可能被破壞成“我[MASK][MASK][MASK]”提供給模型,但模型卻只需要預(yù)測(cè)第一個(gè)[MASK]是不是“喜歡”。

這樣一來,就可以用破壞率來控制預(yù)訓(xùn)練任務(wù)的難度,用預(yù)測(cè)率來控制模型的優(yōu)化效果

論文進(jìn)一步針對(duì)破壞率(mcorr)和預(yù)測(cè)率(mpred)進(jìn)行了研究,發(fā)現(xiàn)了一個(gè)新規(guī)律:

預(yù)測(cè)率高,模型效果更好;但破壞率更高,模型效果更差:

這樣就能用更精準(zhǔn)的方式來評(píng)估各種預(yù)訓(xùn)練任務(wù)了。

最后,作者們?cè)谶@種指標(biāo)下,測(cè)試了多種掩碼,觀察在更高掩蔽率的情況下,哪些掩碼的效果更好。

結(jié)果顯示,隨著掩蔽率的提升,隨機(jī)均勻掩碼的效果(Uniform)的表現(xiàn)還會(huì)比Span Masking、相關(guān)區(qū)間原則性掩碼(PMI-Masking)更好。

然而,在之前的很多NLP模型中,基本都直接采用了PMI-Masking或是Span Masking等更復(fù)雜的掩碼來訓(xùn)練。

這也說明,NLP大模型的預(yù)訓(xùn)練效果不能一概而論,光是訓(xùn)練方法就值得進(jìn)一步研究。

作者介紹

論文的幾名作者均來自陳丹琦團(tuán)隊(duì)。

一作高天宇,目前是普林斯頓大學(xué)的二年級(jí)博士生,本科畢業(yè)于清華大學(xué),曾經(jīng)獲得清華本科特等獎(jiǎng)學(xué)金。

本科時(shí),高天宇就在劉知遠(yuǎn)教授團(tuán)隊(duì)中搞科研了,期間一共發(fā)表了4篇頂會(huì)論文(兩篇AAAI,兩篇EMNLP)

共同一作Alexander Wettig,普林斯頓大學(xué)一年級(jí)博士生,本碩畢業(yè)于劍橋大學(xué),對(duì)NLP的泛化能力方向感興趣。

鐘澤軒(Zexuan Zhong),普林斯頓大學(xué)博士生,碩士畢業(yè)于伊利諾伊大學(xué)香檳分校,導(dǎo)師是謝濤;本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾在微軟亞研院實(shí)習(xí),導(dǎo)師是聶再清。

通過這一發(fā)現(xiàn),不少NLP大模型說不定又能通過改進(jìn)訓(xùn)練方法,取得更好的效果了。

論文地址:

https://gaotianyu.xyz/content/files/2022/02/should_you_mask_15-1.pdf

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-07-26 09:56:48

模型AI

2023-10-12 12:13:16

AI訓(xùn)練

2024-05-27 08:40:00

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2025-06-25 09:15:38

AI模型LLM

2024-10-08 14:48:24

2025-01-16 09:00:00

2021-02-04 12:46:54

谷歌開源安全漏洞

2020-03-17 09:42:00

谷歌開源機(jī)器學(xué)習(xí)

2025-01-08 13:05:56

2021-05-20 17:04:23

AI

2022-02-21 17:22:35

模型

2024-07-18 12:58:03

2025-02-13 12:23:28

2021-11-15 10:00:22

模型人工智能NLP

2021-07-13 17:59:13

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-01-07 12:55:00

訓(xùn)練數(shù)據(jù)模型

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2025-05-23 07:31:08

2023-10-25 09:19:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91一区二区三区在线观看 | 欧美欧美欧美 | 青青草av| 色秀网站 | 日韩a视频| 亚洲精品欧美精品 | 久久久久久综合 | 久久久久黄 | 999精品视频| 美女国内精品自产拍在线播放 | 亚洲一区二区视频在线观看 | 日本精品视频在线 | 激情的网站 | 国产精品入口麻豆www | 自拍偷拍第1页 | www.国产.com| 韩国理论电影在线 | 精品一区二区三区免费视频 | 日日摸日日碰夜夜爽亚洲精品蜜乳 | 91天堂 | 成人在线视频看看 | 秋霞性生活 | 91黄色免费看| 九九久久久久久 | 欧美不卡 | 日韩精品视频一区二区三区 | 国产精品美女在线观看 | 欧美在线国产精品 | 久久aⅴ乱码一区二区三区 亚洲欧美综合精品另类天天更新 | 一区二区三区电影网 | 国产馆 | 精品国产欧美一区二区三区成人 | 亚洲人的av | 亚洲一区二区视频 | 成人午夜视频在线观看 | 中文在线一区二区 | 日本免费一区二区三区 | 国产分类视频 | 国产日日操 | 中文字幕日韩欧美 | 天天看逼 |