成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

陳丹琦組掩蔽語言模型研究:15%掩蔽率不是最佳,40%站得住腳嗎?

人工智能 新聞
自BERT以來,大多數人堅持的模型訓練15% mask rate慣例被打破了?

前段時間,斯隆基金會公布了2022 年度斯隆研究獎的獲獎者,陳丹琦、方飛、顧全全、李博等多位研究者獲得了計算機科學領域的獎項。

在獲獎后不久,陳丹琦所在的團隊就公布了一項新研究。但和陳丹琦之前廣受贊譽的各項工作不同,這一新作受到了諸多質疑。

這個工作是關于掩蔽語言建模( masked language modeling,MLM)的。掩蔽語言模型通常使用15%的掩蔽率,因為大家發現,更高的掩蔽率將不能提供足夠的上下文來學習良好的表示,而更低的掩蔽率將大幅提高訓練成本。但陳丹琦等人卻發現,如果將掩蔽率提高到40%,性能可以超過15%的基線;如果提高到80%,大部分性能仍能得以保留,這是在下游任務上進行微調測得的結果。

由于和不少人自身實驗的結果并不符合,而且沒有開源代碼,所以這一研究在推特、知乎等平臺上引起了很大的爭議。

有人認為,這就是一個調參的結果,沒有理論依據,「黑盒的層面很多」,能不能復現也不好說。但也有人認為,如果嚴格按照論文的設置,論文的結果能夠復現,就相當于「有人事先把最優參數調出來了」,這也沒什么不好。而且,這篇論文還能「啟發大家重新反思MLM的使用」,所以算得上是一個有價值的工作。

知乎鏈接:https://www.zhihu.com/question/517319014?utm_source

接下來,我們就一起來看下這項工作。

這篇文章寫了什么

幾個月前,何愷明的Masked Autoencoders成為了計算機視覺的熱門,其遮蔽80%還能腦補原圖的重建能力驚為天人。何愷明等人在其論文中展望了預訓練大模型在CV領域的前景,而在NLP領域里,人們訓練算法通常使用的遮蔽比例是15%。在陳丹琦的新研究中,這一數字被顯著提高了。

論文鏈接:https://arxiv.org/abs/2202.08005

預訓練語言模型已經改變了自然語言處理領域的格局。大型語言模型經過巨量文本數據的訓練,可獲得豐富多樣的語言表示能力。與總是預測序列中下一個token的自回歸模型相比,像 BERT 這樣的掩蔽語言模型(MLM)會根據上下文預測輸入token的掩蔽子集,由于具有雙向性質,此方法效果通常更佳。

此種方法是把模型限制為只掩蔽一小部分token內容開始進行學習的,通常為每序列15%。15%的數字反映這樣一個假設——若掩蔽太多文本,則模型無法很好地學習表示,這一思路被BERT之后的研究普遍采用。同時,僅對 15% 的序列進行預測已被視為對 MLM 進行有效預訓練的限制。

在普林斯頓大學陳丹琦等人的研究中,作者發現了與此前結論完全不同的情況:在有效的預訓練方案下,他們可以掩蔽 40-50% 的輸入文本,并獲得比默認的 15% 更好的下游性能。

下表展示了掩蔽 80%、40%和15% 的情況下,預訓練模型的下游性能。在掩蔽率為80%的條件下,大多數上下文內容已變得不可見,但相比15%掩蔽,模型仍能學習到接近的預訓練表示效果。這挑戰了人們關于掩蔽率的直覺,并提出了模型如何從高掩蔽率中受益的問題。

表1:不同掩蔽率下的掩蔽示例、驗證困惑度和下游任務性能。在這里,所有模型都是有效預訓練條件下訓練的大模型。

沿著這一方向,作者建議將掩蔽率分解為兩個因素:損壞率(corruption rate,有多少上下文被掩蔽)和預測率(prediction rate,模型預測的token有多少)。在 MLM 中,損壞率和預測率都與掩蔽率相同。然而,這兩個因素具有相反的效果:雖然較高的預測率會產生更多的訓練信號并有利于優化,但較高的損壞率會使學習問題在較少上下文的情況下更具挑戰性。

為獨立研究這兩個因素,作者設計了消融實驗來分離損壞和預測。實驗證明,模型可受益于更高的預測率,更高的損壞率則不然。更高的預測率所帶來的好處能否掩蓋更高的損壞率所帶來的負面影響,決定了模型能否在更高的掩蔽率下表現得更好。研究者還發現,擁有處理更高損壞率的更大的模型表現出了更高的最佳掩蔽率。

受這一結果啟發,作者在復雜情況下考慮了更高的掩蔽率,例如span掩蔽和 PMI 掩蔽。當以 15% 的掩蔽率進行評估時,這些方法被證明優于簡單的均勻掩蔽(uniform masking),但均勻掩蔽在其各自的最佳掩蔽率下與復雜的掩蔽基線相比具有競爭力。本文作者表示,他們提出的新的預測率-損壞率框架也為 BERT 基于原始或隨機token(80-10-10 策略)的預測實踐提供了新的思路——如果沒有它,模型通常會表現得更好。

作者在討論中表示,在 MLM 中采用更高的掩蔽率會帶來更好的性能,尤其是在資源有限的環境中。從輸入中移除掩蔽token,或解耦損壞率和預測率,有望進一步加速預訓練。

具體來說,這項研究的貢獻包括:

  • 研究證明,訓練具有較高掩蔽率的掩蔽語言模型是可以成功的。例如,具有高效預訓練方法的大模型在掩蔽率為40%的情況下比15%的情況下表現更好;
  • 研究者建議將掩蔽率分解為損壞率和預測率,這兩個相反的要素分別影響任務難度和訓練信號,研究者使用該框架表明,較大的模型有更高的最優掩蔽率,并且只使用[ MASK ]token掩蔽優于80-10-10策略;
  • 研究證明,在高掩蔽率下,與span掩蔽和PMI掩蔽等更高級的掩蔽方案相比,均勻掩蔽更具競爭力。

掩蔽語言模型通常使用15%的掩蔽率,研究者一般認為更高的掩蔽率會導致用來學習良好表征的上下文不足,而更低的掩蔽率則會導致訓練成本太高。

在這項研究中,研究者發現高達40%的掩蔽率可以超過15%的baseline,即使是80%的掩蔽率也可以保持大部分性能,這可以通過對下游任務進行微調來衡量。

實驗結果

在消融實驗中研究者發現,增加掩蔽率有兩方面影響:1、更高比例的輸入token被損壞,減少了上下文的大小并創建了一個更困難的任務;2、模型會執行更多的預測,這有利于訓練。研究者觀察到,較大的模型特別適合更高的掩蔽率,因為大模型本身具備更高的能力來執行困難任務。進一步地,研究者將該發現與復雜的掩蔽方案結合起來,比如span掩蔽和PMI掩蔽,以及BERT的80-10-10策略,并發現使用[MASK]替代的簡單均勻掩蔽在更高的掩蔽率下具備競爭力。

圖1:掩蔽率對具有高效預訓練方案的大模型的影響。研究者發現,在大多數任務中,更高的掩蔽率比15%的掩蔽率表現更好,40%是最佳的掩蔽率。

表2:大模型、高效預訓練方法的條件下,15% 或40% 掩蔽率在 GLUE 基準上的測試結果對比。

圖2:在掩蔽率為15%和40%的情況下,使用高效的預訓練方法訓練的大模型的下游任務性能。

表3:損壞率 vs. 預測率。以40%的掩蔽作為基線,分離m_corr和m_pred,并分別對它們進行操作。趨勢是明確的:更高的預測率是有益的,但更高的損壞率是有害的。

圖3:掩蔽率對不同大小的模型的影響。可以發現,較大的模型擁有較大的最佳掩蔽率。

未來展望

研究者進一步討論了其他語言模型中的掩蔽率問題,除MLM之外,還有其他被廣泛用于NLP任務的預訓練方案,包括自回歸語言模型(Radford et al., 2018; Brown et al., 2020) 和sequence-to-sequence語言模型(Raffel et al., 2020; Lewis et al., 2020)。類似地,sequence-to-sequence語言模型以一定的掩蔽率損壞文本,并用自回歸的方式預測掩蔽文本。T5(Raffel et al., 2020)也采用了15%的掩蔽率。研究者準備擴大研究,比如研究文本到文本模型,并探討掩蔽率和不同類型解碼器之間的相互作用。
更多內容請參考原論文。


責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-02-17 14:52:10

模型AI谷歌

2022-07-26 09:56:48

模型AI

2024-12-12 16:43:44

2023-10-12 12:13:16

AI訓練

2023-08-20 22:51:06

2023-08-17 15:04:01

2025-01-08 13:05:56

2025-06-25 09:15:38

AI模型LLM

2025-02-13 12:23:28

2024-05-27 08:40:00

2024-10-08 14:48:24

2021-05-07 09:34:20

量子芯片計算機

2023-10-25 09:19:00

AI訓練

2025-01-16 09:00:00

2021-05-20 17:04:23

AI

2024-07-18 12:58:03

2023-07-11 10:14:52

2025-01-07 12:55:00

訓練數據模型

2013-01-14 10:21:16

四核1080PCES 2013

2023-04-19 08:00:00

人工智能視覺語言模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91高清在线观看 | 亚洲精品视频二区 | 日韩一区二区三区四区五区六区 | 欧美成人一级 | 国产精品久久久久久久久免费高清 | 99免费| 中文字幕国产 | 午夜精品久久久久久久星辰影院 | 中文字幕av在线播放 | 国产午夜在线 | 欧美性猛交一区二区三区精品 | 亚洲色综合 | 国产一二区免费视频 | 久久综合亚洲 | 久在线观看 | 亚洲综合无码一区二区 | 夜夜艹天天干 | www国产成人免费观看视频,深夜成人网 | 中文在线一区 | 日日想夜夜操 | 福利视频日韩 | 欧美日高清 | 亚洲综合视频一区 | 国产精品久久久久久久免费大片 | 91精品国产综合久久久久久蜜臀 | 亚洲激情在线观看 | 色久影院 | 激情 一区| 日韩精品视频在线观看一区二区三区 | 国产婷婷综合 | 成人福利网 | 亚洲高清一区二区三区 | 亚洲第一网站 | av免费在线观看网站 | 国产成人精品一区二区三区四区 | 91精品国产综合久久国产大片 | 国产精品欧美一区二区三区 | 欧美精品一区在线 | 成人在线电影在线观看 | 91精品国产综合久久福利软件 | 久久久久久成人 |