ICLR2021對比學習(Contrastive Learning)NLP領域論文進展梳理
大家好,我是對白。 本次我挑選了ICLR2021中NLP領域下的六篇文章進行解讀,包含了文本生成、自然語言理解、預訓練語言模型訓練和去偏、以及文本匹配和文本檢索。從這些論文的思想中借鑒了一些idea用于公司自身的業務中,最終起到了一個不錯的效果。 任務:端到端文本生成 本文要解決的是文本生成任務中的暴露偏差(exposure bias)問題,即在文本生成自回歸形式的生成任務中,解碼器的輸入總是ground truth的token,沒有遇到過錯誤的生成結果。 本文通過引入對比學習損失,讓模型從負樣本中區分正樣本,使得模型暴露于不同的噪聲情況下,來解決這一問題。然而,完全隨機生成噪聲樣本會導致模型非常容易區分,特別是對于預訓練模型而言。因此,本文提出了一種對抗擾動方法,添加擾動使得正樣本具有較高的似然度;是的負樣本具有較低的似然度。 任務:自然語言理解、在fine-tune階段增強文本表示 本文主要研究文本領域的數據增強方法,研究了如下問題: 可以將哪些增強方法應用于文本? 這些增強方式是互補的嗎,是否可以找到一些策略來整合它們以產生更多不同的增強示例? 如何有效地將獲得的增強樣本融入訓練過程? 作者考慮了五種針對于文本的數據增強方法: 回譯(back-translation) c-BERT 詞替換 mixup cutoff 對抗訓練 Contrastive Learning with Adversarial Perturbations for Conditional Text Generation
CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding
進一步,作者考慮了三種不同的數據增強的策略,以探究問題1和問題2,如上圖所示: 隨機選擇:為mini-batch內的每一條樣本,隨機選擇一種數據增強方法; mixup:將mini-batch內的兩條樣本通過mixup的策略隨機組合 將不同的增強方法堆疊: 在第三個問題——如何將其更好地融入finetune任務上,提出了對比損失。 實驗發現,兩種增強方式的堆疊能進一步增強性能。在GLUE上進行了實驗,均分相比Baseline提升了2個點。 任務:預訓練語言模型去偏
FairFil: Contrastive Neural Debiasing Method for Pretrained Text Encoders
本文將對比學習用于消除預訓練語言模型生成的文本表示中的偏見因素(例如性別偏見、種族偏見等)。為了做到這一點,本文訓練一個額外的映射網絡,將語言模型生成的文本表示轉換成另一個表示,在新生成的表示上能達到消除偏見的效果。本文的創新點在于: 將原文本中的偏見詞替換成其反義詞(如man<->woman; her<->his; she<->he),這樣可以構建一個增強的文本。通過對比損失,在轉換后的表示中,最大化這兩者的互信息; 為了進一步消除文本中隱含的偏見,額外提出了一個損失,去最小化生成的句子表示和偏見詞表示的互信息。 任務:語言模型預訓練 本文分析了目前將對比學習用于文本表示學習存在的問題(2.2節),包括: 對比學習中,如果采用KL散度作為訓練目標,訓練過程會不穩定; 對比學習要求一個較大的負樣本集合,效率低。 對于第一個問題,作者添加了一個Wasserstein約束,來增強其訓練時的穩定性;對于第二個問題,作者提出了只采樣最近的K個負樣本,稱為Active Negative-sample selection(和NIPS那篇:Hard Negatives Mixing比較類似)。 任務:文本匹配;多標簽文本分類 本文主要嘗試解決多標簽文本分類問題,特別是其存在的長尾標簽問題(即當數據較少時,類別分布往往不均勻,會存在大量很多只出現了一兩次的標簽,同時少量類別頻繁出現)。 本文主要將多標簽分類任務建模成類似文本匹配的形式。將采樣不同的正負標簽,同時也會從句子中采樣文本片段,構成偽標簽。這四種形式的標簽(正標簽、負標簽、正偽標簽、負偽標簽)編碼后,和句子編碼拼接,經過一個匹配層,通過二分類交叉熵損失(BCE),或NCE損失(將正例區別于負例)訓練匹配模型。 任務:稠密文本檢索 本文研究文本檢索領域,不同于傳統的利用詞級別進行檢索(稀疏檢索),本文通過訓練文本表示進行文本檢索(稱為Dence Retrieval,DR)。DR包含兩個階段: 預訓練一個模型,將文本編碼成一個向量,訓練目標是使得similar pairs具有最大的相似度分數; 通過訓練好的編碼模型,將文本編碼、索引,根據query的相似度執行檢索。 本文主要關注于第一階段,即如何訓練一個好的表示。本文從一個假設出發:負樣本采樣方法是限制DR性能的瓶頸。本文的貢獻: 提出了一種更好的負采樣方法,用于采樣優質的dissimilar pairs; 本文提出的效果能讓訓練更快收斂; 本文提出的方法相比基于BERT的方法提升了100倍效率,同時達到了相似的準確率。
Towards Robust and Efficient Contrastive Textual Representation Learning
Self-supervised Contrastive Zero to Few-shot Learning from Small, Long-tailed Text data
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval