成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

新聞 前端
數(shù)據(jù)增強(qiáng)技術(shù)已經(jīng)是CV領(lǐng)域的標(biāo)配,比如對圖像的旋轉(zhuǎn)、鏡像、高斯白噪聲等等。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

數(shù)據(jù)增強(qiáng)技術(shù)已經(jīng)是CV領(lǐng)域的標(biāo)配,比如對圖像的旋轉(zhuǎn)、鏡像、高斯白噪聲等等。

但在NLP領(lǐng)域,針對文本的數(shù)據(jù)增強(qiáng),卻是不那么多見。

于是,就有一位機(jī)器學(xué)習(xí)T型工程師,在現(xiàn)有的文獻(xiàn)中,匯總一些NLP數(shù)據(jù)增強(qiáng)技術(shù)。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

妥妥干貨,在此放送。

文本替代

文本替代主要是針對在不改變句子含義的情況下,替換文本中的單詞,比如,同義詞替換、詞嵌入替換等等。

接著,我們就來好好介紹一下。

同義詞替換

顧名思義,就是在文本中隨機(jī)抽取一個(gè)單詞,然后再同義詞庫里將其替換為同義詞。

比如,使用WordNet數(shù)據(jù)庫,將「awesome」替換為「amazing」。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

這個(gè)技術(shù)比較常見,在以往的論文中有很多都使用了這個(gè)技術(shù),比如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

論文鏈接:
https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

論文鏈接:
https://arxiv.org/abs/1901.11196

要實(shí)現(xiàn)這項(xiàng)技術(shù),可通過NLTK對WordNet進(jìn)行訪問,還可以使用TextBlob API。

此外,還有一個(gè)PPDB數(shù)據(jù)庫,包含著百萬個(gè)單詞的詞庫。

詞嵌入替換

這種方法是,采取已經(jīng)預(yù)訓(xùn)練好的單詞嵌入,如Word2Vec、GloVe、FastText、Sent2Vec等,并將嵌入空間中最近的鄰接詞作為句子中某些單詞的替換。

比如:

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

這樣,就可以將單詞替換成臨近的3個(gè)單詞,獲得文本的3種變體形式。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

掩碼語言模型(MLM)

類似于BERT、ROBERTA、ALBERT,Transformer模型已經(jīng)在大量的文本訓(xùn)練過,使用掩碼語言模型的前置任務(wù)。

在這個(gè)任務(wù)中,模型必須依照上下文來預(yù)測掩碼的單詞。此外,還可以利用這一點(diǎn),對文本進(jìn)行擴(kuò)容。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

跟之前的方法相比,生成的文本在語法上會(huì)更加連貫。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

但是,需要注意的是,決定掩蓋哪一個(gè)單詞并非易事,它決定了效果的最終呈現(xiàn)。

基于TF-IDF的單詞替換

這一方法最初是出現(xiàn)在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

論文鏈接:
https://arxiv.org/abs/1904.12848

基本思路在于TF-IDF得分低的單詞是沒有信息量的的詞,因此可以替換,而不影響句子的原本含義。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

通過計(jì)算整個(gè)文檔中單詞的 TF - IDF得分并取最低得分來選擇替換原始單詞的單詞。

反向翻譯

反向翻譯,就是先將句子翻譯成另一種語言,比如,英語翻譯成法語。

然后再翻譯回原來的語言,也就是將法語翻譯回英語。

檢查兩個(gè)句子之間的不同之處,由此將新的句子作為增強(qiáng)文本。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

還可以一次使用多種語言進(jìn)行反向翻譯,產(chǎn)生更多的變體。

比如,除了法語以外,再將其翻譯為漢語和意大利語。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

要實(shí)現(xiàn)反向翻譯,可以使用TextBlob。另外,還可以使用Google Sheets,說明書已附文末。

文本形式轉(zhuǎn)換

這一方法主要是利用正則表達(dá)式應(yīng)用的的簡單模式匹配轉(zhuǎn)換,在Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有詳細(xì)介紹。

論文鏈接:
https://arxiv.org/abs/1812.04718

舉個(gè)簡單的例子,將原本形式轉(zhuǎn)換為縮寫,反之亦然。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

但是也會(huì)出現(xiàn)一些歧義,比如:

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

在此,選擇允許歧義的收縮,但不允許擴(kuò)展。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

Python的收縮庫已附文末。

隨機(jī)噪聲注入

顧名思義,也就是在文本中注入噪聲,來訓(xùn)練模型對擾動(dòng)的魯棒性。

比如,拼寫錯(cuò)誤。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

句子改組。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

空白噪聲。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

隨機(jī)插入。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

隨機(jī)交換。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

隨機(jī)刪除。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

語法樹

這一方法也出現(xiàn)在了Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

論文鏈接:
https://arxiv.org/abs/1812.04718

其思路是解析并生成原句的從屬樹,利用規(guī)則進(jìn)行轉(zhuǎn)換,生成新句子。

比如,將句子的主動(dòng)語氣轉(zhuǎn)換為被動(dòng)語氣,反之亦然。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

文本混合

這項(xiàng)技術(shù)的想法源于一項(xiàng)名為“Mixup”的圖像增強(qiáng)技術(shù)。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

Guo et al.在此基礎(chǔ)上進(jìn)行了修改,將其應(yīng)用到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

論文鏈接:
https://arxiv.org/abs/1905.08941

主要有兩種方法。

wordMixup

這個(gè)方法在于,抽取兩個(gè)隨機(jī)的句子,將它們進(jìn)行零填充,使其長度相同。然后,按一定比例組合在一起。

所得到的單詞嵌入通過CNN/LSTM編碼器傳遞到句子嵌入中,隨后計(jì)算交叉熵?fù)p失。

集合啦,NLP數(shù)據(jù)增強(qiáng)技術(shù)!超全資源匯總

sentMixup

可以看到這一方法,與上述方法類似,只不過在具體步驟上有所調(diào)整。

好了,NLP的數(shù)據(jù)增強(qiáng)技術(shù)就介紹到這里,希望能夠?qū)δ阌兴鶐椭?/p>

傳送門

博客地址:
https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet數(shù)據(jù)集:
https://www.nltk.org/howto/wordnet.html

TextBlob API:https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB數(shù)據(jù)集:http://paraphrase.org/#/download

YF-IDF代碼:
https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

使用Google Sheets實(shí)現(xiàn)反向翻譯:
https://amitness.com/2020/02/back-translation-in-google-sheets/

Python收縮庫:
https://github.com/kootenpv/contractions

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-14 08:04:15

2011-06-30 10:12:57

安全資源技術(shù)差距安全從業(yè)人員

2022-08-11 22:10:38

云安全資源池安全工具集

2024-07-29 08:09:36

BERT大型語言模型LLM

2021-02-20 10:36:20

工控安全ICS網(wǎng)絡(luò)攻擊

2022-08-01 11:08:35

自動(dòng)駕駛數(shù)據(jù)

2011-04-22 10:53:13

Unix哲學(xué)

2013-02-25 14:13:20

2023-10-09 07:57:14

JavaJCF

2012-04-06 10:13:08

SQLSQL Server

2019-05-14 09:30:36

數(shù)據(jù)開發(fā)工具

2022-10-25 16:36:03

機(jī)器學(xué)習(xí)深度學(xué)習(xí)數(shù)據(jù)集

2013-08-07 13:30:13

iOS 7人機(jī)交互iOS 7 UI設(shè)計(jì)i0S 7設(shè)計(jì)資源匯總

2015-11-04 16:28:48

AdMaster

2023-09-03 12:52:17

2024-01-11 09:06:35

2010-03-11 13:47:39

2022-06-13 10:17:26

人工智能

2020-02-04 17:31:49

Python 開發(fā)編程語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 麻豆精品久久 | 国产欧美日韩在线观看 | 男人天堂网址 | 欧美视频 | 老外黄色一级片 | 中文字幕av在线一二三区 | 国产成人福利视频在线观看 | 人人色视频| 91精品国产91久久久久久最新 | 国产精品夜夜夜一区二区三区尤 | 日韩国产欧美一区 | 日韩精品久久一区 | 国产精品一区二区三区四区 | 中文欧美日韩 | 欧美一级一 | 久久成人亚洲 | 欧美日韩在线观看一区 | 国产一区二区三区在线免费观看 | 国产精品亚洲一区二区三区在线 | 久久一区精品 | 在线观看av不卡 | 久久精品国产一区二区三区 | 蜜月aⅴ免费一区二区三区 99re在线视频 | av大全在线观看 | 日韩欧美在线视频 | 亚洲一区二区高清 | 国产成人免费视频 | 一区二区三区免费观看 | 久久久入口 | 午夜av电影 | 日本成人在线网址 | 午夜国产精品视频 | 五月天激情电影 | av一二三四| 国产精品永久免费视频 | 99精品一区二区三区 | 国产精品一区视频 | 盗摄精品av一区二区三区 | 九九热这里只有精品在线观看 | 粉嫩av| 国产乱码精品一区二区三区中文 |