成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用于文本分類的10大開源數據集

譯文
開源
文本分類是熱門的研究領域之一,這是一種分析文本數據以獲得寶貴信息的方法。據消息人士聲稱,預計全球文本分析市場在2020年至2024年的年復合增長率(CAGR)將超過20%。文本分類可用于許多應用領域,比如自動執行CRM任務、改善上網瀏覽和電子商務等。

[[319364]]

【51CTO.com快譯】文本分類是熱門的研究領域之一,這是一種分析文本數據以獲得寶貴信息的方法。據消息人士聲稱,預計全球文本分析市場在2020年至2024年的年復合增長率(CAGR)將超過20%。文本分類可用于許多應用領域,比如自動執行CRM任務、改善上網瀏覽和電子商務等。

本文列出了可用于文本分類的10個開源數據集,按首字母順序介紹。

1. Amazon Reviews Dataset(亞馬遜評論數據庫)

Amazon Review Dataset包含數百萬條亞馬遜客戶評論(輸入文本)和星級評定(輸出標簽),用于了解如何訓練fastText用于情感分析。該數據集的大小為493MB。

相關鏈接:https://www.kaggle.com/bittlingmayer/amazonreviews

2. Enron Email Dataset(安然電子郵件數據集)

Enron Email Dataset包含來自大約150個用戶的電子郵件數據,這些用戶大多是安然公司的高級管理層。該數據集由CALO項目(擁有學習和組織功能的認知助手)收集和準備,總共含有約50萬則郵件。

相關鏈接:https://www.cs.cmu.edu/~./enron/

3. Goodreads Book Reviews(Goodreads書評)

該數據集包含Goodreads書評網站上的評論以及描述圖書的眾多屬性,包括評論、閱讀、評論操作及書籍屬性等。圖書總數包括1561465本。

相關鏈接:https://cseweb.ucsd.edu/~jmcauley/datasets.html#goodreads

4. IMDB Dataset(IMDB數據集)

IMDB數據集包含用于自然語言處理或文本分析的5萬條影評。這是用于二進制情緒分類的數據集,包括用于訓練的25000條觀點鮮明的影評和用于測試的25000條影評。

相關鏈接:http://ai.stanford.edu/~amaas/data/sentiment/

5. MovieLens Latest Datasets(MovieLens最新數據集)

該數據集是電影、評論、所作標簽和用戶的集合。該數據有兩組數據集,它們是在一段時間內收集的。小數據集包括100000條評論和600個用戶為9000部電影所作的3600個標簽,而大數據集包括27000000條評論和280000個用戶為58000部電影所作的1100000個標簽。大數據集還包括標簽基因組數據,涉及1100個標簽。

相關鏈接:https://grouplens.org/datasets/movielens/latest/

6. OpinRank Dataset(OpinRank數據集)

該數據集包含從Tripadvisor和Edmunds收集的汽車和酒店的完整評論。該數據集包含10個不同城市的酒店的完整評論,以及2007年、2008年和2009年款汽車的完整評論。在數據集中,汽車評論的總數約42230條,酒店評論的總數約259000條。

相關鏈接:https://github.com/kavgan/OpinRank/tree/master

7. SMS Spam Collection(垃圾短信數據集)

SMS Spam Collection是含有垃圾短信的公共數據集,它們被收集用于手機垃圾短信方面的研究。該數據集有一個集合由5574條真實和未編碼的英文短信組成,根據合法或垃圾短信加以標記。該數據集有明文格式和ARFF格式兩種。

相關鏈接:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/

8. The Blog Authorship Corpus(博客作者語料庫)

The Blog Authorship Corpus包含2004年8月從blogger.com收集的19320個博客作者的帖子。該語料庫包含總共681288個帖子,超過1.4億個單詞,相當于每人約35個帖子和7250個單詞。在該數據集中,每個博客以一個單獨的文件加以顯示,文件名表示博客作者ID#以及博客作者自己提供的性別、年齡、行業和星座。

相關鏈接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

9. WordNet(詞網)

WordNet是一個大型的英語詞匯數據庫,其中名詞、動詞、形容詞和副詞被分組為不同的認知同義詞(同義詞集),每一組表示不同的概念。在該數據集中,同義詞集的總數是117000,每個同義詞集通過少量概念關系與其他同義詞集關聯起來。

相關鏈接:https://wordnet.princeton.edu/

10. Yelp Reviews(Yelp評論)

Yelp數據集是用于學習的通用數據集,它是Yelp的一小部分商家、評論和用戶數據,可用于個人、教育和學術等用途。該數據集包括來自10個大都市區的6685900條評論、200000張圖片和192609戶商家。

相關鏈接:https://www.yelp.com/dataset

原文標題:10 Open-Source Datasets For Text Classification,作者:Ambika Choudhury

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

 

責任編輯:龐桂玉 來源: 51CTO
相關推薦

2021-08-30 09:00:00

人工智能計算機視覺機器學習

2022-03-21 09:25:50

Kubernetes開源DevSecOps

2025-01-03 00:28:37

2019-03-25 22:03:40

開源自然語言NLP

2022-10-09 08:00:00

機器學習文本分類算法

2018-10-09 14:34:58

開源KubernetesGit

2020-04-28 08:34:08

KubernetesDocker開源工具

2009-08-12 09:09:04

2009-12-28 09:36:00

開源軟件Chrome OS

2018-03-07 11:11:46

微信開源小程序

2009-11-02 09:38:07

開源ESB

2019-05-09 08:29:34

開源安全SIEM工具

2013-07-05 09:33:33

開源云平臺OpenStackCloudStack

2018-08-10 14:44:01

Python數據工具

2010-01-05 13:41:40

2016-12-15 13:51:30

開源數據可視化

2020-03-24 14:35:24

開源工具Joplin

2023-05-17 08:00:00

ChatGPT人工智能

2010-03-31 10:29:38

開源技術

2018-11-14 10:15:58

開源技術 數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频在线看 | 国产激情网站 | 中文字幕一区在线 | 亚洲自拍偷拍免费视频 | 国产日产精品一区二区三区四区 | 国产精久久久久久 | 欧美色综合 | 成人二区 | 午夜看片网站 | 国产精品99久久久久久久久 | 亚洲欧美日韩在线不卡 | 亚洲欧美日韩精品久久亚洲区 | 日韩免费视频一区二区 | 欧美日韩国产免费 | 国产一区二 | 成人免费在线观看视频 | 日韩精品一区二区三区在线 | 国产精品久久久99 | 久久亚洲美女 | 国产精品久久久久久久久久妞妞 | 天天色影视综合 | 高清免费在线 | 中文字幕av中文字幕 | 色伊人 | 一区二区三区精品视频 | 午夜a v电影 | 亚洲天堂av网 | 成人在线不卡 | 国产一级黄色网 | av性色 | 成人羞羞国产免费视频 | 成人小视频在线免费观看 | 国产成人精品一区二区三区四区 | 视频三区 | 日本亚洲欧美 | 亚洲成人av | 五月综合色啪 | 久久亚洲一区二区 | 男女羞羞视频大全 | 97avcc| 你懂的在线视频播放 |