100+個自然語言處理數據集大放送,再不愁找不到數據!
大數據文摘作品
編譯:晚君、VVN、張禮俊、云舟
奉上100多個按字母順序排列的開源自然語言處理文本數據集列表(原始未結構化的文本數據),快去按圖索驥下載數據自己研究吧!
數據集
1. Apache軟件基金會公開郵件檔案:截止到2011年7月11日全部公開可用的Apache軟件基金會郵件檔案。(200 GB)
http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
2. 博主原創語料庫:包含2004年8月從blogger.com網站收集的19,320位博主的帖子。681,288個帖子以及140多萬字。(298 MB)
http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
3. 亞馬遜美食評論[Kaggle]:包含亞馬遜用戶在2012年10月前留下的568,454條食評。(240MB)
https://www.kaggle.com/snap/amazon-fine-food-reviews
4. 亞馬遜評論:斯坦福收集了3500萬條亞馬遜評論。(11GB)
https://snap.stanford.edu/data/web-Amazon.html
5. ArXiv上:所有收錄論文全文(270GB)+源文件(190GB)
http://arxiv.org/help/bulk_data_s3
6. ASAP自動作文評分[Kaggle]:在本次比賽中,有8個作文集。每個作文都由一個單獨提示所得回答所生成。所選作文長度為150到550個字不等。部分作文依賴于源信息,而另其他則不是。所有論文都是由7年級到10年級的學生所寫。所有的作文都由人工打分,并采用雙評分制。(100MB)
https://www.kaggle.com/c/asap-aes/data
7. ASAP簡答題評分[Kaggle]:每個數據集都是由單個提示所得回答生成的。所選回答的平均長度為50個字。某些回答依賴于源信息,而其他則不是。所有回答由10年級學生所寫。所有回答均為人工打分,并采用雙評分制。(35MB)
https://www.kaggle.com/c/asap-sas/data
8. 政治社交媒體分類:按內容分類來自政客的社交媒體消息。(4MB)
https://www.crowdflower.com/data-for-everyone/
9. CLiPS文體學研究(CSI)語料庫:每年擴展兩種類型的學生寫作:文章和綜述。這個語料庫的目的主要在于文體學研究,當然也可用于其他研究。(數據集需要申請獲得)
http://www.clips.uantwerpen.be/datasets/csi-corpus
10. ClueWeb09 FACC:帶有Freebase注釋的ClueWeb09(72GB)
http://lemurproject.org/clueweb09/FACC1/
11. ClueWeb11 FACC:帶有Freebase注釋的ClueWeb11(92GB)
http://lemurproject.org/clueweb12/FACC1/
12. 常見爬蟲語料庫:由超過50億個網頁(541TB)爬蟲數據構成。
http://aws.amazon.com/de/datasets/common-crawl-corpus/
13. 康奈爾電影對話語料庫(Cornell Movie Dialog Corpus):包含大量豐富的元數據,從原始電影劇本中提取的對話集合:617部電影,10,292對電影人物之間的220,579次會話交流。(9.5MB)
http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
14. 企業信息:分類企業在社交媒體上到底談論了什么的工作。要求志愿者將企業陳述分類為信息(關于公司或其活動的客觀陳述),對話(回復用戶等)或行動(要求投票或要求用戶點擊鏈接等的信息)。(600KB)
http://aws.amazon.com/de/datasets/common-crawl-corpus/
15. Crosswikis:關聯英語短語與維基百科文章的數據庫。(11GB)
http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
16. 一個網絡社區關于從維基百科中提取結構化信息并使得此信息在網絡上可用的共同成果。(17GB)
http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
17. Death Row:自1984年以來處決的每個犯人的遺言。(HTML表格)
http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
18. Del.icio.us:delicious.com上的125萬個書簽。
http://arvindn.livejournal.com/116137.html
19. 社交媒體上的災難推文:1萬條推文,注釋了是否涉及災難事件。(2MB)
https://www.crowdflower.com/data-for-everyone/
20. 經濟新聞相關文章:確定新聞文章與美國經濟是否相關,如果相關,文章的基調是什么。時間范圍從1951年到2014年。(12MB)
https://www.crowdflower.com/data-for-everyone/
21. 安然公司電子郵件數據:包含1,227,255封電子郵件,其中493,384個附件覆蓋151位管理者。(210GB)
http://aws.amazon.com/de/datasets/enron-email-data/
22. 事件注冊:免費工具,可以實時訪問全球100,000個媒體的新聞文章。有API接口。(查詢工具)
http://eventregistry.org/
23. Examiner.com—用新聞頭條釣魚的垃圾郵件[Kaggle]:現已停用的釣魚網站The Examiner從2010年到2015年發布的3百萬眾包新聞頭條。(200MB)
https://www.kaggle.com/therohk/examine-the-examiner
24. 聯邦采購數據中心的聯邦合同(USASpending.gov):來自USASpending.gov的聯邦采購數據中心所有聯邦合同的數據庫。(180GB)
http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
25. Flickr個人分類法:個人標簽的樹結構數據集。(40MB)
http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
26. Freebase數據庫:Freebase中所有當前事實和推斷的數據庫(26GB)
http://aws.amazon.com/de/datasets/freebase-data-dump/
27. Freebase簡單主題庫:Freebase中每個主題中基本的可識別事實的數據庫(5GB)
http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
28. Freebase四元庫:Freebase中所有當前事實和推斷的數據庫[LZ1]。(35GB)
http://aws.amazon.com/de/datasets/freebase-quad-dump/
29. GigaOM Wordpress挑戰賽[Kaggle]:博客文章,元數據,用戶喜好。(1.5GB)
https://www.kaggle.com/c/predict-wordpress-likes/data
30. 谷歌圖書n元語法:也可通過亞馬遜S3上hadoop格式文件獲取。(2.2TB)
http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
31. 谷歌網頁5元語法:含有英文單詞的n元序列,及其觀測頻率計數(24GB)
https://catalog.ldc.upenn.edu/LDC2006T13
32. Gutenberg電子書清單:帶注釋電子書清單(2MB)
http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
33. 加拿大議會文本塊:來自加拿大第36屆議會正式記錄(Hansards)的130萬標準文本塊(句子或更小的片段)。(82MB)
http://www.isi.edu/natural-language/download/hansard/
34. 哈佛圖書館:超過1,200萬冊哈佛圖書館所藏資料的書目記錄,包括書籍,期刊,電子資源,手稿,檔案資料,樂譜,音頻,視頻和其他資料。(4GB)
http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
35. 仇恨言論識別:志愿人查看短文,并確定它是否a)包含仇恨言論,b)冒犯性的,但沒有仇恨言論,或c)一點也沒有冒犯性。包含近15千行,每個文本字符串有三個志愿者判斷。(3MB)
https://github.com/t-davidson/hate-speech-and-offensive-language
36. 希拉里克林頓的電子郵件[Kaggle]:整理了近7,000頁克林頓的電子郵件。(12MB)
https://www.kaggle.com/kaggle/hillary-clinton-emails
37. 家得寶公司產品搜索關聯[Kaggle]:包含家得寶公司網站的許多產品和客戶搜索條款。挑戰是預測搜索條目組合和產品的相關性分數。為了創建真實標簽,家得寶公司將搜索/產品配對眾包給多個評分者打分。(65MB)
https://www.kaggle.com/c/home-depot-product-search-relevance/data
38. 確定文本中的關鍵短語:問題/答案對和文本組成;判斷上下文文本是否與問題/答案相關。(8MB)
https://www.crowdflower.com/data-for-everyone/
39. 美國電視節目‘危險’:216930個過去出現在‘危險’節目的問題合集。(53MB)
http://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
40. 200k英語明文笑話:208000種不同來源的明文笑話存檔。
https://github.com/taivop/joke-dataset
41. 歐洲語言機器翻譯:(612MB)
http://statmt.org/wmt11/translation-task.html#download
42. 材料安全數據表:230000材料安全數據表。(3GB)
http://aws.amazon.com/de/datasets/material-safety-data-sheets/
43. 百萬新聞頭條-澳大利亞ABC[Kaggle]:由澳大利亞ABC新聞發布的從2003到2017年的130萬新聞。(56MB)
https://www.kaggle.com/therohk/million-headlines
44. MCTest:可免費使用的660個故事集和相關問題,可用于研究文本機器理解、問答(1MB)。
http://research.microsoft.com/en-us/um/redmond/projects/mctest/index.html
45. Negra:德國報紙文本的語法標注語料庫。可供所有大學及非營利機構免費使用。需要簽署協議并發送申請才能獲得。
http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
46. 新聞頭條-印度時報[Kaggle]:印度時報發表的從2001到2017年的270萬類新聞頭條。(185MB)
https://www.crowdflower.com/data-for-everyone/
47. 新聞文章/維基百科頁面配對:志愿者閱讀一篇短文,被問及最匹配的兩篇維基百科文章是哪一篇。(6MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
48. 2015 NIPS論文(版本2)[Kaggle]:所有2015年nips論文全文。(335MB)
https://www.kaggle.com/benhamner/nips-2015-papers/version/2
49. 紐約時報臉譜網數據:所有紐約時報在臉譜網的帖子。(5MB)
http://minimaxir.com/2015/07/facebook-scraper/
50. 全球新聞一周供稿[Kaggle]:在2017年8月的一周,用20多種語言全球發表的140萬篇新聞事件數據集。(115MB)
https://www.kaggle.com/therohk/global-news-week
51. 句子/概念對的正確性:志愿者讀關于兩個概念的句子。例如,“狗是一種動物”,或者“船長可以和主人有同樣的意思”,然后他們被問到這個句子是否正確,并將其1-5評級。(700KB)
https://www.crowdflower.com/data-for-everyone/
52. 公開圖書館數據庫:公開圖書館中所有記錄的修改合集。(16GB)
https://openlibrary.org/developers/dumps
53. 人物語料庫:收集了作者文章風格和個性預測的實驗。由145名學生的145篇荷蘭語文章組成。(獲得需要申請)
http://www.clips.uantwerpen.be/datasets/personae-corpus
54. Reddit評論:截至2015年7月,reddit論壇所有公開的評論。共計17億條評論。(250GB)
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/
55. Reddit評論(2015年5月):Kaggle子數據集(8GB)
https://www.kaggle.com/reddit/reddit-comments-may-2015
56. Reddit提交語料庫:2006年1月-2015年8月31日所有公開可得的Reddit提交內容。(42GB)
https://www.reddit.com/r/datasets/comments/3mg812/full_reddit_submission_corpus_now_available_2006/
57. 路透社語料庫:一個包含路透社新聞報道的數據集,用于自然語言處理的研究開發、信息檢索和機器學習系統。該語料庫又被稱為“路透社語錄1”或RCV1,它遠遠大于原來在文本分類中被廣泛使用的著名的路透社21578數據集。該語料庫數據需要通過簽署協議和發送郵件獲取。(2.5GB)
https://trec.nist.gov/data/reuters/reuters.html
58. SaudiNewsNet:31030條從不同沙特阿拉伯的網絡報紙上摘取的標題和元數據。(2MB)
https://github.com/ParallelMazen/SaudiNewsNet
59. 垃圾短信數據集:5574條被標記為合法/不合法的、未經編碼的真實英文短信消息。(200KB)
http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/
60. 《南方公園》數據集:csv格式文件,包含季、集、角色和臺詞的劇本信息。(3.6MB)
https://github.com/BobAdamsEE/SouthParkData
61. Stackoverflow:730萬條stackoverflow問題和其他stackexchange(問答工具)上的問答。
http://data.stackexchange.com/
62. Twitter的Cheng-Caverlee-lee用戶定位數據集:2009年9月-2010年1月的推文定位。(400MB)
https://archive.org/details/twitter_cikm_2010
63. Twitter上關于新英格蘭愛國者隊“放氣門”事件的輿情:在2015年超級碗比賽前,人們對被放了氣的橄欖球以及愛國者隊是否存在欺騙行為議論紛紛。該數據集提供了丑聞發生的這段時間里Twitter上的輿情,以便評估公眾對整個事件的感受。(2MB)
https://www.figure-eight.com/data-for-everyone/
64. Twitter上對于左傾相關事件的輿情分析:關于墮胎合法化、女權主義、希拉里·克林頓等各種左傾相關事件的推文,推文將根據內容推斷被分類為For(支持)、Against(反對)、Neutral(中立)或None of the above(以上都不是)。(600KB)
https://www.figure-eight.com/data-for-everyone/
65. Twitter的Sentiment140(情感分析數據集):關于品牌/關鍵詞的推文,網站包括論文和研究想法。(77MB)
http://help.sentiment140.com/for-students/
66. Twitter上關于自動駕駛汽車的輿情分析:貢獻者們閱讀推文后,將推文里對于自動駕駛的態度分為非常積極、較積極、中立、較消極和非常消極。如果推文與自動駕駛汽車無關,他們也要標記出來。(1MB)
https://www.figure-eight.com/data-for-everyone/
67. Twitter上定位于東京的推文:20萬條來自東京的推文。(47MB)
http://followthehashtag.com/datasets/200000-tokyo-geolocated-tweets-free-twitter-dataset/
68. Twitter上定位于英國的推文:17萬條來自英國的推文。(47MB)
http://followthehashtag.com/datasets/170000-uk-geolocated-tweets-free-twitter-dataset/
69. Twitter上定位于美國的推文:20萬條來自美國的推文。(45MB)
http://followthehashtag.com/datasets/free-twitter-dataset-usa-200000-free-usa-tweets/
70. Twitter上對于美國各大航空公司的態度(Kaggle數據集):這是一個對于美國各大航空公司存在問題的情感分析任務。該數據集爬取了2015年2月的推文,貢獻者們將其分類為積極、消極和中立,對于那些分類為消極態度的推文,還會給出原因(例如“飛機晚點”或“服務態度差”等)。(2.5MB)
https://www.kaggle.com/crowdflower/twitter-airline-sentiment
71. 基于新聞標題的美國經濟表現:根據新聞標題頭條和摘要,對新聞和美國經濟的相關性進行排序。(5MB)
https://www.figure-eight.com/data-for-everyone/
72. 城市詞典(美國在線俚語詞典)里的單詞和定義:一個經過清洗的CSV語料庫,包含截至2016年5月的城市詞典內所有260萬個詞匯、定義、作者和投票情況。(238MB)
https://www.kaggle.com/therohk/urban-dictionary-words-dataset
73. 亞馬遜的Wesbury Lab Usenet語料庫:2005-2010的47,860個英文新聞組的郵件匿名匯編(40GB)
http://aws.amazon.com/de/datasets/the-westburylab-usenet-corpus/
74. 維基百科的Wesbury Lab語料庫:2010年4月維基百科英文部分中所有文章的快照。網站詳細描述了數據是如何被處理的——即去除所有鏈接和不相關的材料(如導航文本等)。語料庫是未經標記的原始文本,它被用于Stanford NLP。
http://www.psych.ualberta.ca/~westburylab/downloads/westburylab.wikicorp.download.html
75. Stanford NLP跳轉的鏈接:
https://scholar.google.com/scholar?oi=bibs&hl=en&cites=9060444488071171966&as_sdt=5
76. 維基百科提取(WEX):經處理后的英文版維基百科(66GB)
http://aws.amazon.com/de/datasets/wikipedia-extraction-wex/
77. 維基百科的XML格式數據:所有維基媒體(Wikimedia)的完整復制,以維基文本元(wikitext source)和元數據的形式嵌入到XML中。(500GB)
http://aws.amazon.com/de/datasets/wikipedia-xml-data/
78. 雅虎問答中的綜合問題與答案:截至2007年10月25日的雅虎問答語料庫,包含4,483,032條問答。(3.6GB)
http://webscope.sandbox.yahoo.com/catalog.php?datatype=l
79. 雅虎問答中用法語提問的問題:2006-2015年雅虎問答語料庫的子數據集,包含170萬條法語問答。(3.8GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
80. 雅虎問答中的關于“如何做”的問題[LZ2]:根據語言屬性從2007年10月25日雅虎問答語料庫選出的子集,包含142,627條問答。(104MB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
81. 雅虎從公開網頁中提取的HTML格式頁面:包含少量復雜HTML格式的頁面和267萬個復雜格式的頁面。(50+ GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
82. 雅虎從公開網頁頁面中提取的元數據:1億個RDF格式數據的三元組(2GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
83. 雅虎的N元語法模型表示(N-Gram Representations)數據:該數據集包含N元語法表示數據,這些數據可以用于IR研究中常見的查詢重寫(query rewriting)任務,也可以用于NLP研究中常見的詞語和句子相似性分析任務。(2.6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
84. 雅虎的N元語法模型數據(版本2.0):n元語法模型數據(n=1-5),從一個包含1460萬個文檔(1.26億條不重復的語句,34億個運行詞)的語料庫中提取,這些文檔是從12000個面向新聞的站點里爬取的(12 GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
85. 雅虎搜索日志的相關性判斷:匿名雅虎搜索日志的相關性判斷(1.3GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
86. 雅虎的英語維基百科語義注釋快照:包含從2006年11月4日開始的經一些公開的NLP工具處理后的英文維基百科,共有1,490,688個條目。(6GB)
https://webscope.sandbox.yahoo.com/catalog.php?datatype=l
87. Yelp:包含餐廳排名和220萬條評論
https://www.yelp.com/dataset
88. Youtube:170萬條YouTube視頻描述(torrent格式)
https://www.reddit.com/r/datasets/comments/3gegdz/17_millions_youtube_videos_description/
資源
89. 優秀的公開NLP數據集(包含更多清單)
https://github.com/awesomedata/awesome-public-datasets
90. 亞馬遜公開數據集
https://aws.amazon.com/de/datasets/
91. CrowdFlower數據集(包含大量小調查和對特定任務以眾包方式獲得的數據)
https://www.crowdflower.com/data-for-everyone/
92. Kaggle數據集
https://www.kaggle.com/datasets
93. Kaggle比賽(請確保這些kaggle比賽數據可以在比賽之外使用)
https://www.kaggle.com/competitions
94. 開放圖書館
https://openlibrary.org/developers/dumps
95. Quora(大部分為已標注好的語料庫)
https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus
96. reddit數據集(無數個數據集,大部分由業余愛好者爬取,但數據的整理和許可可能不夠規范)
https://www.reddit.com/r/datasets
97. Rs.io:也是一個很長的數據集清單
http://rs.io/100-interesting-data-sets-for-statistics/
98. Stackexchange:公開數據
http://opendata.stackexchange.com/
99. 斯坦福NLP組(大部分為已標注的語料庫和TreeBanks,以及實用的NLP工具)
https://nlp.stanford.edu/links/statnlp.html
100. 雅虎研究院的數據集匯總Webscope(還包含了使用了這些數據的論文列表)
http://webscope.sandbox.yahoo.com/
相關報道:https://github.com/niderhoff/nlp-datasets/blob/master/README.md
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】