15個超級棒的外文免費數據集,學習數據分析不愁沒有數據用了!
今天我們來介紹幾個完全免費的數據集下載網站,相信大家一定能從中得到一些幫助!
不過因為都是國外的網站,那么某些網站使用起來當然需要一些“手段”啦,正所謂,八仙過海各顯神通,怎么進入這些網站,就看自己的本事了!
FiveThirtyEight
FiveThirtyEight 是一個非常流行的互動新聞和體育網站,是由 Nate Silver 創辦的。網站上有許多非常有趣的數據分析文章,可以給我們提供很多學習思路。
FiveThirtyEight 文章中使用的數據集可以在Github上在線獲得
https://github.com/fivethirtyeight/data
以下是一些示例:
航空安全-包含來自各航空公司的事故信息。
美國天氣歷史-美國歷史天氣數據。
研究藥物-美國誰在服用阿達拉的數據。
網站鏈接
http://fivethirtyeight.com/
BuzzFeed
BuzzFeed 最初是一家低質量文章的供應商,后來發展的很不錯,其網站上也有很多比較不錯的數據分析文章。
BuzzFeed使文章中使用的數據集在Github上可用
https://github.com/BuzzFeedNews
以下是一些示例:
聯邦偵察機-包含用于國內監視的飛機的數據。
寨卡病毒-有關寨卡病毒爆發地理的數據。
槍支背景調查-數據背景調查的人試圖購買槍支。
https://www.buzzfeed.com/
NASA
NASA 是一個由公共資助的政府組織,所以它的所有數據都是公開的。任何人都可以在網站下載與地球科學有關的數據集和與空間有關的數據集。
相關數據鏈接
https://earthdata.nasa.gov/
AWS Public Data sets
Amazon 在其 Amazon Web 服務平臺上提供大型數據集,我們可以免費下載數據并在自己的計算機上使用它,當然是需要 AWS 賬戶的。
以下是一些示例:
googlebooks中的n-gram列表-來自大量書籍的常用詞和詞組。
普通爬網語料庫-從超過50億網頁爬網數據。
陸地衛星圖像-地球表面的中等分辨率衛星圖像。
網站鏈接
https://aws.amazon.com/datasets/?_encoding=UTF8&jiveRedirect=1
Google Public Data sets
和亞馬遜很像,谷歌也有云托管服務,稱為谷歌云平臺。
以下是一些示例:
USA名稱-包含從1879年到2015年美國所有的社會保障名稱申請。
Github活動-包含超過280萬個公共Github存儲庫上的所有公共活動。
歷史天氣-1929年至2016年美國國家海洋和大氣管理局9000個氣象站的數據。
網站鏈接
https://cloud.google.com/bigquery/public-data/
Wikipedia
維基百科是一個免費的、在線社區編輯百科全書。維基百科包含了驚人的知識廣度,包含了從奧斯曼-哈布斯堡戰爭到萊昂納多-尼莫伊的各種內容。作為維基百科致力于提升知識的一部分,他們免費提供所有內容,并定期轉存網站上所有文章。
數據下載地址
https://en.wikipedia.org/wiki/Wikipedia:Database_download
Kaggle
Kaggle是一個數據科學社區,主辦機器學習競賽。網站上有各種外部提供的有趣數據集,既有現場比賽,也有歷史比賽。我們可以下載任何一項數據,但是必須注冊Kaggle并接受比賽的服務條款。
數據下載地址
https://www.kaggle.com/datasets
UCI Machine Learning Repository
UCI機器學習庫是web上最古老的數據源之一,因為數據集是由用戶貢獻的,所以具有不同級別的文檔和清潔度,但絕大多數數據集都是干凈的,可以應用于機器學習當中。可以把UCI作為尋找有趣數據集的第一站。
地址
https://archive.ics.uci.edu/ml/datasets.php
Quandl
Quandl是經濟和金融數據的存儲庫,有些信息是免費的,但許多數據集需要付費,Quandl對于建立預測經濟指標或股票價格的模型是很有用的。由于有大量可用的數據集,所以可以建立一個復雜的模型,使用許多數據集來預測另一個模型中的值。
地址
https://www.quandl.com/browse
data.world
data.world 將自己描述為“數據人的社交網絡”,但可以更準確地描述為“數據的GitHub”。它是一個可以搜索、復制、分析和下載數據集的地方。此外,我們還可以將數據上載到data.world并利用它與其他人合作。
在相對較短的時間內,它已經成為一個'應該去'的地方獲取數據,這絕對是一個值得多逛逛的網站
地址
https://www.data.world/
Data.gov
Data.gov是一個相對較新的網站,是美國政府開放。Data.gov可以從多個美國政府機構下載數據,數據范圍從政府預算到學校表現分數等等。但是許多數據需要額外探索,有時很難找出哪個數據集是“正確的”版本。
網站地址
https://www.data.gov/
The World Bank
世界銀行是一個向發展中國家提供貸款和咨詢的全球發展組織,世界銀行定期為發展中國家的項目提供資金,然后收集數據以監測這些項目的成功與否。
我們可以直接瀏覽世界銀行的數據集,無需注冊。但是在下載的時候,有時會出現問題,所以需要多點擊幾次下載才可以成功下載到數據
地址
http://data.worldbank.org/
/r/datasets
Reddit是一個流行的社區討論網站,它有專門的地方來分享有趣的數據集。它被稱為datasets subreddit,或/r/datasets。這些數據集的范圍變化很大,因為它們都是用戶提交的,所以有些數據集看起來有些奇妙。
地址
https://www.reddit.com/r/datasets/top/?sort=top&t=all
Academic Torrents
Academic Torrents是一個比較年輕的網站,旨在共享來自科學論文的數據集。因為它是一個較新的站點,所以很難判斷最常見的數據集類型是什么樣的。目前,它有大量缺乏上下文的有趣數據集。
地址
http://academictorrents.com/browse.php?cat=6
Github
這個就不多說了吧,不知道的可以拖出去了!