成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據從哪里找?手把手教你構建數據集

數據庫
了解如何以及在何處查找要使用的數據集是很好的。在AI的廣闊領域和它可以應用到的大量問題中,這兩者都是非常主觀的,但是存在一些通用的真理和建議。

 01 去哪里找

對于常見問題,有很多地方可以開始你的搜索。

就像谷歌學術(Google Scholar)用于研究論文那樣,Google Dataset Search用于數據集。谷歌搜索的應用是無處不在的。這是了解特定主題的絕佳起點。谷歌還管理自己的通用公共數據存儲庫,稱為Google Public Data,亞馬遜也擁有自己的AWS數據注冊中心。

Kaggle.com是致力于數據科學的在線社區。它具有由社區和組織貢獻的大型數據集存儲庫,其中包含大量主題,任你選擇。該站點還是以比賽或討論方式學習數據分析細節的重要資源。

研究機構通常會發布科學數據供公眾使用。如果你需要敏感的人類數據(如果可以確信已經適當匿名),這將特別有用。在澳大利亞,我們擁有諸如澳大利亞統計局、聯邦科學與工業研究組織(CSIRO)之類的機構,甚至還有一個用于訪問所有政府數據的在線門戶,名為data.gov.au。

在世界其他地方,著名的機構包括NASA、NOAA NIST、CDC、WHO、UNICEF、CERN、Max Planck Institute、CNR、EPA等。

同樣,許多國家或地區都有中央政府數據存儲庫,例如data.gov(美國)、open.canada.ca、data.govt.nz、data.europa.eu和data.gov.uk等。

一些具有非科學目的的公司,如果達到了自己能夠進行內部研究或被要求進行內部研究的規模,甚至會發布數據存儲庫。世界銀行和國際貨幣基金組織(IMF)就是一個很好的例子,它們已經成為開放的金融和大眾數據的主要來源。

在允許的情況下,從信譽良好的組織采購數據是確保準確性、覆蓋范圍以及適用的價值類型和格式的絕佳方法。

FiveThirtyEight和BuzzFeed這樣的新聞網站,提供了從公眾調查中獲得的數據以及關鍵文章收集的數據,從可能涉及公眾福祉的重要社會和政治數據(網絡審查、政府監控、槍支、醫療保健等),到體育等一切內容的分數或民意測驗。

Reddit的/r/datasets是一個信息共享的好地方。你可以瀏覽人們發布的有趣的東西,或者在特定的問題上尋求幫助。甚至還有一些很好的元信息,比如有人發布了一個詳盡的每個開放數據門戶的列表。當你瀏覽Reddit的時候,/r/MachineLearning也是一個好選擇。

有時,隨機發燒友也會真正為你服務。作者個人最喜歡的網站是Jonathan’s Space Home Page,其中一位來自哈佛大學史密森天體物理學中心的天體物理學家,在網站上保存著發射到太空的所有物體的廣泛列表。只是作為附帶項目,太奇妙了。

稍微不尋常的數據的另一個重要來源是整數數列在線大全(OEIS),它是各種數字數列及其附加信息(例如圖或用于生成數列的公式)的龐大集合。因此,如果你對卡塔蘭數感到好奇或想了解忙碌的海貍問題,OEIS幫你排序了。

還有無數的網站致力于成為諸如開放政府、重要研究出版物中使用的學術數據等領域數據集的中央注冊中心。

這或許說明了這一點:數據無處不在。我們每時每刻都在創造更多的東西,而且很多人和組織都致力于讓這對我們所有人都有用。個人對數據源的喜好是靠時間和經驗建立起來的,因此要廣泛地進行探索和實驗。

 

[[390352]]

 

02 尋找什么

在開始搜索之前要有一個清晰的計劃,知道你需要什么來對你要解決的問題建模。在要包括的潛在數據中,考慮以下因素:

  • 數據中顯示的值及其類型。
  • 收集數據的個人或組織。
  • 收集數據所使用的方法(如果知道的話)。
  • 收集數據的時間范圍。
  • 該集合單獨是否足以解決你的問題。如果不能,那么是否容易合并其他的來源?

預準備的數據集經常需要進行修改以適合其他用途。通過這種方式,即使可以假設數據已經是干凈的(應該進行驗證以防萬一),仍然可能需要進行一些數據轉換。為了確保輸出質量,你應該從這里開始觀察通常的數據準備步驟。

請記住,在某種程度上,可能需要一些額外的或不同格式的信息才能產生預期的結果。一個預構建的數據集是一個很好的起點,但是它絕不應該被免除審查:即使在短期內需要做大量的工作,也要修改或替換不合適的數據集。

 

03 構建數據集

要從頭創建數據集,你必須從某個地方獲取原始數據。這些工作通常分為三個主要的維度:記錄數據、整理數據和收集數據。

免責聲明

每個國家都有自己關于數據集收集、存儲和維護的法律法規。本節中描述的一些方法在一個地區可能是合法的,但在下一個地區則是非法的。在沒有首先檢查數據集合法性的情況下,你決不能采取任何行動來獲取數據集。

通過數據抓取或追蹤的方法觀察你不擁有的在線內容,在世界上的某些地方會招致嚴重的懲罰,不管你是不知道,也不管你這么做的目的是什么。這是不值得做的。

其他方法在法律中可能不明確,例如從公共場所收集照片或錄像,或出于其他目的提供數據的所有權。

即使數據集有一個許可證說明你可以使用所需的數據,在你擁有數據之后,也要仔細考慮收集它的方法和職責。你所在地區的法律總是優先于授予你數據權限的許可。

根據經驗,如果不是你自己創建的數據,你就不擁有它(即使你確實創建了它,仍然可能不擁有它)。所以,除非你得到明確的許可,否則不能收集或使用它。

1. 數據記錄

數據記錄是一流的數據收集:你自己在做一些現象和屬性的觀察,記錄屬于你自己的獨特數據。這可以通過物理設備(如傳感器或相機)或數字觀測設備(如網絡追蹤器或爬蟲)來完成。

你可以收集關于在特定位置發生的動作或環境條件的數據,記錄你想要識別的不同對象的圖像,或者記錄Web服務的流量以預測用戶行為。

針對以前可能沒有觀察到的主題,你可以使用這些方法創建高度針對性的數據集,但這是最耗時的方法。收集的數據的質量也取決于收集數據的設備或方法,因此建議你具備一些專業知識。

2. 數據整理

數據整理是將多個信息源組合起來,以創建要分析的新數據的實踐過程。可以通過從報告中提取數據、從不同的在線來源合并數據或查詢API等方法來構建。它將存在于許多地方的數據以一種有用的方式整合在一起。

在某些情況下,整理數據幾乎和記錄或生成自己的數據一樣耗時,但更有可能會創建一組關于發生在難以觸及的地方(如海外或私人組織內部)的現象的數據。

不共享某個問題初始數據集的公司可能會發表多篇包含所有數據的論文。或者,一個站點不允許你下載每個做過Y操作的用戶的記錄,可能會允許你無數次查詢用戶X是否做過Y?

整理的數據的質量取決于在合并來源時你的關注程度。某些數據整理錯誤可能危及整個項目,例如合并了使用不同測量單位的來源或發生簡單的轉錄錯誤等。

3. 數據抓取

數據抓取是一種收集大量信息的方法,這些信息已經存在,但可能沒有被觀察到,它們可以生成適合使用的結構化數據。這是過去社交媒體分析的主要方式(尤其是由第三方進行),但許多平臺都限制了人們獲取數據或使用從其服務中獲取的數據的能力。

抓取是用軟件來執行的,該軟件可以加載、觀察和下載大量的內容,這些內容通常是不加區別地從Web目標上下載的,然后就可以對其進行調整以供使用。數據抓取要有目的性。

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-09-30 18:27:38

數據倉庫ETL

2010-09-16 14:08:13

無線雙網

2020-11-27 07:38:43

MongoDB

2017-05-18 12:45:35

數據分析數據理解數據

2011-04-21 10:32:44

MySQL雙機同步

2011-01-10 14:41:26

2025-05-07 00:31:30

2011-05-03 15:59:00

黑盒打印機

2021-07-14 09:00:00

JavaFX開發應用

2011-02-22 13:46:27

微軟SQL.NET

2021-02-26 11:54:38

MyBatis 插件接口

2021-12-28 08:38:26

Linux 中斷喚醒系統Linux 系統

2012-01-11 13:40:35

移動應用云服務

2022-01-29 21:54:58

電商用戶數據

2021-12-29 20:20:25

結構化數據Pandas

2022-05-10 10:43:35

數據源動態切換Spring

2015-10-26 09:24:30

微信公眾號數據分析

2020-03-08 22:06:16

Python數據IP

2014-12-11 16:32:38

應用安全Web應用緩存控制頭域

2022-02-23 20:53:54

數據清洗模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天干天天爱天天爽 | 国产美女免费视频 | 亚洲一区二区三区 | 麻豆久久久久久久 | 亚洲天堂中文字幕 | 亚洲欧美中文日韩在线v日本 | 网色| 精品99久久久久久 | 国产免费观看久久黄av片涩av | 91九色视频 | 成年人在线观看视频 | 精品中文在线 | 最新黄色毛片 | 欧美1区 | 午夜视频在线免费观看 | 亚洲国内精品 | 亚洲日本乱码在线观看 | 欧美中文字幕在线观看 | 亚洲一区在线日韩在线深爱 | 观看av | 久草视频在| 凹凸日日摸日日碰夜夜 | 在线视频a | 久久久久国产精品一区 | 日韩第1页| 亚洲一区综合 | 欧美一级二级三级 | 99热在线观看精品 | 国产一级视频在线 | 亚洲人成人一区二区在线观看 | 午夜网| 欧美成人二区 | 国产精品欧美一区喷水 | 日韩免费视频一区二区 | 色综合99| 亚洲性视频网站 | 欧美午夜影院 | 欧美精品一二三区 | 特级特黄特色的免费大片 | 日韩av一区在线观看 | 免费久久久|