沒資源?下一秒就可以加入的10個數據科學項目!
大數據文摘作品
編譯:王夢澤、黃文暢、云舟
數據資源十分難得,分析過程更是困難重重。挖掘數據背后的意義能夠幫助更多的研究者點燃數據研究的熱情,也會幫助其他人入門數據分析,以下就是我們找到的十個典范。
1. 刪除Facebook頁面:參與度指標和帖子@d1gi
這是一個關于數據新聞工作的案例:在2016年美國總統大選期間,有團隊從Facebook挖掘了外界影響的數據,并據此與一些社會上大型的社交媒體展開了正面交鋒。這場調查被包括華盛頓郵報和紐約時代周刊在內的知名媒體所收錄。
這份數據是由數據新聞研究中心的Jonathan Albright為Digital Journalism提供的,是由5個宣稱具有外在影響力的網頁中的每一個頁面上自然發言讀者的帖子所構成的目錄冊。
它不僅保存了每篇帖子的完整文檔,也揭示了除購買廣告外,使用Facebook平臺所能帶來的其他潛在影響力。具體來說,這五個網頁的內容傳播力度更大。此外,這個數據集的討論區是今年data.world里面最為火爆的。
Jonathan鼓勵大家使用這個數據集來開展自己的研究和分析。這個集成數據集也展示了data.world上的其他新聞數據工作。
集成數據集:
https://data.world/gswider/data-journalism-on-data-world?utm_campaign=distinct_values&utm_source=blog&utm_medium=medium&utm_content=171229
Jonathan制作的互動性可視化界面
2. 數字貨幣的每日行情@scuttlemonkey
如果你在去年的這個時候投資了比特幣,你現在可能已經賺得盆豐缽滿了。但如果你沒有投資,也可以在這個數據集里使用比特幣后悔計算器,來得出你錯過的收益。
這個項目在IFTTT使用data.world的同步程序,從Coin Metrics(一個提供可視化服務的數據聚合器)提取每日最新數字貨幣的數據。在此數據集的討論區中,你可以查看十多種加密貨幣的價格走勢及多種視覺效果圖。
數據集討論區:
https://data.world/scuttlemonkey/coin-metrics/discuss/visualizations/64263?utm_campaign=dataquest&utm_source=blog&utm_content=180122
Patrick制作的數據可視化效果
3. 聯邦政府如何應對類鴉片類藥物泛濫問題@usaspending
在美國,由于類鴉片類藥物濫用而導致的服藥過量率上升趨勢令人擔憂,它影響著全美成千上萬的家庭。來自USAspending.gov的最新數據是由經財政部發布在data.world上的,里面包含詳細的項目介紹和機構信息,你可以通過它了解聯邦政府為解決這一問題所做的工作。
haotianxu91對此數據集進行了深入挖掘,并探究了能否把聯邦政府提供的數據和對鴉片類藥物濫用的治療以及預防項目聯系到一起。
項目詳情:
https://data.world/search?q=org%3Atreasury&utm_campaign=dataquest&utm_source=blog&utm_content=180122
Data.world上公開且容易獲取的數據使得美國許多州及聯邦政府機構都在努力提高財政支出的責任感和透明度。輸入data.world組織名稱來搜索代理機構,就可能在data.world找到更多的政府數據。
data.world鏈接:
https://data.world/search?q=org%3Atreasury&utm_campaign=dataquest&utm_source=blog&utm_content=180122
由Haotian Xu提供
4. 關聯電影數據庫@linked-data
在data.world,我們認為數據在(不久的)未來是有關聯的,我們十分期待看到更多的社區成員解鎖關聯數據的真正潛力,并且使用SPARQL—一種數據庫的語義查詢語言(以data.world的貓頭鷹吉祥物命名)。
使用SPARQL對這組數據集進行查詢再現了著名的“Kevin Bacon的六度空間”理論(“Six Degrees of Kevin Bacon” )——對于數據集中的任意兩位演員,通過查詢他們以前合作的搭檔,你會發現他們之間所間隔的人(如果存在)不會超過六個。
只需在查詢語句的第7和第8行中替換你想要查詢的演員名字,然后點擊“運行查詢”,就可以開啟“SPARQL的六度空間”了。(提示:結果十分有趣,可以多試幾次。)
SPARQL的六度空間:
https://data.world/login?next=%2Flinked-data%2Flinkedmdb%2Fworkspace%2Fquery%3Fqueryid%3Db671cc87-2078-4057-b1eb-366e9c5f48e1%26utm_campaign%3Ddataquest%26utm_content%3D180122%26utm_source%3Dblog
5. 最需要幫助的颶風重災區@alyssaanalyzes
有39個地區被列入了Harvey總統宣布的颶風多發重災區(PDD),雖然大多數遭受到財產損失的地區都需要修復和重建的援助,但資源有限的地區在獲得聯邦災難恢復項目關注后會受益更多。
SP小組識別出了那些受財產損失影響最大的社區,并將數據發布在data.world。這個項目也同樣被其他一些研究者推進,在data.world搜索“Hurricane Harvey”,會出現由許多個小組成員和組織創建的幾十個數據集,他們希望通過給需要的人提供容易獲取的重要數據,能夠為災后重建出一份力。
Hurricane Harvey的搜索結果:
https://data.world/search?q=hurricane+harvey&type=dataset&utm_campaign=dataquest&utm_source=blog&utm_content=180122
由Alyssa制作的數據可視化效果
6. 新澤西州法醫數據@stevestirling
根據柯林字典,2017年“假新聞”一詞的使用量增加了365%。盡管人們對于媒體越來越不信任,但由于數據成為了全球頂級新聞機構公信度的基石,我們終于在今年看到了新聞領域的重大轉變。
這組數據來自新澤西的州法醫辦公室,在歷經數月對記錄的爭論后,數據發布的24小時內,新上任的州長Phil Murphy承諾將在即將到來的立法會議上會對系統進行“全面改革”。
這個例子說明了數據新聞是如何幫助社區,甚至影響公共政策的。了解更多新澤西先鋒媒體的這場耗時18個月的調查請戳—死亡與功能障礙:新澤西州是如何背棄死者,背叛生者,令國家蒙羞的。
文章鏈接:
http://death.nj.com/?utm_campaign=dataquest&utm_source=blog&utm_content=180122
由 NJ Advance Media報道
7. 醫藥支出@data4democracy
民主數據始于2016年12月,當時全球各地的人們開始在數據相關的問題上展開合作,使用Slack進行策劃,GitHub編程以及data.world共享數據。沒有成文的規定也沒有正式的組織,他們的目標是用最短的時間來完成真正的有效的工作。
這個數據集來自最早的一批項目,當前在全球已有2000多名電子志愿者。通過使用這個數據集和data.world R包,小組成員Jennifer Thompson可以收集一個dashboard所需的數據,創建并推出派生的數據集,并構建從站點提取實時數據的Shiny dashboard。在R Views(由RStudio編輯的R社區博客)中了解Jennifer所做的工作。
Jennifer工作內容鏈接:
https://rviews.rstudio.com/2017/05/26/civic-data-wrangling-in-r-and-on-data.world/?utm_campaign=dataquest&utm_source=blog&utm_content=180122
由 Jennifer Thompson開發
8. 國家足跡賬戶2017年版@footprint
想知道Grenada, Guyana和Gambia這三個國家的共同之處嗎?它們都在全球足跡網(Global Footprint Network)的最小生態足跡名單之上。
全球足跡網(Global Footprint Network)的國家足跡賬戶 (NFAs) 記錄了自1961年起生態資源使用情況以及各國的資源承載力。該組織在data.world上發布了2017年版的數據,對其進行分析后,可以幫助我們更好的了解經濟發展與自然資源消耗之間的聯系。
加入全球足跡網減少我們2018年的生態足跡,從計算自己的生態足跡來開始你的第一步吧!
全球足跡網:
http://www.footprintcalculator.org/?utm_campaign=dataquest&utm_source=blog&utm_content=180122
9. Tableau Desktop數據分析入門@tableauhelp
TableauHelp的教程能夠幫助人們學習使用Tableau。數據項目包括指南、教程和練習,通過一個模擬練習來學習有關商業數據分析和可視化的基礎知識。
學習在Tableau創建各種視圖來研究數據鏈接:
https://data.world/login?next=%2Ftableauhelp%2Ftableau-desktop-101-step-into-the-shoes-of-a-data-analyst%2Fworkspace%2Ffile%3Ffilename%3D01_lets_get_started.md%3Futm_campaign%3Ddataquest%26utm_content%3D180122%26utm_source%3Dblog
TableauHelp提供的教程
10. 人群百態@makeovermonday
社會數據項目周一大改造(Makeover Monday)的成員每周一會發布一條圖表和其數據的鏈接,圖表可以經由社區重新繪制。無論是簡單的條形圖還是復雜的信息圖,他們都鼓勵每個人參與進來。
鏈接:
http://www.makeovermonday.co.uk/
原文鏈接:https://www.dataquest.io/blog/10-data-science-projects-join/
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】