沒有數學和編程基礎,這幾個數據科學項目了解一下
大數據文摘出品
編譯:蔣寶尚
今天,文摘菌給大家介紹幾個比較有特色的數據科學模塊,這些模塊原本是一些教師用來進行教學使用,幫助學生有機會使用與其課程相關的數據集,并指導學生進行數據分析以及幫助理解統計和計算機原理。
一起來看~
模塊合集鏈接:https://ds-modules.github.io/DS-Modules/
Introduction to Phonetics and Phonolog
這個模塊由兩個實驗組成,實驗所用到的數據都是學生自己收集的,并且在這個模塊中,學生獨立分析數據并編碼。在***個實驗室里,學生們研究聲音開始以及結束的時間,以及母語口語和身高之間的相關性。在第二個實驗中,學生分析元音發音,并將研究個體相互比較,從而揭示單個元數據對特征預測能力的影響。該模塊適用于沒有編碼或統計經驗的學生。
Neighborhood Mapping
本模塊讓學生分析并可視化整個東灣人口普查區的社會經濟和人口變化情況。學生們到社區進行定性觀察,然后與人口普查數據進行比較。把一些的觀察結果組合成一幅地圖。該模塊適用于沒有編碼或統計經驗的學生。
Macroeconomics
這個模塊包含一些宏觀經濟學問題集。 ***個notebook幫助學生使用Latex公式以及教他們如何插圖。 ***個notebook的建模部分可視化了索洛增長模型。該模塊還使用自動評分功能可以及時反饋學生提交的作業。同樣,該模塊也適用于沒有編碼或統計經驗的學生
Chinatown and Culture of Exclusion
使用20世紀-21世紀的人口統計數據,讓學生分析一個特定的唐人街隨著時間的推移是如何變化的。在實驗過程中,學生可以使用一些簡單的文本分析方法做相關研究。
Implicit Bias and Social Outcomes
本模塊向學生介紹相關和回歸分析。學生從一個關于健康結果的數據集和一組關于內隱偏見的數據集中挑選出整個美國的縣級數據集。然后,他們將這兩個數據集合并,并計算相關性和進行回歸預測,從而確定偏見與健康結果之間是否存在相關性。
Moral Foundations Theory
這些模塊將政治演講中的詞匯使用與道德基礎理論聯系起來。這些數據的統計推斷和可視化幫助學生尋找保守派和自由派總統候選人之間的修辭差異。然后,學生們將數據驅動的方法作為修辭工具進行研究和批判。
Sumerian Text Analysis
本模塊使用一個有趣的數據集,即蘇美爾文學電子文本語料庫(ETCSL)。這些文本是從六千年前的資料中翻譯出來的。在本模塊中使用的技術在文本分析中不太常見,如k均值、分層聚類和多維縮放。
Data, Prediction, and Law
利用2016年美國總統競選演講的數據,學生從語音文本中挖掘特征,可視化這些特征,并用主成分分析提取特征。該模塊***給出了一個三維特征圖的例子,此模塊需要學生有一些統計學知識。
***,在次給出項目合集:https://ds-modules.github.io/DS-Modules/
【本文是51CTO專欄機構大數據文摘的原創文章,微信公眾號“大數據文摘( id: BigDataDigest)”】