掌握這五類數據科學項目,找到一份好工作
也許你一直在MOOC平臺上學習數據科學,也熟讀了一大堆教科書,但要獲得數據科學相關的職位,你還需要向雇主展示自己的技能水平。***的方式是作品集,你可以借此向雇主表明你所一直學習的技能能夠用于工作中,為公司創造價值。
要展示自身技能,這5種類型的數據科學項目可供參考:
1、數據清理
在一個項目中,數據科學家往往需要花費高達80%的時間來清理數據。對于團隊來說,這是一個巨大的痛點。如果你能證明你在清理數據方面經驗豐富,那么你就會顯得非常有價值。創建數據清理項目,尋找一些臟亂的數據集,然后就可以開始清理了。
如果你常用Python,Pandas是一個很好的庫;如果你常用R,可以使用dplyr包。確保展示以下技能:
- 導入數據
- 加入多個數據集
- 檢測缺失值
- 檢測異常
- 輸入缺失值
- 數據質量保證
2、探索性數據分析
數據科學的另一個重要方面是探索性數據分析(EDA)。這是生成問題的過程,包括使用可視化對其進行調查。EDA允許分析師從數據中得出結論以推動業務影響。它可能包括基于客戶群體的有趣洞察,或基于季節性影響的銷售趨勢。通常,你可以獲得一些并非出于初始動機的有趣發現。
用于探索性分析的一些有用的Python庫是Pandas和Matplotlib。對于R來說,ggplot2包會很有用。EDA項目應該顯示以下技能:
- 能夠為調查制定相關問題
- 識別趨勢
- 識別變量之間的協變
- 使用可視化(散點圖,直方圖,框和晶須等)有效地傳達結果
3、交互式數據可視化
交互式數據可視化包括儀表板等工具。這些工具對數據科學團隊以及更多面向業務的最終用戶都很有用。儀表板允許數據科學團隊進行協作,并一起將所獲得的洞察“繪制”出來。更重要的是,它們為面向業務的客戶提供了一種交互式工具——這些人專注于戰略目標而非技術細節。通常,數據科學項目的可交付成果將以儀表板的形式出現。

對于Python用戶,Bokeh和Plotly庫非常適合創建儀表板。對于R用戶,RStudio的Shiny軟件包很有必要。你的儀表板項目應突出顯示以下重要技能:
- 包括與客戶需求相關的指標
- 創建有用的功能
- 邏輯布局(“F模式”便于掃描)
- 創建***刷新率
- 生成報告或其他自動操作
4、機器學習
機器學習項目是數據科學作品集中的另一個重要部分。在你啟動和開始構建一個深度學習項目之前,請退后一步。相對于建立復雜的機器學習模型,你更應該堅持基礎。線性回歸和邏輯回歸是很好的開始。這些模型更易于解釋并與上層管理者溝通。我還建議***做一些對業務有影響的項目,例如預測客戶流失,欺詐檢測或貸款違約。對面試官而言,這些比識別花的類型更有吸引力。

如果你是Python用戶,可使用Scikit-learn庫。對于R用戶,可使用Caret包。你的機器學習項目應該傳達以下技能:
- 你選擇使用特定機器學習模型的原因
- 將數據拆分為訓練/測試集(k倍交叉驗證)以避免過度擬合
- 選擇正確的評估指標(AUC,adj-R ^ 2,混淆矩陣等)
- 特征工程和選擇
- 超參數調整
溝通
溝通是數據科學家的一個重要技能。有效地傳達結果是優秀數據科學家與一個合格的數據科學家之間的區別。無論你的模型多么花哨,如果你無法向隊友或客戶解釋清楚,那么也無法獲得他們的支持。幻燈片和筆記本電腦都是很好的溝通工具,你還可以將Jupyter Notebook或RMarkdown文件用于項目溝通。

確保了解你的目標受眾是誰。向高管們展示與向機器學習專家展示非常不同。一定要掌握這些技能:
- 了解你的目標受眾
- 提出相關的可視化
- 請勿過多地提供幻燈片
- 確保你的演示文稿流暢
- 將結果與業務影響相結合(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄你的項目。然后,你可以使用Github Pages將這些markdown 文件免費轉換為靜態網站。這是向潛在雇主展示你的作品集的好方法。
保持積極態度,繼續開發更多項目,你將在數據科學領域找到一份好工作。工作愉快!