干貨 :5種項目助你找到數據科學工作
或許您已經在網上看了許多的MOOC,閱讀了很多工具書,但是您有可能仍然擔心找不到工作或根本沒有找到工作。在數據科學領域找到合適的工作的確有一定難度。***的向HR展現您能力的方式就是準備一個文件夾。在文件夾中放入以下五種您做過的數據科學項目。
1、數據清洗
通常來講,數據科學家在一個新的項目中預計會花80%的時間來清洗數據。這對于團隊來說是一個長而痛苦的過程。如果您能展示您在清洗數據上具有豐富的經驗,您就會變得很有價值。您可以找一些雜亂無章的數據集練習清理數據來增加您的經驗。
如果您用的是Python,Pandas是一個很好用的包;如果您用的是R,dplyr包將會是一個不錯的選擇。確保您展示出以下的技能:
- 標注重點數據
- 連接多個數據集
- 檢測缺失數據
- 檢測異常值
- 填充缺失數據
- 確認數據質量
2、探索性數據分析
另一項有關數據科學的重要內容是探索性數據分析(EDA)。這是提出問題的過程,需要您用可視化技術來研究這個數據集。EDA使得分析師能夠從數據中得出一些能驅動商業決策的結論。或許您能從客戶的數據、銷售的趨勢、季節的影像中得到有趣的結論。甚至有時候您能有一些和您最初設想完全不同的發現。
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對于R用戶,ggplot2包將很有用。EDA項目應該顯示以下技能:
用于探索性分析的一些有用的Python包是Pandas和Matplotlib。對于R用戶,ggplot2包將很有用。EDA項目應該顯示以下技能:
- 能夠為調查制定相關問題
- 識別趨勢
- 識別變量之間的相關關系
- 使用可視化技術(散點圖,直方圖,箱線圖等)有效地傳達結果
3、交互式數據可視化
交互式數據可視化包括儀表板等工具。這些工具對數據科學團隊以及更多面向業務的最終用戶都很有用。儀表板允許數據科學團隊進行協作,并一起繪制見解。更重要的是,它們為面向業務的客戶提供了一種交互式工具。這些人專注于戰略目標而非技術細節。通常,數據科學項目的可交付成果將以儀表板的形式出現。

對于Python用戶,Bokeh和Plotly庫非常適合創建儀表板。對于R用戶,請務必查看RStudio的Shiny軟件包。您的儀表板項目應突出顯示以下重要技能:
- 包括與客戶需求相關的指標
- 創建有用的功能
- 邏輯布局(“F模式”便于掃描)
- 創建***刷新率
- 生成報告或其他自動操作
4、機器學習
機器學習項目是數據科學組合的另一個重要部分。在您開始構建一些深度學習項目之前,請退后一步。我們說的并不是建立復雜的機器學習模型,而是堅持基礎。線性回歸和邏輯回歸是很好的開始。這些模型更易于解釋和與上層管理層溝通。我還建議關注一個對業務有影響的項目,例如預測客戶流失,欺詐檢測或貸款違約。這比預測花型更貼近于工作實際。

如果您是Python用戶,請使用Scikit-learn庫。對于R用戶,請使用Caret包。您的機器學習項目應該傳達以下技能:
- 您選擇使用特定機器學習模型的原因
- 將數據拆分為訓練/測試集(k倍交叉驗證)以避免過擬合
- 選擇正確的評估指標(AUC,adj-R ^ 2,混淆矩陣等)
- 特征值的選擇
- 超參數調整
5、溝通能力
溝通是數據科學的一個重要方面。能否有效地傳達結果是優秀數據科學家與優秀科學家之間的區別。無論您的模型多么花哨,如果您無法向隊友或客戶解釋,您將無法獲得他們的支持。幻燈片和筆記本電腦都是很好的溝通工具。嘗試將您的一個機器學習項目放入幻燈片格式中。您還可以將Jupyter Notebook或RMarkdown文件用于需要溝通的項目。

確保了解您的目標受眾是誰。向高管們展示您的項目和向機器學習專家展示是非常不同的。一定要掌握這些技能:
- 了解您的目標受眾
- 使用相關的可視化技術
- 請勿過多地提供幻燈片
- 確保您的演示文稿流暢
- 將結果與業務影響相結合(降低成本,增加收入)
確保在Jupyter筆記本或RMarkdown文件中記錄您的項目。然后,您可以使用Github Pages將這些文件免費轉換為靜態網站。這是向潛在雇主展示您的項目的好方法。