從何開始學習數據科學?小哥用親身經歷告訴你如何少走彎路
大數據文摘出品
來源:medium
編譯:徐玲、Aileen
幾天前,我開始考慮如果必須重新開始學習機器學習和數據科學,我將從哪里開始?有趣的是,我如今想象的路徑與我剛開始時實際走的路徑完全不同。
我知道我們每個人都以不同的方式學習。有些人喜歡視頻,有些人只喜歡看書,很多人需要參加付費課程去感受更多的壓力。沒關系,重要的是真的去學習并且享受其中。
如果我不得不重新開始學習數據科學,從我自身的角度為了能夠更好地學習,我設計了一下這條道路,供大家參考。
如你所見,我最喜歡的學習方法是從簡單入手,逐漸研究復雜的內容。這意味著從實際示例開始,然后轉向更抽象的概念。
一、Kaggle微課程
我知道從這里開始可能很奇怪,許多人希望從最沉重的基礎和數學視頻開始,以充分了解每種ML模型背后發生的事情。但是從我的角度出發,從實用和具體的角度出發有助于更好地了解整個情況。
此外,每門小課程需要只大約4個小時才能完成,因此預先設定達到這些小目標會增加額外的動力。
1. Python
如果你熟悉Python,則可以跳過此部分。在這里,你將學習基本的Python概念,這些概念將幫助你開始學習數據科學。雖然關于Python的很多事情對你來說仍然是個謎,但是隨著我們的前進,你將通過實踐學習它。
價格:免費
鏈接:https://www.kaggle.com/learn/python
2. Pandas
Pandas將為我們提供開始使用Python處理數據的技能。我認為4小時的微課程和實際示例足以使人們對可以做的事情有一個概念。
價格:免費
鏈接:https://www.kaggle.com/learn/pandas
3. 數據可視化
數據可視化也許是最被低估的技能之一,但它也是最重要的技能之一。它將使你完全了解要使用的數據。
價格:免費
鏈接:https://www.kaggle.com/learn/data-visualization
4. 機器學習入門
令人興奮的部分開始了!你將學習基本的概念,以開始訓練機器學習模型。這些在未來之路上至關重要的概念,你必須了解的非常清楚。
價格:免費
鏈接:https://www.kaggle.com/learn/intro-to-machine-learning
5. 中級機器學習
這是對前面的補充,但是在這里,你將第一次使用分類變量,并處理數據中的空字段。
價格:免費
鏈接:https://www.kaggle.com/learn/intermediate-machine-learning
應該清楚的是,這5個微課程不是線性過程,你可能必須在它們之間反反復復才可以記住這些概念。當你在Pandas上工作時,你可能必須回到Python課程以記住你學到的一些知識,或者轉到pandas文檔以了解在“機器學習入門”課程中看到的新功能。所有這一切都很好,真正的學習就是這樣發生的。
現在,如果你意識到前5門課程將為你提供進行探索性數據分析(exploratory data analysis,EDA)和創建基礎模型(以后你將可以對其進行改進)的必要技能,因此,現在是開始簡單的Kaggle競賽并將你學到的知識付諸實踐的最佳時機。
二、Kaggle競賽
1. 泰坦尼克號
在這里,你將把在入門課程中學到的知識付諸實踐。剛開始時可能有點嚇人,不要關心是否在排行榜中排名第一,而是學習。在本競賽中,你將學習有關這類問題的分類和相關指標,例如精度(precision),召回率(recall)和準確性(accuracy)。
鏈接:https://www.kaggle.com/c/titanic
2. 房價
在本競賽中,你將應用回歸模型并了解諸如RMSE之類的相關指標。
鏈接:https://www.kaggle.com/c/home-data-for-ml-course
至此,你已經具有豐富的實踐經驗,并且會覺得自己可以解決很多問題,但很有可能是你不完全了解所使用的每種分類和回歸算法背后的情況。因此,這是我們必須學習所學知識的基礎的原因。
三、可以參考的書籍和課程
許多課程都是從這里開始的,但是至少我以前做過一些實踐性的工作后,我才能更好地吸收這些信息。
1. 《數據科學從零開始(Data Science from Scratch)》
此時,我們將暫時將自己與pandas,scikit-learn和其他Python庫分開,以務實的方式了解這些算法“背后”的知識。
這本書讀起來很輕松,它帶了每個主題的Python示例,并且沒有太多數學運算。我們想了解算法的原理,但是從實踐的角度來看,我們不想因閱讀大量密集的數學符號而灰心。
價格:26美元
如果你學到這里,我會說你很有能力從事數據科學工作,并且了解了解決方案背后的基本原理。因此,在這里我建議你繼續參加更復雜的Kaggle競賽,參加論壇討論并探索在其他參與者解決方案中發現的新方法。
2. 在線課程:吳恩達《機器學習》
在這里,我們將看到許多我們已經學到的東西,但是我們將觀看該領域一位引領者的解釋,他的方法將更加數學化,因此這將是深入理解我們模型的絕佳方法。
價格:不帶證書免費,帶證書79美元
鏈接:https://www.coursera.org/learn/machine-learning
3. 《統計學習的要素(The elements of Statisitcal Learning )》
繁重的數學部分現在才開始。
(想象一下,如果我們從一開始學習數據科學就讀這本書,那將一直是一條多么艱難的道路!我們可能會早早的就放棄了。)
價格:60美元,斯坦福網頁上有官方免費版本:
https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf
4. 在線課程:吳恩達《深度學習》
此時,你可能已經讀到過深度學習和使用過某些深度學習模型。但是在這里,我們將學習神經網絡的基礎,它們是如何實現和應用現有的不同體系結構的。
價格:49美元/月
鏈接:https://www.deeplearning.ai/deep-learning-specialization/
至此,之后的路很大程度上取決于你自己的興趣,你可以專注于回歸和時間序列問題,或者可以更深入地學習深度學習。
相關報道:
https://towardsdatascience.com/if-i-had-to-start-learning-data-science-again-how-would-i-do-it-78a72b80fd93
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】