干貨:如何正確地學習數據科學中的Python
雷鋒網 AI 科技評論按,大多數有抱負的數據科學家是通過學習為開發人員開設的編程課程開始認識 python 的,他們也開始解決類似 leetcode 網站上的 python 編程難題。他們認為在開始使用 python 分析數據之前,必須熟悉編程概念。
資深數據分析師 Manu Jeevan 認為,這是一個巨大的錯誤,因為數據科學家使用 python 來對數據進行檢索、清洗、可視化和構建模型,而不是開發軟件應用程序。實際上,為了完成這些任務,你必須將大部分時間集中在學習 python 中的模塊和庫上。他認為,學習數據科學的正確姿勢應該如下文。
請按照下面這個步驟來學習數據科學的 Python。
配置編程環境
Jupyter Notebook 是開發和展示數據科學項目的強大編程環境。
在電腦上安裝 Jupyter Notebook 最簡單的方法是通過 Anaconda 進行安裝。Anaconda 是數據科學中使用最廣泛的 python 工具,它預裝了所有最流行的庫。
你可以瀏覽標題為「A Beginner’s Guide to Installing Jupyter Notebook Using Anaconda Distribution」的博客文章,了解如何安裝 Anaconda。安裝 Anaconda 時,請選擇最新的 python 3 版本。
安裝完 Anaconda 后,請閱讀 Code Academy 的這篇文章,了解如何使用 Jupyter Notebook。
只學習 Python 的基礎知識
Code Academy 有一門關于 python 的優秀課程,大約需要 20 個小時才能完成。你不必升級到 pro 版本,因為你的目標只是熟悉 python 編程語言的基礎知識。
NumPy 和 Pandas,學習的絕佳資源
在處理計算量大的算法和大量數據時,Python 速度較慢。你可能會問,既然如此那為什么 Python 是數據科學最流行的編程語言?
答案是,在 Python 中,很容易以 C 或 Fortran 擴展的形式將數字處理任務轉移到底層。這正是 NumPy 和 Pandas 所做的事情。
首先,你應該學會 NumPy。它是用 Python 進行科學計算的最基本的模塊。NumPy 支持高度優化的多維數組,這是大多數機器學習算法最基本的數據結構。
接下來,你應該學習 Pandas。數據科學家花費大部分時間清洗數據,這也被稱為數據整。
Pandas 是操作數據最流行的 python 庫。Pandas 是 NumPy 的延伸。Pandas 的底層代碼廣泛使用 NumPy 庫。Pandas 的主要數據結構稱為數據幀。
Pandas 的創造者 Wes McKinney 寫了一本很棒的書,叫做《Python for Data Analysis》。在書中的第 4、5、7、8 和 10 章可以學習 Pandas 和 NumPy。這些章節涵蓋了最常用的 NumPy 和 Pandas 特性來處理數據。
學習使用 Matplotlib 可視化數據
Matplotlib 是用于創建基本可視化圖形的基本 python 包。你必須學習如何使用 Matplotlib 創建一些最常見的圖表,如折線圖、條形圖、散點圖、柱狀圖和方框圖。
另一個建立在 Matplotlib 之上并與 Pandas 緊密結合的好的繪圖庫是 Seaborn。在這個階段,我建議你快速學習如何在 Matplotlib 中創建基本圖表,而不是專注于 Seaborn。
我寫了一個關于如何使用 Matplotlib 開發基本圖的教程,該教程由四個部分組成。
- 第一部分:Matplotlib 繪制基本圖
- 第二部分:如何控制圖形的樣式和顏色,如標記、線條粗細、線條圖案和使用顏色映射
- 第三部分:注釋、控制軸范圍、縱橫比和坐標系
- 第四部分:處理復雜圖形
你可以通過這些教程來掌握 Matplotlib 的基本知識。
簡而言之,你不必花太多時間學習 Matplotlib,因為現在公司已經開始采用 Tableau 和 Qlik 等工具來創建交互式可視化。
如何使用 SQL 和 Python
數據有組織地駐留在數據庫中。因此,你需要知道如何使用 SQL 檢索數據,并使用 python 在 Jupyter Notebook 中執行分析。
數據科學家使用 SQL 和 Pandas 來操縱數據。有一些數據操作任務使用 SQL 就可以很容易地執行,并且有一些任務可以使用 Pandas 高效地完成。我個人喜歡使用 SQL 來檢索數據并在 Pandas 中進行操作。
如今,公司使用 Mode Analytics 和 Databricks 等分析平臺來輕松地使用 python 和 SQL。
所以,你應該知道如何一起有效地使用 SQL 和 python。要了解這一點,你可以在計算機上安裝 SQLite 數據庫,并在其中存儲一個 CSV 文件,然后使用 python 和 SQL 對其進行分析。
這里有一篇精彩的博客文章,向你展示了如何做到這一點:Programming with Databases in Python using SQLite。
在瀏覽上述博客文章之前,你應該了解 SQL 的基礎知識。Mode Analytics 上有一個很好的關于 SQL 的教程:Introduction to SQL。通過他們的基本 SQL 部分,了解 SQL 的基本知識,每個數據科學家都應該知道如何使用 SQL 有效地檢索數據。
學習和 Python 相關的基本統計學知識
多數有抱負的數據科學家在不學習統計學的基礎知識的情況下,就直接跳到機器學習知識的學習中。
不要犯這個錯誤,因為統計學是數據科學的支柱。而且,很多數據科學家學習統計學只是學習理論概念,而不是學習實踐概念。
我的意思是,通過實踐概念,你應該知道什么樣的問題可以用統計學來解決,了解使用統計數據可以解決哪些挑戰。
以下是你應該了解的一些基本統計概念:
- 抽樣、頻率分布、平均值、中位數、模式、變異性度量、概率基礎、顯著性檢驗、標準差、z 評分、置信區間和假設檢驗(包括 A/B 檢驗)。
要學習這些知識,有一本很好的書可以看看:《Practical Statistics for Data Scientists: 50 Essential Concepts》。不幸的是,本書中的代碼示例是用 R 編寫的,但是很多人包括我自己在內使用的是 Python。
我建議你閱讀本書的前四章。閱讀本書的前 4 章,了解我前面提到的基本統計概念,你可以忽略代碼示例,只了解這些概念。本書的其余章節主要集中在機器學習上。我將在下一部分討論如何學習機器學習。
大多數人建議使用 Think Stats 來學習 python 的統計知識,但這本書的作者教授了自己的自定義函數,而不是使用標準的 python 庫來進行統計知識講解。因此,我不推薦這本書。
接下來,你的目標是實現在 Python 中學習的基本概念。StatsModels 是一個流行的 python 庫,用于在 python 中構建統計模型。StatsModels 網站提供了關于如何使用 Python 實現統計概念的優秀教程。
或者,你也可以觀看 Gaël Varoquaux 的視頻。他向你展示了如何使用 Pandas 和統計模型進行推理和探索性統計。
使用 Scikit-Learn 進行機器學習
Scikit-Learn 是 Python 中最流行的機器學習庫之一。你的目標是學習如何使用 Scikit Learn 實現一些最常見的機器學習算法。
你應該像下面這樣做。
- 首先,觀看 Andrew Ng 在 Coursera 上的機器學習課程的第 1、2、 3、6,、7 和第 8 周視頻。我跳過了關于神經網絡的部分,因為作為初學者,你必須關注最通用的機器學習技術。
- 完成后,閱讀「Hands-On Machine Learning with Scikit-Learn and TensorFlow」一書。你只需瀏覽這本書的第一部分(大約 300 頁),它是最實用的機器學習書籍之一。
- 通過完成本書中的編碼練習,你將學習如何使用 python 實現你在 Andrew Ng 課程中學習到的理論概念。
結論
最后一步是做一個涵蓋上述所有步驟的數據科學項目。你可以找到你喜歡的數據集,然后提出有趣的業務問題,再通過分析來回答這些問題。但是,請不要選擇像泰坦尼克號這樣的通用數據集。
另一種方法是將數據科學應用到你感興趣的領域。例如,如果你想預測股票市場價格,那么你可以從 Yahoo Finance 中獲取實時數據,并將其存儲在 SQL 數據庫中,然后使用機器學習來預測股票價格。
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。