在數據科學領域中,你需要多少數學知識?
I. 引言
如果你有心學習數據科學,那么你一定會在腦海中想過下面的問題:
沒有或者只有很少的數學知識,我能做一個數據科學家嗎?
數據科學必需的數學工具有哪些?
有很多優秀的包可用于建立預測模型或者數據可視化。其中最常用的用于描述和預測分析的一些包有:
- Ggplot2
- Matplotlib
- Seaborn
- Scikit-learn
- Caret
- TensorFlow
- PyTorch
- Keras
多虧了這些包,任何人都可以建立起一個模型或者實現數據可視化。然而, 堅實的數學基礎對于修改你的模型讓你的模型性能更好更加可靠來說是十分必要的。建立模型是一回事,解釋模型得出可用于數據驅動的決策的有意義的結論又是另一回事。用這些包之前,理解每個包中的數學原理是很重要的。因為這樣你才不是簡單地只是把這些包作為一個黑盒來使用。
II. 案例學習:建立多重回歸模型
假設我們要建立一個多重回歸模型。在此之前,我們需要問一下自己下面的這些問題:
- 我的數據集有多大?
- 我的特征變量和目標變量是什么?
- 什么預測特征與目標變量關聯性最大?
- 什么特征是重要的?
- 我需要量化特征值嗎?
- 我的數據集應該如何分成訓練集和測試集?
- 什么是主成分分析(PCA)
- 我應該用PCA移除多余特征嗎?
- 我要如何評估我的模型?用R2,MSE還是MAE?
- 我應該如何提升模型預測的能力?
- 我應該使用正則化的回歸模型嗎?
- 什么是回歸系數?
- 什么是截距?
我應該使用諸如K近鄰回歸或者支持向量回歸這種非參數回歸模型嗎?
我的模型中有哪些超參數,如何對其進行微調以獲得性能最佳的模型?
沒有良好的數學背景,你就無法解決上面提到的問題。 最重要的是,在數據科學和機器學習中,數學技能與編程技能同等重要。 因此,作為有志于數據科學的人,你必須花時間研究數據科學和機器學習的理論和數學基礎。 你構建可應用于實際問題的可靠而有效的模型的能力取決于您的數學基礎。
現在我們來聊聊數據科學還有機器學習所必需的一些數學工具。
III. 數據科學與機器學習必需的數學工具
1. 統計與概率
統計與概率學可用于特征的可視化,數據預處理,特征轉換,數據插入,降維,特征工程,模型評估等。
這里是你需要熟悉的概念:均值,中位數,眾數,標準差/方差, 相關系數和協方差矩陣,概率分布(二項,泊松,正太), p-值, 貝葉斯理論(精確性,召回率,陽性預測值,陰性預測值,混淆矩陣,ROC曲線), 中心極限定理, R_2值, 均方誤差(MSE),A/B測試,蒙特卡洛模擬。
2. 多元微積分
大多數機器學習模型都是由帶有許多特征或者預測因子的數據集建立的。因此,熟悉多元微積分對于建立機器學習模型及其重要。
這里是你需要熟悉的概念:多元函數;導數和梯度; 階躍函數,Sigmoid函數, Logit函數, ReLU(整流線性單元)函數;損失函數;函數作圖;函數最大最小值。
3. 線性代數
線性代數是機器學習中最重要的數學工具。 數據集通常都表示為矩陣。 線性代數常用于數據預處理,數據轉換,降維和模型評估。
這里是你需要熟悉的概念:向量;向量的范數;矩陣;矩陣轉置;矩陣的逆;矩陣的行列式;矩陣的跡;點積;特征值;特征向量
4. 優化方法
大多數機器學習算法通過最小化目標函數來建立預測模型,由此學習應用于測試數據的權重以獲得預測的標簽。
這里是你需要熟悉的概念:損失函數/目標函數;似然函數;誤差函數;梯度下降算法及其衍生(如隨機梯度下降)
IV. 總結與結論
總之,我們已經討論了數據科學和機器學習所需的基本數學和理論技能。 有幾門免費的在線課程可以教你數據科學和機器學習所必需的數學知識。 作為有志于數據科學的人,請記住,數據科學的理論基礎對于構建高效且可靠的模型至關重要。 因此,您應該投入足夠的時間來研究每種機器學習算法背后的數學理論。
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。