成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

入數據科學大坑,我需要什么樣的數學水平?

人工智能 機器學習
本文作者闡釋了數據科學和機器學習為何離不開數學,并提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。

作為一門基礎性學科,數學在數據科學和機器學習領域都發揮著不可或缺的作用。數學基礎是理解各種算法的先決條件,也將幫助我們更深入透徹地了解算法的內在原理。所以,本文作者闡釋了數據科學和機器學習為何離不開數學,并提供了統計學與概率論、多變量微積分、線性代數以及優化方法四個數學分支中需要熟悉的一些數學概念。

[[330395]]

本文的作者是物理學家、數據科學教育者和作家 Benjamin Obi Tayo 博士,他的研究興趣在于數據科學、機器學習、AI、Python 和 R 語言、預測分析、材料科學和生物物理學。

[[330396]]

本文作者 Benjamin Obi Tayo。

數據科學和機器學習離不開數學

如果你是一個數據科學愛好者,則大概會產生以下兩個疑問:

  • 我幾乎沒有數學背景,那么能成為數據科學家嗎?
  • 哪些基本的數學技能在數據科學中非常重要呢?

我們都知道,數據科學離不開各式各樣的擴展包。并且,現在有很多性能強大的包可以用來構建預測模型或者用來生成可視化數據。如下列舉了用于描述性和預測性分析的一些最常見包:

  • Ggplot2
  • Matplotlib
  • Seaborn
  • Scikit-learn
  • Caret
  • TensorFlow
  • PyTorch
  • Keras

得益于以上這些擴展包,任何人都可以構建模型或者生成可視化數據。但與此同時,要優化模型進而生成性能最佳的可靠模型,擁有強大的數學背景也是很有必要的。

也就是說,構建模型只是一方面,另一方面還需要對模型進行解釋,得出有意義的結論,這樣才能更好地做出數據驅動的決策。

最后,在使用這些包之前,你需要理解每個包中蘊含的數學基礎,這樣才不會只把這些包當作黑盒工具(black-box tool)。

案例分析:構建一個多元回歸模型

假設我們要構建一個多元回歸模型,那么需要事先問自己幾個問題:

  • 數據集有多大?
  • 特征變量和目標變量是什么?
  • 哪些預測特征與目標變量關聯最大?
  • 哪些特征比較重要?
  • 是否應該擴展特征?
  • 數據集應該如何劃分成訓練集和測試集?
  • 主成分分析(principal component analysis, PCA)是什么?
  • 是否應該使用 PCA 刪除多余特征?
  • 如何評估模型?用 R2 值、MSE 還是 MAE?
  • 如何提升模型的預測能力?
  • 是否使用正則化回歸模型(regularized regression model)?
  • 回歸系數是多少?
  • 截距是多少(intercept)?
  • 是否使用像 K 近鄰回歸(KNeighbors regression)或者支持向量回歸(support vector regression)這樣的無參數回歸模型?
  • 模型中的超參數是多少?如何調整超參數使模型性能達到最佳?

很明顯,如果沒有良好的數學背景,你將無法解決上述問題。因此,在數據科學和機器學習中,數學技能和編程技能一樣重要,這很關鍵。

作為一個數據科學的推崇者,投入時間來學習數據科學和機器學習中的理論基礎和數學基礎很有必要。毫不夸張地說,你所構建的可靠有效模型能否用于解決現實世界的問題,這也將取決于你的數學技能有多好。

接下來討論一下數據科學和機器學習中一些必要的數學技能。

數據科學和機器學習中必要的數學技能

數學包羅萬象,任何人都不可能門門精通。所以,在數據科學和機器學習研究中,我們可以根據自身所在的具體領域、手頭的具體工作或者使用的具體算法來有側重地學習對應的數學技能。

1. 統計學與概率論

統計學和概率論可用于可視化變量、數據預處理、特征變換、數據插補、降維、特征工程和模型評估等等。

以下是需要熟悉的一些統計學與概率論概念:

  • 平均數、中位數、眾數、標準差 / 方差;
  • 相關系數和協方差矩陣、概率分布(二項分布、泊松分布和正態分布);
  • p 值、貝葉斯定理(精度、召回率、正預測值、負預測值、混淆矩陣和 ROC 曲線)、中心極限定理
  • ;R_2 值、均方誤差(MSE)、A/B 測試、蒙特卡羅模擬。

2. 多變量微積分(Multivariable Calculus)

大多數機器學習模型是使用包含幾種特征或預測變量的數據集來構建的。因此,熟悉多變量微積分對于構建機器學習模型非常重要。

以下是你需要熟悉的多變量微積分數學概念:

  • 多元函數、導數和梯度、階躍函數;
  • Sigmoid 函數、Logit 函數、ReLU 函數、損失函數;
  • Plot 函數繪制、函數最小值和最大值。

3. 線性代數

線性代數是機器學習中最重要的數學技能,一個數據集可以被表示為一個矩陣。線性代數可用于數據預處理、數據轉換以及降維和模型評估。

以下是你需要熟悉的線性代數概念:

  • 向量、向量范數;
  • 矩陣、矩陣的轉置、矩陣的逆、矩陣的行列式、矩陣的跡、點積、特征值、特征向量。

4. 優化方法

大多數機器學習算法通過最小化目標函數的方法來執行預測建模。

以下是你需要熟悉的優化數學概念:

  • 損失函數 / 目標函數、似然函數、誤差函數、梯度下降算法及其變體。

總之,作為一個數據科學的推崇者,應該時刻謹記,理論基礎對構建有效可靠的模型至關重要。因此,你應該投入足夠的時間去研究每一種機器學習算法背后的數學理論。

原文鏈接:

https://medium.com/towards-artificial-intelligence/how-much-math-do-i-need-in-data-science-d05d83f8cb19

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】 

戳這里,看該作者更多好文

 

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2020-02-24 08:58:46

數據架構技術

2017-02-08 10:01:13

大數據ETL技術

2019-01-07 11:13:25

數據中心容器化技術

2023-06-05 16:45:52

2014-02-25 09:55:07

敏捷開發

2024-05-23 07:32:37

2013-06-19 09:30:03

2013-08-29 11:38:53

企業App

2016-12-13 09:33:13

大數據數據挖掘數字化運營

2021-11-12 18:36:41

數字化

2017-02-15 14:47:34

冷存儲

2012-08-08 09:59:26

虛擬化服務器

2017-03-31 09:47:17

2018-03-30 08:30:19

軟件定義存儲

2016-07-19 16:44:17

2015-06-10 09:41:45

路由器

2021-11-11 15:17:36

人工智能IT技術

2015-12-01 10:18:15

數據中心技術人才

2019-07-30 15:59:06

數據庫技術SQL

2022-12-26 08:56:06

數據庫云原生應用
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品免费一区二区三区四区 | 黄色片免费看视频 | 韩三级在线观看 | 国产欧美日韩在线观看 | 91精品在线看 | 欧美一区| 一区二区三区精品视频 | 黑人巨大精品欧美黑白配亚洲 | 欧美精品一区二区三区四区五区 | 日本三级日产三级国产三级 | 综合网在线 | 欧美精品久久久久 | 亚洲国产69 | 成人毛片一区二区三区 | 国产精品成人一区二区三区夜夜夜 | 精品国产一区二区三区免费 | 国产精品一区二区三区久久 | 少妇黄色| 97日韩精品 | 涩色视频在线观看 | 免费视频一区 | 国产96在线| 日本免费一区二区三区 | 成人18亚洲xxoo | 中文字幕 欧美 日韩 | 精品国产成人 | 日韩欧美国产精品一区 | 亚洲在线电影 | 日韩欧美精品在线 | 久久97精品 | 香蕉超碰 | 国产黑丝av | 涩涩视频在线观看免费 | 亚洲 成人 在线 | 羞羞视频在线观看网站 | 国产精品久久久久久久久久东京 | 国产精品大全 | 99久久免费观看 | 99色在线| 日韩高清国产一区在线 | 99精品久久久久久 |