成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

關鍵概念:每個數據科學家都應了解的5個概念

新聞
本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對于你今后的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。

本文轉載自公眾號“讀芯術”(ID:AI_Discovery)

本文將重點介紹一些數據科學領域的關鍵概念,掌握它們對于你今后的職業生涯大有益處。這些概念或許你已經了解,或許你還未掌握。不論你現在是否清楚,筆者的目的是向你專業地解釋為何它們至關重要。

多重共線性、獨熱編碼、欠采樣和過采樣、誤差度量以及敘事能力,這是筆者在想到專業數據科學家日常工作時首先想到的關鍵概念。敘事能力或許算是技能和概念的結合,但筆者在此還是想強調它在數據科學家工作中的重要性。我們開始吧!

多重共線性

多重共線性雖然看起來又長又拗口,拆開來看還是易于理解的。“多重”指數量多,“共線性”則意味著線性相關。多重共線性可以描述為在回歸模型中,兩個或多個解釋變量解釋相似信息或高度相關。這一概念之所以引起關注,有以下幾個原因。

對于某些建模技術來說,多重共線性可能導致過擬合,最終降低模型性能。冗余數據時有出現,模型中的所有特征或屬性并非都是有必要的。因此,可以采用某些方法來找到應該被刪除的特征,正是它們導致了多重共線性。

  • 方差膨脹系數(VIF)
  • 相關矩陣

數據科學家們經常使用這兩種技術,尤其是相關矩陣和相關圖——通常用某種熱圖進行可視化,而VIF則不太為人所知。VIF值越高,該特征對回歸模型的用處就越小。

獨熱編碼

獨熱編碼是模型中的一種特征轉換形式,你可以通過編碼來數值化地體現類別特征。盡管類別特征本身有文本值,但是獨熱編碼會將這些信息轉置,以便每個值都成為特征,行中的觀察值記為0或1。例如,假設我們有分類變量gender,獨熱編碼后的數字表示如下(之前表示為gender,之后表示為male/female):

 

 

獨熱編碼處理前后對比

如果你不僅要使用數字化的特征,還需要使用文本/類別特征創建數字表示,那么此轉換非常有用。

采樣

當你擁有的數據不足時,可以使用過采樣作為一種補償。假設在處理一個分類問題時,有一個如下例所示的少數類:

 

  1. class_1 = 100 rows 
  2. class_2 = 1000 rows 
  3. class_3 = 1100 rows 

如你所見,class_1的類只有少量數據,這意味著你的數據集是不平衡的,也就是所謂的少數類。

有幾種過采樣方法。其中一種叫做SMOTE,即合成少數類過采樣技術(Synthetic Minority Over-samplingTechnique)。SMOTE的實現方式之一是采用K近鄰(K-neighbor)算法來找到最近的點以合成樣本。也有類似的技術反其道而行之,進行欠采樣。

當類或回歸數據中有離群值時,如果你希望確保模型運行在最能體現數據集的采樣結果之上,那么這些技術便能派上用場。

誤差度量

在數據科學中,有很多用于分類模型和回歸模型的誤差度量。以下是一些可以專門用于回歸模型的方法:

 

  1. metrics.explained_variance_score 
  2. metrics.max_error 
  3. metrics.mean_absolute_error 
  4. metrics.mean_squared_error 
  5. metrics.mean_squared_log_error 
  6. metrics.median_absolute_error 
  7. metrics.r2_score 
  8. metrics.mean_poisson_deviance 
  9. metrics.mean_gamma_deviance 

對回歸模型來說,上述誤差度量中最常用的兩種是MSE(均方誤差)和RMSE(均方根誤差):

  • MSE:平均絕對誤差回歸損失(引自sklearn)
  • RMSE:均方根誤差回歸損失(引自sklearn)

對于分類模型來說,可以用精度和ROC曲線下的面積(AUC,Area Under the Curve)來評價模型的性能。

 

敘事能力

敘事概念的重要性怎么強調都不為過。它可以被定義成一種概念或技能,但定義本身并不重要。重要的是,如何在商業環境中展現出自己解決問題的能力。許多數據科學家總是只關注模型的精度,但卻無法理解整個商業過程。該過程包括:

  • 業務是什么?
  • 問題是什么?
  • 為何需要數據科學?
  • 數據科學在其中的目標是什么?
  • 何時能得到可用結果?
  • 如何應用我們的結果?
  • 我們的結果有什么影響?
  • 如何分享我們的結果和整個過程?

上述問題與模型本身或提升精度無關,重點是如何使用數據來解決公司的問題。與利益相關者和非技術領域的同事相熟對此是大有助益的,在運行基礎模型之前,你需要和產品經理一道評估問題,和數據工程師一起收集數據。在模型過程結束時,你將向關鍵人員介紹結果,這些人最喜歡看可視化結果,因此掌握呈現和交流的技能也是有益的。

對于數據科學家和機器學習工程師來說,有許多需要掌握的關鍵概念。本文介紹的5點,你了解了嗎?

 

責任編輯:華軒 來源: 讀芯術
相關推薦

2020-10-31 22:04:39

統計和數據科學數據科學家

2018-10-31 11:00:06

數據科學統計貝葉斯

2018-03-01 14:30:22

數據科學概率分布

2021-03-17 08:27:23

數據科學家數據科學

2019-07-11 12:59:27

數據科學家概率分布統計

2020-08-11 06:51:58

Python編程語言

2021-01-29 14:38:36

數據科學數據科學家統計學

2020-08-23 12:26:59

數據科學家數據科學認證數據科學

2017-08-04 15:53:10

大數據真偽數據科學家

2020-08-28 13:49:13

數據統計學面試

2019-07-30 12:05:20

數據科學采樣算法

2019-12-03 09:11:57

數據科學編程算法

2020-06-28 07:46:34

MLDB數據庫機器學習

2021-04-08 10:15:46

數據工程師數據庫數據科學家

2020-10-06 18:50:19

數據科學家機器學習在線工具

2018-11-19 06:00:32

數據科學家數據科學

2015-07-23 10:49:06

Python工具數據科學

2020-08-03 12:47:58

DevOps數據科學家代碼

2020-06-16 13:32:02

數據科學家大數據系統

2012-12-26 10:51:20

數據科學家
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 妞干网福利视频 | 国产高清视频 | 欧美 日韩 视频 | 国产精品美女一区二区 | 日韩国产中文字幕 | 亚洲免费成人av | 免费影视在线观看 | 最新中文字幕在线播放 | 欧美日韩一区二区在线 | 久久久久久一区 | 久久精品视频91 | h片免费在线观看 | 亚洲网在线 | 中文字幕在线网 | 国产激情一区二区三区 | 一级片在线观看视频 | 欧美888| 夜夜摸夜夜操 | 北条麻妃av一区二区三区 | 国产美女在线看 | 国产精品视频一二三区 | 中文字幕 亚洲一区 | 国产亚洲精品综合一区 | www国产成人免费观看视频,深夜成人网 | 日韩高清成人 | 高清成人av | av永久| www.99热.com| 麻豆久久精品 | 色橹橹欧美在线观看视频高清 | 一区二区三区在线 | 国产精品一区二区日韩 | 亚洲精品一区二区三区在线 | 欧美一区二区三 | 欧美精品久久久久久 | 国产中文| 福利视频一区二区 | 日本欧美黄色片 | 日韩一区二区三区视频在线观看 | 日韩av福利在线观看 | 日韩高清三区 |