成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2021年碼農應該了解的所有機器學習算法

人工智能 機器學習 算法
隨著我對機器學習的了解的增加,機器學習算法的數量也在增加! 本文將介紹數據科學界常用的機器學習算法。

隨著我對機器學習的了解的增加,機器學習算法的數量也在增加! 本文將介紹數據科學界常用的機器學習算法。

[[353567]]

請記住,我將比其他更多地詳細闡述某些算法,因為如果我對每種算法進行了詳盡的解釋,那么本文將與本書一樣長!我還將嘗試盡量減少本文中的數學運算量,因為我知道這對于那些數學上不精通的人來說可能是令人生畏的。相反,我將嘗試對每個功能進行簡要概述,并指出一些關鍵功能。

考慮到這一點,我將首先介紹一些更基本的算法,然后再介紹一些較新的算法,例如CatBoost,Gradient Boost和XGBoost。

線性回歸

線性回歸是用于對因變量和一個或多個自變量之間的關系進行建模的最基本算法之一。簡而言之,它涉及找到代表兩個或多個變量的"最佳擬合線"。

最佳擬合線是通過最小化點與最佳擬合線之間的平方距離來找到的-這稱為最小化殘差平方和。殘差等于預測值減去實際值。

 

2021年碼農應該了解的所有機器學習算法

 

> Image Created by Author

如果還沒有意義,請考慮上面的圖片。 將最適合的綠線與紅線進行比較,請注意,綠線的垂直線(殘差)比紅線大得多。 這是有道理的,因為綠線離這些點太遠了,根本就不能很好地表示數據!

如果您想了解有關線性回歸背后的數學知識的更多信息,那么我將從Brilliant的解釋開始。

邏輯回歸

Logistic回歸與線性回歸相似,但用于建模離散結果數(通常為兩個)的概率。 乍一看,邏輯回歸聽起來比線性回歸復雜得多,但實際上只需要多做一步。

首先,您使用與最適合線性回歸的直線方程式相似的方程式計算得分。

 

2021年碼農應該了解的所有機器學習算法

 

額外的步驟是將您先前在下面的S型函數中計算出的分數提供給您,以便您獲得回報的可能性。然后可以將此概率轉換為二進制輸出,即1或0。

 

2021年碼農應該了解的所有機器學習算法

 

為了找到初始方程的權重以計算分數,使用了諸如梯度下降或最大似然法之類的方法。 由于它不在本文的討論范圍之內,所以我將不做進一步的詳細介紹,但是現在您知道了它的工作原理!

K最近鄰居

 

2021年碼農應該了解的所有機器學習算法

 

> Image created by author

K近鄰是一個簡單的想法。首先,從已分類的數據(即紅色和藍色數據點)開始。然后,當您添加新數據點時,可以通過查看k個最近的分類點對其進行分類。得票最多的哪個類別決定將新點分類為什么。

在這種情況下,如果將k設置為1,則可以看到與灰色樣本最接近的第一個點是紅色數據點。 因此,該點將被分類為紅色。

要記住的一點是,如果k的值設置得太低,可能會導致異常值。另一方面,如果k的值設置得太高,那么它可能會忽略只有幾個樣本的類。

樸素貝葉斯

樸素貝葉斯是一種分類算法。 這意味著當輸出變量為離散變量時,將使用樸素貝葉斯。

樸素貝葉斯(Naive Bayes)似乎是一個令人生畏的算法,因為它需要具備條件概率和貝葉斯定理的初步數學知識,但這是一個非常簡單且"樸素"的概念,我將盡力舉例說明:

 

2021年碼農應該了解的所有機器學習算法

 

> Image Created by Author

假設我們輸入了有關天氣特征(外觀,溫度,濕度,大風)以及是否打過高爾夫球的數據(即最后一欄)。

樸素貝葉斯本質上所做的是比較每個輸入變量與輸出變量中類別之間的比例。可以在下表中顯示。

 

 

> Image Created by Author

為了幫助您閱讀本示例,在溫度部分中,打高爾夫球的9天中有2天很熱(即是)。

用數學術語,您可以將其表示為打高爾夫球時很熱的概率。數學符號為P(hot | yes)。這就是條件概率,對于理解我將要說的其余內容至關重要。

掌握了這些信息后,您就可以根據天氣特征的任意組合預測是否要打高爾夫球。

想象一下,我們具有以下特征的新一天:

  • 展望:晴天
  • 溫度:溫和
  • 濕度:正常
  • 大風:假

首先,我們將計算在給定X,P(y | X)的情況下打高爾夫球的概率,然后計算在給定X,P(no | X)的情況下您打高爾夫球的概率。

使用上面的圖表,我們可以獲得以下信息:

 

2021年碼農應該了解的所有機器學習算法

 

現在我們可以簡單地將此信息輸入以下公式:

 

2021年碼農應該了解的所有機器學習算法

 

同樣,您將為P(no | X)完成相同的步驟順序。

 

2021年碼農應該了解的所有機器學習算法

 

由于P(yes | X)> P(no | X),因此您可以預測此人會打高爾夫球,因為前景晴朗,溫度適中,濕度正常且沒有大風。

這是樸素貝葉斯的精髓!

支持向量機

 

2021年碼農應該了解的所有機器學習算法

 

> Image created by Author

支持向量機是一種監督分類技術,實際上可能會變得非常復雜,但在最基本的級別上卻非常直觀。 為了本文的方便,我們將其保持在較高水平。

假設有兩類數據。 支持向量機將在兩類數據之間找到一個超平面或邊界,以使兩類數據之間的余量最大化(請參見上文)。 有許多平面可以將兩個類別分開,但是只有一個平面可以使兩個類別之間的邊距或距離最大化。

如果您想了解支持向量機背后的數學知識,請查看此系列文章。

決策樹

 

2021年碼農應該了解的所有機器學習算法

 

> Image created by author

隨機森林

在理解隨機森林之前,您需要了解以下兩個術語:

  • 集成學習是一種結合使用多種學習算法的方法。這樣做的目的是,與單獨使用單個算法相比,它可以實現更高的預測性能。
  • 自舉采樣是一種重采樣方法,該方法使用隨機采樣進行替換。 聽起來很復雜,但是當我說它非常簡單時,請相信我-在此處了解更多信息。
  • 當您使用自舉數據集的匯總來做決定時,請進行裝袋–我在該主題上撰寫了一篇文章,因此,如果這樣做不完全有意義,請隨時在此處查看。

現在您已經了解了這些術語,讓我們深入研究它。

隨機森林是一種基于決策樹的整體學習技術。 隨機森林涉及使用原始數據的自舉數據集創建多個決策樹,并在決策樹的每個步驟中隨機選擇變量的子集。 然后,模型選擇每個決策樹的所有預測的模式(裝袋)。 這有什么意義? 通過依靠"多數勝利"模型,它降低了單個樹出錯的風險。

 

2021年碼農應該了解的所有機器學習算法

 

> Image Created by author

例如,如果我們創建一個決策樹,第三個決策樹,它將預測0。但是,如果我們依靠所有4個決策樹的模式,則預測值為1。這就是隨機森林的力量!

AdaBoost

AdaBoost或Adaptive Boost也是一種集成算法,它利用打包和增強方法來開發增強的預測器。

AdaBoost與Random Forests的相似之處在于,預測來自許多決策樹。但是,AdaBoost的獨特之處在于三個主要區別:

 

2021年碼農應該了解的所有機器學習算法

 

> Example of a stump

  • 首先,AdaBoost創建了一個由樹樁而非樹木組成的森林。樹樁是僅由一個節點和兩片葉子組成的樹(如上圖所示)。
  • 其次,在最終決策(最終預測)中未對創建的樹樁加權平均。產生更多錯誤的樹樁在最終決定中將沒有發言權。
  • 最后,樹樁的制作順序很重要,因為每個樹樁的目的都是減少先前樹樁造成的錯誤。

從本質上講,AdaBoost采取了一種更具迭代性的方法,即從以前的樹樁所犯的錯誤中尋求迭代地改進。

如果您想了解有關AdaBoost背后的基礎數學的更多信息,請查看我的文章" 5分鐘內AdaBoost的數學解釋"。

梯度提升

漸變增強也是一種集成算法,使用增強方法來開發增強型預測因子也就不足為奇了。在許多方面,Gradient Boost與AdaBoost相似,但有兩個主要區別:

  • 與AdaBoost可以構建樹樁不同,Gradient Boost可以構建通常具有8–32片葉子的樹木。
  • 梯度增強將增強問題視為優化問題,它使用損失函數并嘗試將誤差最小化。 這就是為什么它受梯度下降的啟發而稱為"梯度增強"的原因。
  • 最后,這些樹用于預測樣本的殘差(預測值減去實際值)。

盡管最后一點可能令人困惑,但您需要知道的是,Gradient Boost首先要構建一棵樹以嘗試擬合數據,而隨后構建的樹則旨在減少殘差(錯誤)。它通過專注于現有學習者表現較差的領域來做到這一點,類似于AdaBoost。

XGBoost

XGBoost是當今最流行和使用最廣泛的算法之一,因為它是如此強大。它類似于Gradient Boost,但具有一些使其更強大的額外功能,包括……

  • 葉節點按比例縮小(修剪)—用于改善模型的泛化
  • 牛頓加速-提供比梯度下降更直接的最小值,使其更快
  • 額外的隨機化參數-減少樹之間的相關性,最終提高整體強度
  • 樹木的獨特懲罰

我強烈建議您觀看StatQuest的視頻,以更詳細地了解算法的工作原理。

LightGBM

如果您認為XGBoost是目前最好的算法,請再考慮一下。 LightGBM是另一種增強算法,已顯示出比XGBoost更快甚至更高的準確性。

LightGBM的與眾不同之處在于,它使用一種稱為基于梯度的單面采樣(GOSS)的獨特技術來過濾出數據實例以查找分割值。這與XGBoost不同,后者使用預排序和基于直方圖的算法來找到最佳分割。

在這里閱讀更多關于Light GBM vs XGBoost的信息!

CatBoost

CatBoost是基于梯度下降的另一種算法,具有一些細微的差異,使其獨特:

  • CatBoost實現對稱樹,這有助于減少預測時間,并且默認情況下樹深度也較淺(六個)
  • CatBoost利用類似于XGBoost具有隨機參數的方式的隨機排列
  • 但是,與XGBoost不同,CatBoost使用有序增強和響應編碼等概念更優雅地處理分類功能

總體而言,使CatBoost如此強大的原因是其低延遲要求,這意味著它比XGBoost快大約八倍。

如果您想更詳細地了解CatBoost,請查閱本文。

謝謝閱讀!

如果您成功了,那就恭喜!現在,您應該對所有不同的機器學習算法有了更好的了解。

如果您很難理解最后幾種算法,不要灰心–它們不僅更復雜,而且相對較新!因此,請繼續關注更多資源,這些資源將更深入地應用于這些算法。

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-01-01 14:59:51

Python機器學習算法

2020-08-14 12:17:48

算法機器學習

2019-03-26 11:15:34

AI機器學習人工智能

2013-09-22 10:34:08

碼農機器學習算法

2012-11-21 10:24:31

創業碼農程序員

2017-08-25 14:05:01

機器學習算法模型

2019-02-14 08:10:22

機器學習API程序

2020-12-03 08:01:42

機器學習人工智能AI

2020-12-08 13:42:41

機器學習人工智能

2021-02-14 00:39:57

機器學習技術人工智能

2020-05-28 08:40:10

人工智能

2023-11-02 08:32:11

機器學習人工智能

2020-11-11 09:42:34

軟件開發 技術

2021-08-17 08:51:38

機器學習人工智能

2022-11-30 14:57:39

產業互聯網

2017-10-24 14:21:30

機器學習人工智能算法

2018-07-02 08:57:27

碼農業務程序員

2013-11-14 13:58:06

硅谷碼農

2021-03-06 13:34:20

網絡安全網絡攻擊漏洞

2021-02-15 15:20:08

架構程序員軟件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 综合国产第二页 | 国产精品jizz在线观看老狼 | 6080亚洲精品一区二区 | 欧美一区二区三区视频 | 一区二区三区亚洲 | 国产日韩久久 | 久久久激情 | 粉嫩国产精品一区二区在线观看 | 亚洲精品视频久久 | 国产日韩精品一区二区 | 天天精品在线 | 深爱激情综合 | 日韩精品久久一区二区三区 | 欧美精品一区在线 | 天天操网 | 一区免费观看 | 黄色成人免费在线观看 | 久久国产成人 | 日韩久久精品电影 | 日韩一区二区三区在线看 | 请别相信他免费喜剧电影在线观看 | 91精品久久久久久久久中文字幕 | 久久精品天堂 | 精品国产一区二区三区性色 | 成人精品在线视频 | 国产成人在线一区二区 | 久久精彩视频 | 成人在线国产 | 欧美日韩高清一区 | 国产激情视频在线观看 | 日韩视频专区 | 久草免费在线视频 | 国产91在线 | 中日 | 国产高清免费 | 国产日韩视频 | 精久久| 97超碰免费| 国产激情视频网址 | 青青草社区 | 色婷婷影院 | 国产精品色 |