成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何構建穩固的機器學習算法:Boosting&Bagging

人工智能 機器學習 算法
機器學習和數據科學工作遠不是簡單地把數據交給 Python 庫處理,使用處理后的結果那么簡單。本文將簡要介紹一些利用 Bootstrapping 提升模型魯棒性的方法。

[[211376]]

機器學習和數據科學工作遠不是簡單地把數據交給 Python 庫處理,使用處理后的結果那么簡單。本文將簡要介紹一些利用 Bootstrapping 提升模型魯棒性的方法。

數據科學家需要真正理解數據和如何處理數據,以實現成功的系統。

一個重要方法就是了解什么時候模型可以利用 Bootstrapping 方法獲益。這就是集成模型。集成模型的一些示例有 AdaBoost 和隨機梯度提升(Stochastic Gradient Boosting)。

為什么使用集成模型?

它們可以幫助提高算法準確率或改善模型的魯棒性嗎?集成學習是經過試驗并效果屬實的方法嗎?Boosting 和 Bagging 是數據科學家和機器學習工程師必須了解的話題。特別是當你計劃參加數據科學/機器學習面試的時候。

本質上,集成學習是「集成」的。集成學習使用成百上千個同樣算法的模型尋找正確的分類。

對集成學習的另一種認知是「盲人摸象」。每個盲人發現大象的一個特征,認為大象是不同的事物。但是,聚在一起討論后,他們可能會發現大象到底是什么模樣。

使用 Boosting 和 Bagging 等技術可以提升統計模型的魯棒性,降低方差。

那么現在問題來了,這些以 B 開頭的單詞(Bootstrapping/Bagging/Boosting)有什么區別呢?

Bootstrapping

首先讓我們談一下這個非常重要的概念 Bootstrapping。當很多數據科學家直接解釋 Boosting 和 Bagging 時,他們偶爾會記起 Bootstrapping,因為兩者都需要 Boosting 和 Bagging 。

圖 1 Bootstrapping

機器學習中,Bootstrap 方法指的是借助替換的隨機采樣,它是一個重采樣,允許模型或算法更好地理解存在于其中的偏差、方差和特征。數據的采樣允許重采樣包含不同的偏向,然后將其作為一個整體進行包含。如圖 1 所示,其中每個樣本群有不同的部分,而且各不相同。接著這會影響到數據集的整體均值、標準差和其他描述性指標。反過來,它可以發展出更多魯棒的模型。

Bootstrapping 同樣適用傾向于過擬合的小數據集。事實上,我們把它推薦給了一家有關注的公司,其數據集遠稱不上「大數據」。Bootstrapping 是這一案例的一個解決方案,因為利用 Bootstrapping 的算法可以更魯棒,并根據已選的方法論(Boosting 或 Bagging)來處理新數據集。

使用 Bootstrap 的原因是它可以測試解決方案的穩定性。使用多個樣本數據集測試多個模型可以提高魯棒性。或許一個樣本數據集的平均值比其他數據集大,或者標準差不同。這種方式可以識別出過擬合且未使用不同方差數據集進行測試的模型。

Bootstrapping 越來越普遍的原因之一是計算能力的提升。出現比之前更多次數的重排列、重采樣。Bagging 和 Boosting 都使用 Bootstrapping,下面將會具體介紹。

Bagging

Bagging 實際上指 Bootstrap Aggregator。大多數提到使用 Bagging 算法的論文或文章都會引用 Leo Breiman,他曾經寫過一篇論文《Bagging Predictors》(1996)。

Leo 這么描述 Bagging:

「Bagging predictor 是一種生成多個預測器版本然后生成聚合預測器的方法。」

Bagging 的作用是降低只在訓練數據上準確率較高的模型的方差——這種情況也叫作過擬合。

過擬合即函數過于擬合數據。通常原因在于實際的公式過于復雜,無法考慮每個數據點和異常值。

 

圖 2. 過擬合

容易過擬合的另一種算法是決策樹。使用決策樹構建的模型需要非常簡單的啟發式方法。決策樹由一系列特定順序的 if-else 語句組成。因此,如果把一個數據集變更成新的數據集,則新數據集可能在底層特征中與之前的數據集存在一些偏差或區別。該模型不可能準確。原因在于數據無法非常好地擬合數據(前向聲明)。

Bagging 使用采樣和替換數據的方法在數據中創建自己的方差來規避這個問題,同時測試多個假設(模型)。通過使用多個樣本(很可能由不同屬性的數據組成)來減少噪聲。

直到每個模型提出一個假設。這些模型使用投票法(voting)進行分類,用平均法進行回歸。這里「Aggregating」和「Bootstrap Aggregating」將發揮作用。每個假設具備相同的權重。這是 Bagging 和 Boosting 方法的區別之一。

 

圖 3. Bagging

本質上,所有這些模型同時運行,然后對哪個假設最準確進行投票。

這有助于降低方差,即減少過擬合。

Boosting

Boosting 指使用加權平均值使弱的學習器變強的一組算法。與 Bagging 不同,每個模型單獨運行,***在不偏向任何模型的前提下聚合輸出結果。Boosting 是一項「團隊工作」。每個模型決定下一個模型要關注的特征。

Boosting 也需要 Bootstrapping。但是,這里還有一個區別。與 bagging 不同,boosting 為每個數據樣本加權。這意味著一些樣本運行的頻率比其他樣本高。

 

圖 4. Boosting

當 Boosting 運行在模型中時,它追蹤哪些數據樣本是成功的,哪些不成功。輸出結果分類錯誤最多的數據集會被賦予更高的權重。即這些數據更加復雜,需要更多次迭代才能恰當地訓練模型。

在實際的分類階段中,Boosting 處理模型的方式也存在區別。Boosting 追蹤模型誤差率,因為更好的模型會獲得更好的權重。

這樣,當「投票」(voting)出現時,結果更好的模型更有可能最終主導輸出。

總結

Boosting 和 Bagging 能夠有效降低方差。集成方法通常優于單個模型。這就是那么多 Kaggle 獲勝者使用集成方法的原因。

但是,它們不適合所有問題,它們各自也有缺陷。Bagging 在模型過擬合時能夠有效降低方差,但 Boosting 可能是二者中較好的選擇。Boosting 更有可能導致性能問題,但它在模型欠擬合時也能有效降低偏差。

這就需要經驗和專業知識了!***個模型能夠成功運行可能比較容易,但是分析算法和它選擇的所有特征非常重要。例如,如果一個決策樹設置了特定的葉,那么這么設置的原因是什么呢?如果你無法用其他數據點或圖支持它,它可能就不該實現。

 

這不只是在不同的數據集上嘗試 AdaBoost 或隨機森林。我們需要根據算法的傾向和獲得的支持來決定最終使用的算法。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2019-06-20 13:50:44

BoostingBagging機器學習

2022-10-08 06:30:23

機器學習人工智能工具

2019-05-16 09:28:12

集成學習機器學習模型

2014-07-09 09:29:34

機器學習

2017-07-07 14:41:13

機器學習神經網絡JavaScript

2021-11-02 09:40:50

TensorFlow機器學習人工智能

2017-08-25 14:05:01

機器學習算法模型

2024-05-23 16:48:42

機器學習算法人工智能

2023-12-01 10:21:00

機器學習算法

2020-11-19 10:04:45

人工智能

2018-07-03 15:26:35

算法機器學習數據

2016-11-15 15:02:00

機器學習算法

2023-11-28 12:08:56

機器學習算法人工智能

2017-05-25 11:14:21

機器學習算法神經網絡

2017-05-25 13:37:46

機器學習算法神經網絡

2020-12-16 15:56:26

機器學習人工智能Python

2024-06-13 08:36:11

2018-07-27 16:18:30

PythonTwitter機器人

2017-04-06 09:20:10

機器學習模型信用卡詐騙

2020-08-18 17:26:11

機器學習XGBoost人工智能
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久在线 | 久久国内| 精品欧美一区二区三区久久久 | 羞羞视频网站 | 天天弄 | 亚洲九九 | 日本综合在线观看 | 亚洲一区二区三区免费在线 | 91色网站| 日韩精品在线一区二区 | 精品久久精品 | 九九天堂网| 超碰在线人人干 | 国产精品二区三区 | 亚洲国产精品人人爽夜夜爽 | 亚洲欧洲日韩 | 亚洲导航深夜福利涩涩屋 | 日韩免费三级 | 美女国产一区 | 成人一区二区三区视频 | 夜夜久久 | 国产婷婷色一区二区三区 | 欧美日韩精品免费观看 | 91亚洲国产成人久久精品网站 | 成人看片在线观看 | 国产欧美视频一区二区三区 | 一区欧美| 亚洲精品片 | 久久久噜噜噜久久中文字幕色伊伊 | 九九综合 | 精品国产乱码久久久久久图片 | 国产成人综合在线 | 无码日韩精品一区二区免费 | 午夜丰满寂寞少妇精品 | 亚洲一区免费 | 91一区二区 | 本道综合精品 | 一区二区三区四区在线视频 | 国产一级在线 | 国产精品人人做人人爽 | 人操人免费视频 |