成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

XGBoost + LR 就是加特征而已

開發 開發工具
LR (邏輯回歸) 算法因其簡單有效,成為工業界最常用的算法之一。但 LR 算法是線性模型,不能捕捉到非線性信息,需要大量特征工程找到特征組合。

LR (邏輯回歸) 算法因其簡單有效,成為工業界最常用的算法之一。但 LR 算法是線性模型,不能捕捉到非線性信息,需要大量特征工程找到特征組合。為了發現有效的特征組合,Facebook 在 2014年介紹了通過 GBDT (Gradient Boost Decision Tree)+ LR 的方案 [1] (XGBoost 是 GBDT 的后續發展)。隨后 Kaggle 競賽實踐證明此思路的有效性 [2][3]。

1. XGBoost + LR 的原理

XGBoost + LR 融合方式原理很簡單。先用數據訓練一個 XGBoost 模型,然后將訓練數據中的實例給 XGBoost 模型得到實例的葉子節點,然后將葉子節點當做特征訓練一個 LR 模型。XGBoost + LR 的結構如下所示。

XGBoost + LR 的結構

我***接觸到 XGBoost + LR 的時候,認為 XGBoost + LR 是嘗試自動替代特征工程的方法。深度學習在 CTR 領域便是在講述這樣的故事和邏輯:只需人工對原始特征進行簡單的變換,深度學習能取的比大量人工特征的 LR 好的效果。

2. XGBoost 葉子節點不能取代特征工程

為了驗證 XGBoost + LR 是嘗試自動替代特征工程的方法,還只是一種特征工程的方法,我們在自己業務的數據上做了一些實驗。下圖便是實驗結果,其中: “xgboost+lr1" 是 XGBoost 的葉子節點特征、原始屬性特征和二階交叉特征一起給 LR 進行訓練;"xgboost+lr2" 則只有葉子節點特征給 LR;"lr1" 是原始屬性特征和二階交叉特征; "lr2" 只有原始屬性特征。

XGBoost 葉子節點不能取代特征工程

從上面的實驗來看:1) "xgboost+lr2" 明顯弱于 "lr1" 方法,說明只用葉子節點特征的 XGBoost + LR 弱于有特征工程的 LR 算法。即 XGBoost 葉子節點不能取代特征工程,XGBoost + LR 無法取代傳統的特征工程。2) "xgboost+lr1" 取得了所有方法中的***效果,說明了保留原來的特征工程 XGBoost + LR 方法擁有比較好的效果。即 XGBoost 葉子節點特征是一種有效的特征,XGBoost + LR 是一種有效的特征工程手段。

上面的實驗結果和我同事二哥之前的實驗結果一致。在他實驗中沒有進行二階交叉的特征工程技巧,結果 XGBoost > XGBoost + LR > LR,其中 XGBoost +LR 類似我們的 "xgboost+lr2" 和 LR 類似于我們的 "lr2"。

3. 強大的 XGBoost

只用 XGBoost 葉子節點特征, XGBoost + LR 接近或者弱于 XGBoost 。在下圖中,我們發現 XGBoost 的每個葉子節點都有權重 w, 一個實例的預測值和這個實例落入的葉子節點的權重之和有關。

XGBoost

如果二分類 XGBoost 使用了 sgmoid 做激活函數, 即參數為 "binary:logistic", 則 XGBoost 的最終預測值等于 sgmoid(葉子節點的權重之和)。而 LR 的最終預測值等于 sgmoid (特征對應的權重之后)。因此 LR 只要學到葉子節點的權重,即可以將 XGBoost 模型復現出來。因此理論上,如果 LR 能學到更好的權重,即使只有葉子節點特征的 XGBoost + LR 效果應該好于 XGBoost。

但是從上面的結果來看,XGBoost + LR 要接近或者弱于 XGBoost。XGBoost 賦予葉子節點的權重是很不錯的,LR 學到的權重無法明顯地超過它。

4. 總結

XGBoost + LR 在工業和競賽實踐中,都取得了不錯的效果。但 XGBoost 的葉子節點不能完全替代人工特征, XGBoost + LR 并沒有像深度學習那樣試圖帶來自動特征工程的故事和邏輯。最終,XGBoost + LR 的格局沒有超越特征工程。

【本文為51CTO專欄作者“李立”的原創稿件,轉載請通過51CTO獲取聯系和授權】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2021-04-16 20:46:21

PythonXGBoost 特征

2020-08-03 09:22:19

互聯網數據技術

2013-09-22 10:17:07

iOS7加價

2021-04-27 19:24:34

ICMP IP 協議

2017-06-22 11:35:11

高清 雙攝

2019-09-03 16:00:30

戴爾

2015-04-13 10:54:42

java.netHashSet

2023-02-26 18:46:35

機器學習數據集算法

2009-09-28 10:34:32

LR監控Linux系統資源Linux

2020-09-01 14:17:03

WindowsDefender微軟

2022-07-14 10:33:20

XGBoost機器學習

2024-03-22 16:13:42

LLMRAGXGBoost

2020-08-18 17:26:11

機器學習XGBoost人工智能

2021-04-07 10:02:00

XGBoostPython代碼

2021-02-26 10:21:35

比特幣投資金融

2021-06-05 08:04:26

機器學習CARTOptimal

2022-04-08 12:36:02

模型系統

2018-08-31 08:03:00

深度學習GBDT算法CatBoost

2021-10-14 09:52:53

Dockerfile鏡像容器

2012-10-11 13:12:54

創新貓撲技術創新
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区免费视频 | 中文字幕第一页在线 | 国产午夜精品一区二区三区四区 | 精品久久久久久中文字幕 | 久久久久久久久久一区 | 国产在线视频一区 | 国产乱码精品一区二区三区五月婷 | 欧美 日韩 国产 一区 | av免费网| 免费看一级毛片 | 日韩手机在线看片 | 欧美福利影院 | 亚洲综合视频 | 亚洲精品一级 | 国产95在线| 成人免费淫片aa视频免费 | 国内91在线 | 成人激情视频免费观看 | 国产精品久久久久久久白浊 | 亚洲成av片人久久久 | 免费1区2区3区 | 成人三级网址 | 精品精品视频 | 精品国产91 | 最近中文字幕在线视频1 | 天天看片天天干 | 久久久久久久一区 | 精品久久久久久国产 | 亚洲精久 | 色屁屁在线观看 | 妞干网视频 | 精品粉嫩aⅴ一区二区三区四区 | 麻豆精品国产免费 | 欧美性猛交一区二区三区精品 | 成人欧美一区二区三区 | 午夜天堂精品久久久久 | 美女三区| 国产精品成人一区二区三区 | 最新中文字幕第一页视频 | 久久精品在线免费视频 | 最新国产精品 |