成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小巧玲瓏:機器學習屆快刀XGBoost的介紹和使用

企業動態
XGBoost的全稱為eXtreme Gradient Boosting,是GBDT的一種高效實現,XGBoost中的基學習器除了可以是CART(gbtree)也可以是線性分類器(gblinear)。

[[204132]]

序言

XGBoost效率很高,在Kaggle等諸多比賽中使用廣泛,并且取得了不少好成績。為了讓公司的算法工程師,可以更加方便的使用XGBoost,我們將XGBoost更好地與公司已有的存儲資源和計算平臺進行集成,將數據預處理、模型訓練、模型預測、模型評估及可視化、模型收藏及分享等功能,在Tesla平臺中形成閉環,同時,數據的流轉實現了與TDW完全打通,讓整個機器學習的流程一體化。

XGBoost介紹

XGBoost的全稱為eXtreme Gradient Boosting,是GBDT的一種高效實現,XGBoost中的基學習器除了可以是CART(gbtree)也可以是線性分類器(gblinear)。

什么是GBDT?

  • GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來做最終答案。它在被提出之初就和SVM一起被認為是泛化能力(generalization)較強的算法。GBDT的核心在于,每一棵樹學的是之前所有樹結論和的殘差,這個殘差就是一個加預測值后能得真實值的累加量。與隨機森林不同,隨機森林采用多數投票輸出結果;而GBDT則是將所有結果累加起來,或者加權累加起來。

XGBoost對GBDT的改進

1 . 避免過擬合

目標函數之外加上了正則化項整體求***解,用以權衡目標函數的下降和模型的復雜程度,避免過擬合。基學習為CART時,正則化項與樹的葉子節點的數量T和葉子節點的值有關。

2 . 二階的泰勒展開,精度更高

不同于傳統的GBDT只利用了一階的導數信息的方式,XGBoost對損失函數做了二階的泰勒展開,精度更高。

第t次的損失函數:

對上式做二階泰勒展開( g為一階導數,h為二階導數):

3 . 樹節點分裂優化

選擇候選分割點針對GBDT進行了多個優化。正常的樹節點分裂時公式如下:

XGBoost樹節點分裂時,雖然也是通過計算分裂后的某種值減去分裂前的某種值,從而得到增益。但是相比GBDT,它做了如下改進:

  • 通過添加閾值gamma進行了剪枝來限制樹的生成
  • 通過添加系數lambda對葉子節點的值做了平滑,防止過擬合。
  • 在尋找***分割點時,考慮傳統的枚舉每個特征的所有可能分割點的貪心法效率太低,XGBoost實現了一種近似的算法,即:根據百分位法列舉幾個可能成為分割點的候選者,然后從候選者中根據上面求分割點的公式計算找出***的分割點。
  • 特征列排序后以塊的形式存儲在內存中,在迭代中可以重復使用;雖然boosting算法迭代必須串行,但是在處理每個特征列時可以做到并行。

整體上,通過上述的3個優化,加上其易用性,不太需要編程,XGBoost目前是GBDT體系中***的工具。但是值得留意的是,當數據量很大,尤其是維度很高的情況下,XGBoost的性能會下降較快,這時推進大家可以試試騰訊自己的Angel,其GBDT比XGBoost性能更好噢

TDW體系中的XGBoost介紹

XGBoost在TDW體系中以兩種形式存在

提供出了拖拽式的組件,來簡化用戶使用成本

提供出了maven依賴,來讓用戶享受Spark Pipeline的流暢

1. Tesla平臺上的3個組件:

  • XGBoost-spark-ppc組件(基于社區版0.7,以Spark作業形式運行在PowerPC機型的集群上)
  • XGBoost-spark-x86組件(基于社區版0.7,以Spark作業形式運行在x86機型的集群上)
  • XGBoost-yarn組件(基于社區版0.4,以Yarn作業形式運行在x86機型的集群上)

目前來看,XGBoost的ppc版本,性能比x86的好,建議大家優先選擇。

2. 公司Maven庫中的3個依賴:

XGBoost4j-ppc(封裝社區版0.7的API,在PowerPC機型上進行的編譯)

XGBoost4j-x86(封裝社區版0.7的API,在x86機型上進行的編譯)

XGBoost4j-toolkit(封裝HDFS IO、TDW IO、Model IO等功能)

Tesla中的XGBoost-on-spark組件介紹

Tesla中XGBoost-on-spark組件根據集群的機型區分成:XGBoost-spark-ppc組件和XGBoost-spark-x86組件。將以前的XGBoost-yarn組件進行了升級,體現在了:

數據源之間的打通、作業調試更友好、IO方式更豐富、數據處理的上下游延伸更廣、model支持在線服務等方面。

1.數據源之間的打通

消除了不同HDFS集群上的權限問題

與TDW打通,數據流轉更順暢,開發成本更低

  • 用戶可以不再編寫程序生成LibSVM格式的數據文件,而是通過Hive或者Spark SQL生成TDW特征表,通過選擇TDW特征表的某些列(selected_cols=1-2,4,8-10),由XGBoost-on-spark組件后臺生成libsvm類型的輸入
  • 可以針對TDW分區表,借助Tesla作業定時調度機制,可以進行XGBoost作業的例行化調度運行

2.作業調試更友好

以Spark作業的形式,而非直接的Yarn作業的形式運行,用戶對作業的運行情況更清楚

  • 可以查看作業的進度
  • 可以查看各節點上的日志信息

3.IO方式更豐富

輸入的數據集來源,可以為之前的HDFS上LibSVM格式的文件形式。也可以為一張TDW表,用戶通過選擇TDW表中的某些列,由XGBoost-on-spark組件在后臺生成LibSVM格式的輸入。

訓練階段增加了特征重要度(weight、gain、cover)的輸出、以及3種類型model的輸出:文本格式(用戶可以直接查看)、LocalFile的二進制格式(用戶可以下載到本地,利用python加載后在線預測)、HadoopFile的二進制格式(用戶可以在Tesla環境中,利用Spark加載后離線批量預測)

模型輸出的3種格式舉例

4 . 數據處理的上下游延伸更廣

與Tesla平臺深度整合

  • 可以拖拽Tesla的組件:數據切分、模型評估,實現數據處理的上下游功能
  • 可以利用Tesla的功能:參數替換、并發設置,進行批量調參

5 . model支持在線服務

可以利用Tesla的模型服務,進行模型導出、模型部署、在線預測

總結

XGBoost是機器學習的利器,雖然小巧,但是功能強大,以其被實戰檢驗過的高效,吸引了很多使用者。我們針對用戶痛點進行了諸多改進,實現了用戶在Tesla平臺中更加方便的使用,大大減少了用戶的開發成本,同時,我們也開放出了XGBoost API,讓邏輯復雜的業務可以在自身系統中嵌入xgBoost,更加直接的對接TDW系統。后續有進一步的需求,歡迎聯系Tesla團隊,我們將提供更好的機器學習和數據服務。

原文鏈接:http://t.cn/RpkWG7c

作者:張萌 

【本文是51CTO專欄作者“騰訊云技術社區”的原創稿件,轉載請通過51CTO聯系原作者獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2020-08-18 17:26:11

機器學習XGBoost人工智能

2022-07-14 10:33:20

XGBoost機器學習

2012-05-15 09:41:50

超級計算機硬盤

2010-04-16 12:08:20

2017-05-23 14:00:26

機器學習編程技術計算模型

2015-07-22 16:16:47

PythonScikit-Lear機器學習

2012-05-11 16:46:00

激光打印機推薦

2011-09-16 10:16:45

2010-07-14 21:10:09

VirtualBox

2011-09-21 14:30:16

點心

2022-08-29 17:12:07

人工智能機器學習Android

2020-11-18 18:21:49

.Net 5大數據機器學習

2023-11-22 13:10:01

2017-09-01 18:17:40

2022-10-20 07:14:20

人工智能機器學習算法

2023-03-27 07:34:28

XGBoostInluxDB時間序列

2024-03-01 07:26:49

RustPolars機器學習

2023-10-24 20:38:15

數據分析機器學習

2010-07-12 22:26:45

無線路由無線產品斐訊

2025-05-14 08:16:46

?Redis機器學習推薦模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.天天操.com | 国产精品不卡一区二区三区 | 小川阿佐美pgd-606在线 | 久久毛片网站 | 日韩激情视频一区 | 欧美一级片在线看 | 国产精品久久久久久久久久不蜜臀 | 欧美2区 | 国产精品精品视频一区二区三区 | 日韩高清电影 | a级网站| 日韩在线免费视频 | 久久精品国产一区二区电影 | 在线免费观看毛片 | 亚洲美女一区 | 久久99精品久久久久久 | 中文字幕日韩一区 | 国产在线视频一区二区董小宛性色 | 影视先锋av资源噜噜 | 黑人中文字幕一区二区三区 | 国产精品91久久久久久 | 五月婷婷在线视频 | 亚洲国产欧美在线人成 | 国产精品1 | 99精品九九| 国产精品日韩一区二区 | 啪一啪 | 国产午夜精品久久久久免费视高清 | 天天操夜夜看 | 亚洲精品在线观看视频 | 99久久国产 | 精品一区二区三区在线观看国产 | 国产精品久久国产精品 | 国产三级一区二区三区 | 国产精品久久久久久久久免费丝袜 | 综合国产 | 成人在线观看免费视频 | 在线欧美亚洲 | 日韩91| 在线观看免费福利 | 久久精品免费看 |