2021年最酷的數據科學庫

作者：聞數起舞 2021-02-01 11:03:26

我成為數據科學家是因為我最喜歡找到解決復雜問題的解決方案，工作的創造性部分以及從數據中獲得的見解。如果您還喜歡將無聊的東西自動化，那么您會喜歡本文中將要介紹的庫。

我成為數據科學家是因為我最喜歡找到解決復雜問題的解決方案，工作的創造性部分以及從數據中獲得的見解。諸如清理數據，預處理和調整超參數之類的無聊的事情并沒有給我帶來什么樂趣，這就是為什么我嘗試盡可能自動執行這些任務的原因。

如果您還喜歡將無聊的東西自動化，那么您會喜歡本文中將要介紹的庫。

如今，沒有人使用Scikit-Learn的線性回歸來預測Kaggle競爭中的房價，因為XGboost方法更準確。

但是，XGboost超參數很難調整。它們很多，而機器學習工程師在使用此算法時浪費了很多時間進行調整。好吧，不再了。

介紹Xgboost-AutoTune

我很高興與您分享由MIT的Sylwia Oliwia開發的Python Xgboost AutoTune庫，該庫最近已成為我自動XGboost微調的首選。

讓我們看一下此氣候數據集的示例，我們可以根據溫室氣體濃度預測溫度升高，并評估每種氣體的影響。

首先，我們導入數據集并繪制CO2，CH4，N20和合成氣的氣體濃度：

通過運行，我們可以看到過去140年中所有溫室氣體的增加情況：

太酷了，現在我們可以導入我提到的Autotuning庫，但是以防萬一您沒有下載存儲庫，我也會在此處顯示代碼：

基本上，您只需要記住該自動調整庫的主要方法是“ fit_parameters”，只需調用它，它就為找到超參數的最佳值進行了所有艱苦的工作，如下所示：

請注意，我們選擇了一種計分方法(在本例中為均方根對數誤差RMSLE)，并且初始模型為XGBRegressor，因為這是一個回歸問題(另一個選項將是分類問題)。

太酷了，因此我們僅用兩行代碼構建了最佳的XGboost模型，現在讓我們做出預測：

這將輸出一個圖形，其中包含預測溫度與測試集中的實際值的對比：

看起來不錯。

現在，如果我們想知道在變暖作用中最重要的氣體是什么，我們可以做：

這將返回以下內容：

正如預期的那樣，CO2是效果最強的氣體，這不足為奇，但是我們可以看到CH4也具有非常重要的作用，最重要的是，這種模型訓練起來非常快。

結論

梯度提升是其不涉及深度學習的回歸和分類任務中最常用的算法，因為它具有很高的準確性，可解釋性和速度。

遺憾的是，盡管Python生態系統提供了XGboost庫，但是它沒有像Scikit-Learn這樣的其他庫那么廣泛，并且數據科學家必須手動完成調整參數，這會造成很多麻煩。

這就是為什么我認為這個自動調整庫是一個需要共享的瑰寶。

我最后的反思是：數據科學家的聘用費用昂貴，而他們的時間最好花在進行非瑣碎的工作上。

您能想象一位銷售主管打了電話嗎?當然那不是他們的工作。

好吧，可悲的是，許多數據科學家都是各行各業的佼佼者，他們的工作通常包括：查找數據，清理數據，攝取數據，決定使用的模型，編碼模型，編碼腳本以調整模型，部署模型，將模型展示給企業，上帝知道還有什么。

因此，數據科學家擁有的自動化工具越多，她就越能專注于最重要的工作：理解數據并從中獲取價值

希望您喜歡這篇文章，它可以幫助您更快地訓練模型。

祝您編碼愉快!

原文鏈接：https://towardsdatascience.com/the-coolest-data-science-library-i-found-in-2021-956af253fb2c

責任編輯：趙寧寧來源：今日頭條

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看