幾行代碼搞定ML模型，低代碼機器學習Python庫正式開源

作者：佚名 2020-04-17 14:48:30

PyCaret 庫支持在「低代碼」環境中訓練和部署有監督以及無監督的機器學習模型，提升機器學習實驗的效率。

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

想提高機器學習實驗的效率，把更多精力放在解決業務問題而不是寫代碼上？低代碼平臺或許是個不錯的選擇。

最近，機器之心發現了一個開源低代碼機器學習 Python 庫 PyCaret，它支持在「低代碼」環境中訓練和部署有監督以及無監督的機器學習模型。

GitHub 地址：https://github.com/pycaret/pycaret
用戶文檔：https://www.pycaret.org/guide
Notebook 教程：https://www.pycaret.org/tutorial

PyCaret 庫支持數據科學家快速高效地執行端到端實驗，與其他開源機器學習庫相比，PyCaret 庫只需幾行代碼即可執行復雜的機器學習任務。該庫適合有經驗的數據科學家、傾向于低代碼機器學習解決方案的公民數據科學家，以及編程背景較弱甚至沒有的新手。

PyCaret 庫支持多種 Notebook 環境，包括 Jupyter Notebook、Azure notebook 和 Google Colab。從本質上來看，PyCaret 是一個 Python 封裝器，封裝了多個機器學習庫和框架，如 sci-kit-learn、XGBoost、Microsoft LightGBM、spaCy 等。

機器學習實驗中所有步驟均可使用 PyCaret 自動開發的 pipeline 進行復現。在 Pycaret 中所執行的所有操作均按順序存儲在 Pipeline 中，該 Pipeline 針對模型部署進行了完全配置。

不管是填充缺失值、轉換類別數據、執行特征工程設計，還是調參，Pycaret 都能夠自動執行。而且 pipeline 可以保存為二進制文件格式，支持在不同環境中進行遷移。

PyCaret 包含一系列函數，用戶通過它們完成機器學習實驗。PyCaret 庫的函數可分為以下五個大類，涵蓋初始化、模型訓練、集成、分析與部署：

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

此外，PyCaret 提供 6 個模塊，支持有監督和無監督模型的訓練和部署，分別是分類、回歸、聚類、異常檢測、自然語言處理和關聯規則挖掘。每個模塊封裝特定的機器學習算法和不同模塊均可以使用的函數。用戶可以根據實驗類型，將模塊導入環境中。

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

PyCaret 庫提供的六個模塊。

接下來，我們就來了解一下 PyCaret 庫的安裝和使用方法吧。

啟動 PyCaret

使用 pip 安裝 PyCaret。

使用命令行界面或 notebook 環境，運行下面的代碼進行安裝：

pip install pycaret

Azure notebook 和 Google Colab 用戶，可以運行下列代碼進行安裝：

!pip install pycaret

安裝 PyCaret 時會自動安裝所有依賴項，過程非常簡單，如下圖所示：

PyCaret 分步教程

數據獲取

該教程使用「糖尿病」數據集，目標是根據血壓、胰島素水平以及年齡等多種因素預測患者的預后情況（1 或 0）。數據集參見 PyCaret 的 GitHub 地址。

直接從 PyCaret 庫中導入數據集的最簡單方法是使用 pycaret.datasets 模塊中的 get_data 函數。

from *pycaret.datasets* import *get_data* 
 
diabetes = *get_data*('diabetes')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

get_data 的輸出。

PyCaret 可以直接處理 Pandas 數據幀。

環境配置

在 PyCaret 中執行任意機器學習實驗的第一步都是，通過導入所需模塊并初始化 setup() 來設置環境。如下示例中使用的模塊是 pycaret.classification。

模塊導入后，將通過定義數據結構「糖尿病」和目標變量「類變量」來初始化 setup()。

from *pycaret.classification* import ***exp1 = *setup*(diabetes, target = 'Class variable')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

所有預處理的步驟都會應用至 setup() 中，PyCaret 擁有 20 余項功能可運用于 ML 相關的數據準備，例如根據 setup 函數中定義的參數來創建 Transformation pipeline，同時也會自動協調 Pipeline 中所有的相關性及依賴關系。這樣面對測試或者未見過的數據集，用戶無需再手動管理或是調整執行的順序。

PyCaret 的 Pipeline 可輕松地在各環境之間相互遷移，比如大規模運行或是輕松部署到生產環境中。下圖展示了 PyCaret 首次發布時可用的預處理功能：

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

PyCaret 的預處理功能。

數據預處理是機器學習的必要步驟，比如當初始化 setup() 時，缺失值填充、分類變量編碼、標簽編碼（將 yes or no 轉化為 1 or 0）以及 train-test-split 會自動執行。

模型比較

這是監督機器學習實驗（分類或回歸模塊）應該進行的第一步。compare_models 函數訓練模型庫中的所有模型，并使用 k 折交叉驗證（默認 k=10）來比較常見的評估指標。所使用的評估指標如下所示：

分類模塊：準確度、AUC、Recall、精度、F1 和 Kappa；
回歸模塊：MAE、MSE、RMSE、R2、RMSLE 和 MAPE。

*compare_models*()

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

compare_models() 函數的輸出。Output from compare_models( ) function

默認使用 10 折交叉驗證來評估指標，可以通過改變 fold 參數值來改變評估結果。默認使用精度值（由高到低）來分類 table，同樣可以通過改變 sort 參數值來改變分類結果。

模型創建

在 PyCaret 的任何模塊中，創建模型就像編寫 create_model 一樣簡單，它只需要一個參數，即作為字符串輸入來傳遞的模型名稱。此函數返回具有 k 折交叉驗證分數和訓練好的模型對象的表格。

adaboost = *create_model*('adaboost')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

變量「adaboost」存儲一個由*create_model*函數返回的訓練模型對象，該對象是 scikit 學習估計器。可以通過在變量后使用標點（.）來訪問訓練對象的原始屬性。參見下面的示例：

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

訓練好的模型對象的屬性。

PyCaret 有 60 多個開源即用型算法。

模型調優

tune_model 函數用于自動調優機器學習模型的超參數。PyCaret 在預定義的搜索空間上使用隨機網格搜索。此函數返回具有 k 折交叉驗證分數和訓練好的模型對象的表格。

tuned_adaboost = tune_model('ada')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

在無監督模塊中的 tune_model 函數，比如 pycaret.nlp,pycaret.clustering 和 pycaret.anomaly 可以和監督模塊結合使用。舉例而言，通過評估監督 ML 模型中的目標或者損失函數，PyCaret 的 NLP 模塊可以用來調整準確度或 R2 等指標的數值。

模型集成

ensemble_model 函數用于集成訓練好的模型。它只需要一個參數，即訓練好的模型對象。此函數返回具有 k 折交叉驗證分數和訓練好的模型對象的表格。

# creating a decision tree model 
 
dt = *create_model*('dt')# ensembling a trained dt model 
 
dt_bagged = *ensemble_model*(dt)

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

該庫默認使用 Bagging 方法用于模型集成，用戶也可使用 ensemble_model 函數中的 method 參數將其轉換為 Boosting。

PyCaret 還提供了 blend_models 和 stack_models 功能，來集成多個訓練好的模型。

模型繪制

訓練好的機器學習模型的性能評估和診斷可以通過 plot_model 函數來完成，具體而言，將訓練模型對象和 plot 類型作為 plot_model 函數中的字符串輸入（string input）。

# create a model 
 
adaboost = *create_model*('ada')# AUC plot 
 
*plot_model*(adaboost, plot = 'auc')# Decision Boundary 
 
*plot_model*(adaboost, plot = 'boundary')# Precision Recall Curve 
 
*plot_model*(adaboost, plot = 'pr')# Validation Curve 
 
*plot_model*(adaboost, plot = 'vc')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

此外，用戶還可以使用 evaluate_model 函數在 notebook 的用戶界面上看到可視化圖。

*evaluate_model*(adaboost)

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

pycaret.nlp 模塊中的 plot_model 函數可用于可視化文本語料庫和語義主題模型。

模型解釋

數據中的關系呈非線性是實踐中常常出現的情況。這時總會看到基于樹的模型要比簡單的高斯模型的表現好得多。但這是以犧牲可解釋性為代價的，因為基于樹的模型無法像線性模型那樣提供簡單的系數。

PyCaret 通過 interpret_model 函數實現了 SHAP（SHapley Additive exPlanations）。

# create a model 
 
xgboost = *create_model*('xgboost')# summary plot 
 
*interpret_model*(xgboost)# correlation plot 
 
*interpret_model*(xgboost, plot = 'correlation')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

測試數據集上特定數據點的解釋可以通過『reason』圖來評估。如下圖所示：在測試數據集上檢查首個實例。

*interpret_model*(xgboost, plot = 'reason', observation = 0)

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

模型預測

到目前為止，所看到的結果僅基于訓練數據集上 k 折交叉驗證（默認 70%）。所以為了得到模型在測試或者 hold-out 數據集上的預測結果和性能，用戶可以使用 predict_model 函數。如下所示：

# create a model 
 
rf = *create_model*('rf')# predict test / hold-out dataset 
 
rf_holdout_pred* = predict_model*(rf)

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

predict_model 函數還可以用來預測未見過的數據集。現在，將訓練時所使用的數據集用作新的未見過數據集的代理（proxy）。在實踐中，predict_model 函數會被迭代地使用，每次使用都會有一個新的未見過的數據集。

predictions = *predict_model*(rf, data = diabetes)

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

此外，對于使用 stack_models 和 create_stacknet 函數創建的模型，predict_model 函數可以預測它們的序列鏈。不僅如此，借助于 deploy_model 函數，predict_model 函數還可以直接基于托管在 AWS S3 上的模型進行預測。

模型部署

我們可以使用以下方法讓訓練好的模型在未見過的數據集上生成預測：在訓練模型的同一個 notebook 或 IDE 中使用 predict_model 函數。但是，在未見過的數據集上執行預測是一個迭代的過程。其中，基于用例的不同，預測可以分為實時預測和批量預測。

PyCaret 的 deploy_model 函數允許部署整個 pipeline，包括云端訓練的模型。

*deploy_model*(model = rf, model_name = 'rf_aws', platform = 'aws',  
 
             authentication =  {'bucket'  : 'pycaret-test'})

模型/實驗保存

訓練完成后，包含所有預處理轉換和訓練模型對象在內的整個 pipeline 能夠以二進制 pickle 文件的格式保存。

# creating model 
 
adaboost = *create_model*('ada')# saving model* 
 
save_model*(adaboost, model_name = 'ada_for_deployment')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

用戶也能夠以二進制文件的格式保存整個實驗，包括所有中間輸出（intermediary output）。

*save_experiment*(experiment_name = 'my_first_experiment')

å‡ è¡Œä»£ç æžå®šMLæ¨¡åž‹ï¼Œä½Žä»£ç æœºå™¨å¦ä¹ Pythonåº“æ£å¼å¼€æº

最后，通過 PyCaret 所有模塊中可用的 load_model 和 load_experiment 函數，用戶還可以下載保存的模型和實驗。

責任編輯：張燕妮來源：機器之心

代碼機器學習 Python

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

幾行代碼搞定ML模型，低代碼機器學習Python庫正式開源

啟動 PyCaret