在兩行Python代碼中應用 40 個機器學習模型
我們將使用lazypredict庫,它允許我們只用一行代碼在我們的數據集上實現許多機器學習模型,本文將演示lazypredict的快速使用。
步驟1、使用以下命令安裝lazypredict 庫:
pip install lazypredict
步驟2、導入pandas庫,以加載我們的機器學習數據集。
數據集鏈接:https ://raw.githubusercontent.com/tirthajyoti/Machine-Learning-with-Python/master/Datasets/Mall_Customers.csv
import pandas as pd
df=pd.read_csv("Mall_Customers.csv")
步驟3、查看機器學習數據集前幾行。
df.head()
步驟4、拆分訓練集和測試集。這里 Y 變量是 Spending Score 列,而其余列是 X 變量。
from sklearn.model_selection import train_test_split
x=df.loc[:,df.columns!='Spending Score (1-100)']
y=df['Spending Score (1-100)']
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3)
步驟5、讓我們導入之前安裝的lazypredict庫,lazypredict里面有兩個類,一個是Classification類,一個是Regression類。
import lazypredict
from lazypredict.Supervised import LazyRegressor
from lazypredict.Supervised import LazyClassifier
導入后,我們將使用 LazyRegressor,因為我們正在處理回歸問題,如果您處理的分類問題,這兩種類型的問題都需要類似的步驟。
multiple_ML_model=LazyRegressor(verbose=0,ignore_warnings=True,predictions=True)
models,predictions=multiple_ML_model.fit(x_train,x_test,y_train,y_test)
在這里,prediction = True意味著您想要獲得每個模型的準確性并想要對每個模型進行預測。
模型的變量包含每個模型的準確度,以及其他一些重要的信息。
models
如您所見,它已經在我的回歸問題上實現了42 個 機器學習模型,本指南更側重于如何測試許多模型而不是提高它們的準確性。
查看每個機器學習模型的預測如下:
predictions
您可以使用這些預測來創建混淆矩陣。
如果您正在處理分類問題,這就是您使用lazypredict 庫的方式。
multiple_ML_model=LazyClassifier(verbose=0,ignore_warnings=True,predictions=True)
models,predictions=multiple_ML_model.fit(x_train,x_test,y_train,y_test)
要記住的關鍵點:
- 該庫僅用于測試目的,為您提供有關哪種模型在您的數據集上表現良好的信息。
- 因為我將要使用的庫需要的是特定版本,所以建議使用一個單獨環境。