快速比較多種機器學習模型實例

作者：不靠譜的貓 2020-05-17 14:37:37

人工智能機器學習

當從事機器學習項目時，所有數據科學家都必須面對的一個問題是：哪種機器學習模型架構比較適合我的數據呢?

介紹

當從事機器學習項目時，所有數據科學家都必須面對的一個問題是：哪種機器學習模型架構比較適合我的數據呢?

[[326370]]

不幸的是，對于哪種模型比較好，還沒有明確的答案。當面對這種不確定性的時候，常用的方法是:實驗!

在本文中，我將向您展示如何快速測試數據集上的多個模型，以找到可能提供優(yōu)質性能的機器學習模型，從而使您能夠將精力集中在模型的微調和優(yōu)化上。

機器學習數據集

在開始實驗之前，我們需要一個數據集。我將假設我們的問題是有監(jiān)督的二元分類任務。讓我們從sklearn加載乳腺癌數據集開始。

from sklearn.datasets import load_breast_cancer 
X, y = data = load_breast_cancer(return_X_y=True)

接下來，我們需要將數據拆分為訓練集和測試集。拆分比例為75/25。

from sklearn.model_selection import train_test_split 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=8675309)

Python編碼

我們將在此數據集上快速測試6種不同模型的擬合度。

邏輯回歸
隨機森林
K最近鄰居
支持向量機
高斯樸素貝葉斯
XGBoost

為了更準確地表示每個模型的擬合度，實際上是需要調整默認參數的，但是，本文出于演示目的，我將使用每個模型的默認參數，這樣可以使總體思路更加清晰。

from sklearn.linear_model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.svm import SVC 
from sklearn.ensemble import RandomForestClassifier 
from sklearn.naive_bayes import GaussianNB 
from xgboost import XGBClassifier 
from sklearn import model_selection 
from sklearn.utils import class_weight 
from sklearn.metrics import classification_report 
from sklearn.metrics import confusion_matrix 
import numpy as np 
import pandas as pd 
def run_exps(X_train: pd.DataFrame , y_train: pd.DataFrame, X_test: pd.DataFrame, y_test: pd.DataFrame) -> pd.DataFrame: 
    ''' 
    Lightweight script to test many models and find winners 
:param X_train: training split 
    :param y_train: training target vector 
    :param X_test: test split 
    :param y_test: test target vector 
    :return: DataFrame of predictions 
    '''     
    dfs = [] 
    models = [ 
          ('LogReg', LogisticRegression()),  
          ('RF', RandomForestClassifier()), 
          ('KNN', KNeighborsClassifier()), 
          ('SVM', SVC()),  
          ('GNB', GaussianNB()), 
          ('XGB', XGBClassifier()) 
        ] 
    results = [] 
    names = [] 
    scoring = ['accuracy', 'precision_weighted', 'recall_weighted', 'f1_weighted', 'roc_auc'] 
    target_names = ['malignant', 'benign'] 
    for name, model in models: 
        kfold = model_selection.KFold(n_splits=5, shuffle=True, random_state=90210) 
        cv_results = model_selection.cross_validate(model, X_train, y_train, cv=kfold, scoring=scoring) 
        clf = model.fit(X_train, y_train) 
        y_pred = clf.predict(X_test) 
        print(name) 
        print(classification_report(y_test, y_pred, target_names=target_names)) 
        results.append(cv_results) 
        names.append(name) 
        this_df = pd.DataFrame(cv_results) 
        this_df['model'] = name 
        dfs.append(this_df) 
    final = pd.concat(dfs, ignore_index=True) 
    return final 
final=run_exps(X_train,y_train, X_test,  y_test ) 
final

在上面的Python代碼中有很多東西需要解釋。首先，我們創(chuàng)建一個變量dfs，該變量用來保存通過對訓練集上應用5-fold交叉驗證創(chuàng)建的數據集。

接下來，models保存在元組列表中，其中包含要測試的每個分類器的名稱和類。在此之后，我們循環(huán)遍歷這個列表并運行5-fold交叉驗證。每次運行的結果都記錄在我們附加到dfs列表的pandas dataframe中。必須注意，這里指標是兩個類的加權平均指標。

測試集上的分類報告如下：

評估結果

我們將分析從run_exps()腳本返回的final(dataframe)中的數據。

為了更好地估計每個模型的指標分布，我在30個樣本上運行了empirical bootstrapping。此外，我將關注兩個指標:性能指標和擬合時間指標。下面的Python代碼塊實現了這一點。

bootstraps = [] 
for model in list(set(final.model.values)): 
    model_df = final.loc[final.model == model] 
    bootstrap = model_df.sample(n=30, replace=True) 
    bootstraps.append(bootstrap) 
         
bootstrap_df = pd.concat(bootstraps, ignore_index=True) 
results_long = pd.melt(bootstrap_df,id_vars=['model'],var_name='metrics', value_name='values') 
time_metrics = ['fit_time','score_time'] # fit time metrics 
## PERFORMANCE METRICS 
results_long_nofit = results_long.loc[~results_long['metrics'].isin(time_metrics)] # get df without fit data 
results_long_nofit = results_long_nofit.sort_values(by='values') 
## TIME METRICS 
results_long_fit = results_long.loc[results_long['metrics'].isin(time_metrics)] # df with fit data 
results_long_fit = results_long_fit.sort_values(by='values')

首先，讓我們繪制來自5-fold交叉驗證的性能指標。

import matplotlib.pyplot as plt 
import seaborn as sns 
plt.figure(figsize=(20, 12)) 
sns.set(font_scale=2.5) 
g = sns.boxplot(x="model", y="values", hue="metrics", data=results_long_nofit, palette="Set3") 
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) 
plt.title('Comparison of Model by Classification Metric') 
#plt.savefig('./benchmark_models_performance.png',dpi=300) 
plt.show()

很明顯，支持向量機在所有指標上對我們的數據的擬合度都很差，而集成決策樹模型(Random Forest和XGBoost)對數據的擬合非常好。

訓練時間怎么樣呢?

plt.figure(figsize=(20, 12)) 
sns.set(font_scale=2.5) 
g = sns.boxplot(x="model", y="values", hue="metrics", data=results_long_fit, palette="Set3") 
plt.legend(bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.) 
plt.title('Comparison of Model by Fit and Score Time') 
plt.show()

隨機森林雖然相對于KNN、GNB和LogReg來說比較慢，但其性能僅次于KNN。如果我繼續(xù)細化模型，我可能會將大部分精力集中在隨機森林上，因為它的性能幾乎與XGBoost相同(它們的95%置信區(qū)間可能重疊)，但訓練速度幾乎快了4倍!

如果您希望對這些模型進行更多的分析(例如，計算每個度量標準的置信區(qū)間)，您將需要訪問每個度量標準的均值和標準差。

metrics = list(set(results_long_nofit.metrics.values)) 
bootstrap_df.groupby(['model'])[metrics].agg([np.std, np.mean])

time_metrics = list(set(results_long_fit.metrics.values)) 
bootstrap_df.groupby(['model'])[time_metrics].agg([np.std, np.mean])

結論

上述分析只考慮了平均精度、召回率等。在實際問題中，您不太可能關心類之間的平均精度，相反，您可能會特別關注某個類的精度!此外，必須調整每個機器學習模型的超參數，以真正評估它們與數據的擬合程度。

責任編輯：華軒來源：今日頭條

機器學習技術架構

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

快速比較多種機器學習模型實例