成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何使用5種機器學習算法對罕見事件進行分類

譯文
人工智能 機器學習 算法
機器學習是數據科學界的王冠,而監督學習是機器學習界這頂王冠上的寶石。

【51CTO.com快譯】機器學習是數據科學界的王冠,而監督學習是機器學習界這頂王冠上的寶石。

背景

幾年前《哈佛商業評論》發表過一篇題為《數據科學家:21世紀最性感的工作》的文章。文章發表后,數據科學系或統計系備受大學生追捧,沉悶的數據科學家頭回被認為很性感。

對一些行業而言,數據科學家已改變了公司結構,將許多決策交給了一線員工。能夠從數據獲得實用的業務洞察力從未如此容易。

據吳恩達稱,監督學習算法為業界貢獻了大部分價值。

監督學習為什么創造如此大的業務價值不容懷疑。銀行用它來檢測信用卡欺詐,交易員根據模型做出購買決定,工廠對生產線進行過濾以查找有缺陷的零部件。

這些業務場景有兩個共同的特征:

  • 二進制結果:欺詐vs不欺詐,購買vs不購買,有缺陷的vs沒有缺陷。
  • 不平均的數據分布:一個多數組vs一個少數組。

正如吳恩達最近指出,小數據、穩健性和人為因素是AI項目取得成功的三大障礙。在某種程度上,一個少數組方面的罕見事件問題也是一個小數據問題:機器學習算法從多數組學到更多信息,很容易對小數據組錯誤分類。

下面是幾個事關重大的問題:

  • 對于這些罕見事件,哪種機器學習方法性能更好?
  • 什么度量指標?
  • 有何美中不足?

本文試圖通過運用5種機器學習方法處理實際數據集來回答上述問題,附有完整的R實現代碼。

有關完整描述和原始數據集,請參閱原始數據集:https://archive.ics.uci.edu/ml/datasets/bank+marketing;有關完整的R代碼,請查看我的Github:https://github.com/LeihuaYe/Machine-Learning-Classification-for-Imbalanced-Data

業務問題

葡萄牙一家銀行在實施一項新銀行服務(定期存款)的營銷策略,想知道哪些類型的客戶已訂購該服務,以便銀行可以在將來調整營銷策略,鎖定特定人群。數據科學家與銷售和營銷團隊合作,提出了統計解決方案,以識別未來訂戶。

R實現

以下面是模型選擇流程和R實現。

1.導入、數據清理和探索性數據分析

不妨加載并清理原始數據集。 

  1. ####load the dataset 
  2.  
  3. banking=read.csv(“bank-additional-full.csv”,sep =”;”,header=T)##check for missing data and make sure no missing data 
  4.  
  5. banking[!complete.cases(banking),]#re-code qualitative (factor) variables into numeric 
  6.  
  7. banking$job= recode(banking$job, “‘admin.’=1;’blue-collar’=2;’entrepreneur’=3;’housemaid’=4;’management’=5;’retired’=6;’self-employed’=7;’services’=8;’student’=9;’technician’=10;’unemployed’=11;’unknown’=12”)#recode variable again 
  8.  
  9. banking$marital = recode(banking$marital, “‘divorced’=1;’married’=2;’single’=3;’unknown’=4”)banking$education = recode(banking$education, “‘basic.4y’=1;’basic.6y’=2;’basic.9y’=3;’high.school’=4;’illiterate’=5;’professional.course’=6;’university.degree’=7;’unknown’=8”)banking$default = recode(banking$default, “‘no’=1;’yes’=2;’unknown’=3”)banking$housing = recode(banking$housing, “‘no’=1;’yes’=2;’unknown’=3”)banking$loan = recode(banking$loan, “‘no’=1;’yes’=2;’unknown’=3”) 
  10.  
  11. banking$contact = recode(banking$loan, “‘cellular’=1;’telephone’=2;”)banking$month = recode(banking$month, “‘mar’=1;’apr’=2;’may’=3;’jun’=4;’jul’=5;’aug’=6;’sep’=7;’oct’=8;’nov’=9;’dec’=10”)banking$day_of_week = recode(banking$day_of_week, “‘mon’=1;’tue’=2;’wed’=3;’thu’=4;’fri’=5;”)banking$poutcome = recode(banking$poutcome, “‘failure’=1;’nonexistent’=2;’success’=3;”)#remove variable “pdays”, b/c it has no variation 
  12.  
  13. banking$pdays=NULL #remove variable “pdays”, b/c itis collinear with the DV 
  14.  
  15. banking$duration=NULL 

清理原始數據似乎很乏味,因為我們要為缺失的變量重新編碼,并將定性變量轉換成定量變量。清理實際數據要花更長的時間。有言道“數據科學家花80%的時間來清理數據、花20%的時間來構建模型。”

下一步,不妨探究結果變量的分布。 

  1. #EDA of the DV  
  2. plot(banking$y,main="Plot 1: Distribution of Dependent Variable"

使用5種機器學習算法對罕見事件進行分類

圖1

由此可見,相關變量(服務訂購)并不均勻分布,“No”多過“Yes”。分布不平衡應該會發出一些警告信號,因為數據分布影響最終的統計模型。它很容易使用多數范例(majority case)開發的模型對少數范例(minority case)錯誤分類。

2. 數據分割

下一步,不妨將數據集分割成兩部分:訓練集和測試集。通常而言,我們堅持80–20分割:80%是訓練集,20%是測試集。如果是時間序列數據,我們基于90%的數據訓練模型,將剩余10%的數據作為測試數據集。 

  1. #split the dataset into training and test sets randomly  
  2. set.seed(1)#set seed so as to generate the same value each time we run the code#create an index to split the data: 80% training and 20% test  
  3. index = round(nrow(banking)*0.2,digits=0)#sample randomly throughout the dataset and keep the total number equal to the value of index  
  4. test.indices = sample(1:nrow(banking), index)#80% training set  
  5. banking.train=banking[-test.indices,] #20% test set  
  6. banking.test=banking[test.indices,] #Select the training set except the DV  
  7. YTrain = banking.train$y  
  8. XTrain = banking.train %>% select(-y)# Select the test set except the DV  
  9. YTest = banking.test$y  
  10. XTest = banking.test %>% select(-y) 

這里,不妨創建一個空的跟蹤記錄。 

  1. records = matrix(NA, nrow=5, ncol=2) 
  2. colnames(records) <- c(“train.error”,”test.error”)  
  3. rownames(records) <- c(“Logistic”,”Tree”,”KNN”,”Random Forests”,”SVM”) 

3. 訓練模型

我們在這一節定義一個新的函數(calc_error_rate),運用它計算每個機器學習模型的訓練和測試誤差。 

  1. calc_error_rate <- function(predicted.value, true.value)  
  2. {return(mean(true.value!=predicted.value))} 

如果預測的標簽與實際值不符,該函數就計算比率。

#1 邏輯回歸模型

想了解邏輯模型的簡介,不妨看看這兩篇文章:《機器學習101》(https://towardsdatascience.com/machine-learning-101-predicting-drug-use-using-logistic-regression-in-r-769be90eb03d)和《機器學習102》(https://towardsdatascience.com/machine-learning-102-logistic-regression-with-polynomial-features-98a208688c17)。

不妨添加一個邏輯模型,包括結果變量以外的所有其他變量。由于結果是二進制的,我們將模型設置為二項分布(“family-binomial”)。 

  1. glm.fit = glm(y ~ age+factor(job)+factor(marital)+factor(education)+factor(default)+factor(housing)+factor(loan)+factor(contact)+factor(month)+factor(day_of_week)+campaign+previous+factor(poutcome)+emp.var.rate+cons.price.idx+cons.conf.idx+euribor3m+nr.employed, data=banking.train, family=binomial) 

下一步是獲得訓練誤差。由于我們預測結果的類型并采用多數規則,于是將類型設置為響應式:如果先驗概率超過或等于0.5,我們預測結果為yes,否則是no。 

  1. prob.training = predict(glm.fit,type=”response”)banking.train_glm = banking.train %>% #select all rows of the train  
  2. mutate(predicted.value=as.factor(ifelse(prob.training<=0.5, “no”, “yes”))) #create a new variable using mutate and set a majority rule using ifelse# get the training error  
  3. logit_traing_error <- calc_error_rate(predicted.value=banking.train_glm$predicted.value, true.value=YTrain)# get the test error of the logistic model  
  4. prob.test = predict(glm.fit,banking.test,type=”response”)banking.test_glm = banking.test %>% # select rows  
  5. mutate(predicted.value2=as.factor(ifelse(prob.test<=0.5, “no”, “yes”))) # set ruleslogit_test_error <- calc_error_rate(predicted.value=banking.test_glm$predicted.value2, true.value=YTest)# write down the training and test errors of the logistic model 
  6. records[1,] <- c(logit_traing_error,logit_test_error)#write into the first row 

#2 決策樹

若是決策樹,我們遵循交叉驗證,以識別最佳的分割節點。想大致了解決策樹,請參閱此文:https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052。 

  1. # finding the best nodes  
  2. # the total number of rows  
  3. nobs = nrow(banking.train)#build a DT model;  
  4. #please refer to this document (https://www.datacamp.com/community/tutorials/decision-trees-R) for constructing a DT model  
  5. bank_tree = tree(y~., data= banking.train,na.action = na.pass,  
  6. control = tree.control(nobs , mincut =2, minsize = 10, mindev = 1e-3))#cross validation to prune the tree  
  7. set.seed(3)  
  8. cv = cv.tree(bank_tree,FUN=prune.misclass, K=10)  
  9. cv#identify the best cv  
  10. best.size.cv = cv$size[which.min(cv$dev)]  
  11. best.size.cv#best = 3bank_tree.pruned<-prune.misclass(bank_tree, best=3)  
  12. summary(bank_tree.pruned) 

交叉驗證的最佳大小是3。 

  1. # Training and test errors of bank_tree.pruned  
  2. pred_train = predict(bank_tree.pruned, banking.train, type=”class”)  
  3. pred_test = predict(bank_tree.pruned, banking.test, type=”class”)# training error  
  4. DT_training_error <- calc_error_rate(predicted.value=pred_train, true.value=YTrain)# test error  
  5. DT_test_error <- calc_error_rate(predicted.value=pred_test, true.value=YTest)# write down the errors  
  6. records[2,] <- c(DT_training_error,DT_test_error) 

#3 K最近鄰(KNN)

作為一種非參數方法,KNN不需要任何分布的先驗知識。簡而言之,KNN將k個數量的最近鄰分配給相關的單元。

想大致了解,不妨參閱這篇文章《R中的K最近鄰入門指南:從菜鳥到高手》:https://towardsdatascience.com/beginners-guide-to-k-nearest-neighbors-in-r-from-zero-to-hero-d92cd4074bdb。想詳細了解交叉驗證和do.chunk函數,請參閱此文:https://towardsdatascience.com/beginners-guide-to-k-nearest-neighbors-in-r-from-zero-to-hero-d92cd4074bdb

使用交叉驗證,我們發現當k = 20時交叉驗證誤差最小。 

  1. nfold = 10  
  2. set.seed(1)# cut() divides the range into several intervals  
  3. folds = seq.int(nrow(banking.train)) %>%  
  4. cut(breaks = nfold, labels=FALSE) %>%  
  5. sampledo.chunk <- function(chunkid, folddef, Xdat, Ydat, k){  
  6. train = (folddef!=chunkid)# training indexXtr = Xdat[train,] # training set by the indexYtr = Ydat[train] # true label in training setXvl = Xdat[!train,] # test setYvl = Ydat[!train] # true label in test setpredYtr = knn(train = Xtr, test = Xtr, cl = Ytr, k = k) # predict training labelspredYvl = knn(train = Xtr, test = Xvl, cl = Ytr, k = k) # predict test labelsdata.frame(fold =chunkid, # k folds 
  7. train.error = calc_error_rate(predYtr, Ytr),#training error per fold  
  8. val.error = calc_error_rate(predYvl, Yvl)) # test error per fold  
  9. }# set error.folds to save validation errors  
  10. error.folds=NULLcreate a sequence of data with an interval of 10  
  11. kvec = c(1, seq(10, 50, length.out=5))set.seed(1)for (j in kvec){  
  12. tmp = ldply(1:nfold, do.chunk, # apply do.function to each fold  
  13. folddef=folds, Xdat=XTrain, Ydat=YTrain, k=j) # required arguments  
  14. tmp$neighbors = j # track each value of neighbors  
  15. error.folds = rbind(error.folds, tmp) # combine the results  
  16. }#melt() in the package reshape2 melts wide-format data into long-format data  
  17. errors = melt(error.folds, id.vars=c(“fold”,”neighbors”), value.name= “error”) 

隨后,不妨找到盡量減少驗證誤差的最佳K數。 

  1. val.error.means = errors %>%  
  2. filter(variable== “val.error” ) %>%  
  3. group_by(neighbors, variable) %>%  
  4. summarise_each(funs(mean), error) %>%  
  5. ungroup() %>%  
  6. filter(error==min(error))#the best number of neighbors =20  
  7. numneighbor = max(val.error.means$neighbors)  
  8. numneighbor## [20] 

遵循同一步,我們查找訓練誤差和測試誤差。 

  1. #training error  
  2. set.seed(20)  
  3. pred.YTtrain = knn(train=XTrain, test=XTrain, cl=YTrain, k=20)  
  4. knn_traing_error <- calc_error_rate(predicted.value=pred.YTtrain, true.value=YTrain)#test error =0.095set.seed(20)  
  5. pred.YTest = knn(train=XTrain, test=XTest, cl=YTrain, k=20)  
  6. knn_test_error <- calc_error_rate(predicted.value=pred.YTest, true.value=YTest)records[3,] <- c(knn_traing_error,knn_test_error) 

#4 隨機森林

我們遵循構建隨機森林模型的標準步驟。想大致了解隨機森林,參閱此文:https://towardsdatascience.com/understanding-random-forest-58381e0602d2。 

  1. # build a RF model with default settings  
  2. set.seed(1)  
  3. RF_banking_train = randomForest(y ~ ., data=banking.train, importance=TRUE)# predicting outcome classes using training and test sets  
  4. pred_train_RF = predict(RF_banking_train, banking.train, type=”class”)pred_test_RF = predict(RF_banking_train, banking.test, type=”class”)# training error  
  5. RF_training_error <- calc_error_rate(predicted.value=pred_train_RF, true.value=YTrain)# test error  
  6. RF_test_error <- calc_error_rate(predicted.value=pred_test_RF, true.value=YTest)records[4,] <- c(RF_training_error,RF_test_error) 

#5 支持向量機

同樣,我們遵循構建支持向量機的標準步驟。想大致了解該方法,請參閱此文:https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47。 

  1. set.seed(1)  
  2. tune.out=tune(svm, y ~., data=banking.train,  
  3. kernel=”radial”,ranges=list(cost=c(0.1,1,10)))# find the best parameters  
  4. summary(tune.out)$best.parameters# the best model  
  5. best_model = tune.out$best.modelsvm_fit=svm(y~., data=banking.train,kernel=”radial”,gamma=0.05555556,cost=1,probability=TRUE)# using training/test sets to predict outcome classes  
  6. svm_best_train = predict(svm_fit,banking.train,type=”class”)  
  7. svm_best_test = predict(svm_fit,banking.test,type=”class”)# training error  
  8. svm_training_error <- calc_error_rate(predicted.value=svm_best_train, true.value=YTrain)# test error  
  9. svm_test_error <- calc_error_rate(predicted.value=svm_best_test, true.value=YTest)records[5,] <- c(svm_training_error,svm_test_error) 

4. 模型度量指標

我們已構建了遵循模型選擇過程的所有機器學習模型,并獲得了訓練誤差和測試誤差。這一節將使用一些模型的度量指標選擇最佳模型。

4.1 訓練/測試誤差

可以使用訓練/測試誤差找到最佳模型嗎?

現在不妨看看結果。

records

圖2

這里,隨機森林的訓練誤差最小,不過其他方法有類似的測試誤差。你可能注意到,訓練誤差和測試誤差很接近,很難說清楚哪個明顯勝出。

此外,分類精度(無論是訓練誤差還是測試誤差)都不應該是高度不平衡數據集的度量指標。這是由于數據集以多數范例為主,即使隨機猜測也會得出50%的準確性。更糟糕的是,高度精確的模型可能嚴重“處罰”少數范例。因此,不妨查看另一個度量指標:ROC曲線。

4.2受試者工作特征(ROC)曲線

ROC是一種圖形表示,顯示分類模型在所有分類閾值下有怎樣的表現。我們更喜歡比其他分類器更快逼近1的分類器。

ROC曲線在同一個圖中繪制不同閾值下的兩個參數:真陽率(True Positive Rate)和假陽率(False Positive Rate)。

TPR (Recall) = TP/(TP+FN)

FPR = FP/(TN+FP)

圖3

在很大程度上,ROC曲線不僅衡量分類準確度,還在TPR和FPR之間達到了很好的平衡。這是罕見事件所需要的,因為我們還想在多數范例和少數范例之間達到平衡。 

  1. load the library  
  2. library(ROCR)#creating a tracking record  
  3. Area_Under_the_Curve = matrix(NA, nrow=5, ncol=1)  
  4. colnames(Area_Under_the_Curve) <- c(“AUC”)  
  5. rownames(Area_Under_the_Curve) <- c(“Logistic”,”Tree”,”KNN”,”Random Forests”,”SVM”)########### logistic regression ###########  
  6. # ROC  
  7. prob_test <- predict(glm.fit,banking.test,type=”response”)  
  8. pred_logit<- prediction(prob_test,banking.test$y)  
  9. performance_logit <- performance(pred_logit,measure = “tpr”, x.measure=”fpr”)########### Decision Tree ###########  
  10. # ROC  
  11. pred_DT<-predict(bank_tree.pruned, banking.test,type=”vector”)  
  12. pred_DT <- prediction(pred_DT[,2],banking.test$y)  
  13. performance_DT <- performance(pred_DT,measure = “tpr”,x.measure= “fpr”)########### KNN ###########  
  14. # ROC  
  15. knn_model = knn(train=XTrain, test=XTrain, cl=YTrain, k=20,prob=TRUE)prob <- attr(knn_model, “prob”)  
  16. prob <- 2*ifelse(knn_model == “-1”, prob,1-prob) — 1  
  17. pred_knn <- prediction(prob, YTrain)  
  18. performance_knn <- performance(pred_knn, “tpr”, “fpr”)########### Random Forests ###########  
  19. # ROC  
  20. pred_RF<-predict(RF_banking_train, banking.test,type=”prob”)  
  21. pred_class_RF <- prediction(pred_RF[,2],banking.test$y) 
  22. performance_RF <- performance(pred_class_RF,measure = “tpr”,x.measure= “fpr”)########### SVM ###########  
  23. # ROC  
  24. svm_fit_prob = predict(svm_fit,type=”prob”,newdata=banking.test,probability=TRUE)  
  25. svm_fit_prob_ROCR = prediction(attr(svm_fit_prob,”probabilities”)[,2],banking.test$y==”yes”)  
  26. performance_svm <- performance(svm_fit_prob_ROCR, “tpr”,”fpr”) 

不妨繪制ROC曲線。

我們添加一條直線,以顯示隨機分配的概率。我們的分類器其表現勝過隨機猜測,是不是? 

  1. #logit  
  2. plot(performance_logit,col=2,lwd=2,main=”ROC Curves for These Five Classification Methods”)legend(0.6, 0.6, c(‘logistic’, ‘Decision Tree’, ‘KNN’,’Random Forests’,’SVM’), 2:6)#decision tree  
  3. plot(performance_DT,col=3,lwd=2,add=TRUE)#knn  
  4. plot(performance_knn,col=4,lwd=2,add=TRUE)#RF  
  5. plot(performance_RF,col=5,lwd=2,add=TRUE)# SVM  
  6. plot(performance_svm,col=6,lwd=2,add=TRUE)abline(0,1) 

圖4

這里已分出勝負。

據ROC曲線顯示,KNN(藍色線)高于其他所有方法。

4.3 曲線下面積(AUC)

顧名思義,AUC是ROC曲線下的面積。它是直觀的AUC曲線的數學表示。AUC給出了分類器在可能的分類閾值下性能如何的合并結果。 

  1. ########### Logit ###########  
  2. auc_logit = performance(pred_logit, “auc”)@y.values  
  3. Area_Under_the_Curve[1,] <-c(as.numeric(auc_logit))########### Decision Tree ###########  
  4. auc_dt = performance(pred_DT,”auc”)@y.values  
  5. Area_Under_the_Curve[2,] <- c(as.numeric(auc_dt))########### KNN ###########  
  6. auc_knn <- performance(pred_knn,”auc”)@y.values  
  7. Area_Under_the_Curve[3,] <- c(as.numeric(auc_knn))########### Random Forests ###########  
  8. auc_RF = performance(pred_class_RF,”auc”)@y.values  
  9. Area_Under_the_Curve[4,] <- c(as.numeric(auc_RF))########### SVM ###########  
  10. auc_svm<-performance(svm_fit_prob_ROCR,”auc”)@y.values[[1]]  
  11. Area_Under_the_Curve[5,] <- c(as.numeric(auc_svm)) 

不妨查看AUC值。

Area_Under_the_Curve

圖5

此外,KNN擁有最大的AUC值(0.847)。

結束語

我們在本文中發現KNN這個非參數分類器的表現勝過參數分類器。就度量指標而言,為罕見事件選擇ROC曲線而非分類準確度來得更合理。

原文標題:Classify A Rare Event Using 5 Machine Learning Algorithms,作者:Leihua Ye 

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

 

責任編輯:龐桂玉 來源: 51CTO
相關推薦

2022-08-15 15:16:20

機器學習圖片深度學習

2022-06-05 21:16:08

機器學習Python

2017-12-12 13:17:36

機器學習代碼單元測試

2021-03-10 14:21:33

人工智能機器學習算法

2019-01-23 11:45:47

機器學習人工智能機器人

2023-11-28 12:08:56

機器學習算法人工智能

2024-04-25 16:01:17

機器學習人工智能

2022-06-09 09:14:31

機器學習PythonJava

2021-04-18 22:06:29

機器學習算法數據

2021-04-01 22:19:54

機器學習模型數據

2019-09-30 10:12:21

機器學習數據映射

2020-12-25 15:24:24

人工智能

2021-06-17 10:27:03

人工智能AI機器學習

2018-04-28 16:20:31

機器學習算法分發鏈路

2010-05-25 10:11:06

ubuntu Grub

2020-07-28 08:06:24

機器學習技術人工智能

2010-05-26 18:43:42

SVN庫

2020-04-27 09:52:03

預測銷售機器學習ML

2018-06-14 14:05:48

機器學習大數據卡通上色

2021-02-22 13:44:41

開發Python金融
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧产日产国产精品国产 | 婷婷色成人 | 久久tv在线观看 | 久久精品国产免费 | 色黄爽| 操久久 | 精品1区2区| 日韩一二三区视频 | 日韩久久综合网 | 久久久久久久av | 国产精品久久久久久福利一牛影视 | 亚洲一区二区精品 | 99视频入口 | 国产美女精品视频 | 99精品视频在线观看 | 亚洲免费网 | 麻豆成人在线视频 | 欧美 日韩 在线播放 | 国产aⅴ精品 | 欧美一级全黄 | 日韩中文字幕网 | 亚洲综合视频 | 日本三级全黄三级三级三级口周 | 精品欧美一区二区三区久久久 | 国产主播第一页 | 一区二区三区欧美在线观看 | 久久久久国产精品午夜一区 | 91视频在线 | 久草免费福利 | 黄色大片免费观看 | 国产精品美女在线观看 | 欧美一区二区三区视频 | 国内自拍第一页 | 青青草综合网 | 欧美日韩久久久 | 免费能直接在线观看黄的视频 | 日韩一二区 | 国产精品高潮呻吟久久久久 | 黄色毛片网站在线观看 | 日本天堂一区 | 欧美成ee人免费视频 |