成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

三招提升數據不平衡模型的性能(附python代碼)

大數據
針對數據不平衡問題有相應的處理辦法,比如對多數樣本進行采樣使得其樣本數量級與少樣本數相近,或者是對少數樣本重復使用等。最近恰好在面試中遇到一個數據不平衡問題,這也是面試中經常會出現的問題之一,現向讀者分享此次解決問題的心得。

對于深度學習而言,數據集非常重要,但在實際項目中,或多或少會碰見數據不平衡問題。什么是數據不平衡呢?舉例來說,現在有一個任務是判斷西瓜是否成熟,這是一個二分類問題——西瓜是生的還是熟的,該任務的數據集由兩部分數據組成,成熟西瓜與生西瓜,假設生西瓜的樣本數量遠遠大于成熟西瓜樣本的數量,針對這樣的數據集訓練出來的算法“偏向”于識別新樣本為生西瓜,存心讓你買不到甜的西瓜以解夏天之苦,這就是一個數據不平衡問題。

針對數據不平衡問題有相應的處理辦法,比如對多數樣本進行采樣使得其樣本數量級與少樣本數相近,或者是對少數樣本重復使用等。最近恰好在面試中遇到一個數據不平衡問題,這也是面試中經常會出現的問題之一,現向讀者分享此次解決問題的心得。

數據集

訓練數據中有三個標簽,分別標記為[1、2、3],這意味著該問題是一個多分類問題。訓練數據集有17個特征以及38829個獨立數據點。而在測試數據中,有16個沒有標簽的特征和16641個數據點。該訓練數據集非常不平衡,大部分數據是1類(95%),而2類和3類分別有3.0%和0.87%的數據,如下圖所示。

 

算法

經過初步觀察,決定采用隨機森林(RF)算法,因為它優于支持向量機、Xgboost以及LightGBM算法。在這個項目中選擇RF還有幾個原因:

  1. 機森林對過擬合具有很強的魯棒性;
  2. 參數化仍然非常直觀;
  3. 在這個項目中,有許多成功的用例將隨機森林算法用于高度不平衡的數據集;
  4. 個人有先前的算法實施經驗;

為了找到***參數,使用scikit-sklearn實現的GridSearchCV對指定的參數值執行網格搜索,更多細節可以在本人的Github上找到。

為了處理數據不平衡問題,使用了以下三種技術:

A.使用集成交叉驗證(CV):

在這個項目中,使用交叉驗證來驗證模型的魯棒性。整個數據集被分成五個子集。在每個交叉驗證中,使用其中的四個子集用于訓練,剩余的子集用于驗證模型,此外模型還對測試數據進行了預測。在交叉驗證結束時,會得到五個測試預測概率。***,對所有類別的概率取平均值。模型的訓練表現穩定,每個交叉驗證上具有穩定的召回率和f1分數。這項技術也幫助我在Kaggle比賽中取得了很好的成績(前1%)。以下部分代碼片段顯示了集成交叉驗證的實現:

 

B.設置類別權重/重要性:

代價敏感學習是使隨機森林更適合從非常不平衡的數據中學習的方法之一。隨機森林有傾向于偏向大多數類別。因此,對少數群體錯誤分類施加昂貴的懲罰可能是有作用的。由于這種技術可以改善模型性能,所以我給少數群體分配了很高的權重(即更高的錯誤分類成本)。然后將類別權重合并到隨機森林算法中。我根據類別1中數據集的數量與其它數據集的數量之間的比率來確定類別權重。例如,類別1和類別3數據集的數目之間的比率約為110,而類別1和類別2的比例約為26。現在我稍微對數量進行修改以改善模型的性能,以下代碼片段顯示了不同類權重的實現:

 

C.過大預測標簽而不是過小預測(Over-Predict a Label than Under-Predict):

這項技術是可選的,通過實踐發現,這種方法對提高少數類別的表現非常有效。簡而言之,如果將模型錯誤分類為類別3,則該技術能***限度地懲罰該模型,對于類別2和類別1懲罰力度稍差一些。 為了實施該方法,我改變了每個類別的概率閾值,將類別3、類別2和類別1的概率設置為遞增順序(即,P3= 0.25,P2= 0.35,P1= 0.50),以便模型被迫過度預測類別。該算法的詳細實現可以在Github上找到。

最終結果

以下結果表明,上述三種技術如何幫助改善模型性能:

1.使用集成交叉驗證的結果:

 

2.使用集成交叉驗證+類別權重的結果:

 

3.使用集成交叉驗證+類別權重+過大預測標簽的結果:

 

結論

由于在實施過大預測技術方面的經驗很少,因此最初的時候處理起來非常棘手。但是,研究該問題有助于提升我解決問題的能力。對于每個任務而言,起初可能確實是陌生的,這個時候不要害怕,一次次嘗試就好。由于時間的限制(48小時),無法將精力分散于模型的微調以及特征工程,存在改進的地方還有很多,比如刪除不必要的功能并添加一些額外功能。此外,也嘗試過LightGBM和XgBoost算法,但在實踐過程中發現,隨機森林的效果優于這兩個算法。在后面的研究中,可以進一步嘗試一些其他算法,比如神經網絡、稀疏編碼等。

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2021-01-04 10:40:37

Python不平衡數據機器學習

2018-09-11 13:47:35

數據不平衡數據分布數據集

2016-12-13 11:48:05

數據處理不平衡數據

2023-09-29 22:51:22

數據不平衡Python機器學習

2018-04-20 11:33:22

不平衡數據數據集模型

2023-12-26 15:32:25

不平衡數據過采樣機器學習

2019-02-25 08:35:22

機器學習數據模型

2017-03-28 09:40:23

機器學習數據不平衡

2017-06-16 22:14:45

機器學習數據不平衡

2021-06-06 22:41:30

人才技術預測不平衡

2024-10-18 07:10:43

2020-09-21 09:02:56

AI機器學習類不平衡

2025-01-20 09:00:00

2020-10-06 10:44:16

機器學習不平衡數據算法

2022-05-06 09:48:56

機器學習樣本不平衡

2019-03-27 08:51:38

機器學習類失衡算法

2016-09-07 13:26:25

R語言不平衡數據

2017-03-20 09:25:10

機器學習采樣數據合成

2019-10-28 13:57:54

Windows 10Windows電腦性能

2018-05-14 10:43:53

平衡數據數據分析Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产区免费视频 | 国产免费观看久久黄av片涩av | 精品欧美一区二区久久久伦 | 国产精品久久久久久久久久 | 国产精成人 | 91超碰在线观看 | 国产视频三级 | 成人黄色在线 | 日韩三级电影一区二区 | 久久国产精品一区二区 | 亚洲永久入口 | 亚洲综合一区二区三区 | 亚洲欧美日韩中文字幕一区二区三区 | 亚洲狠狠 | av日韩在线播放 | 日本韩国欧美在线观看 | 日韩毛片播放 | 中文字幕在线免费视频 | 亚洲一区二区三区在线 | 久久久久久一区 | 免费看啪啪网站 | 在线观看av网站永久 | 一级黄色av电影 | 国产精品久久久久久久久久久久午夜片 | 午夜视频免费在线观看 | av在线免费观看网址 | 美国黄色毛片 | 精品一区二区三区在线观看 | 亚洲精品国产精品国自产在线 | 999免费网站 | 91 在线| 亚洲一区二区视频 | 激情av在线 | 夜夜爽99久久国产综合精品女不卡 | 99成人精品 | 福利国产| 日韩在线欧美 | 视频在线日韩 | 欧美涩| 久久久久国产视频 | www.亚洲|