成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不平衡數據的數據處理方法

大數據
在機器學習中,不平衡數據是常見場景。不平衡數據一般指正樣本數量遠遠小于負樣本數量。如果數據不平衡,那么分類器總是預測比例較大的類別,就能使得準確率達到很高的水平。比如正樣本的比例為 1%,負樣本的比例為 99%。這時候分類器不需要經過訓練,直接預測所有樣本為負樣本,準確率能夠達到 99%。經過訓練的分類器反而可能沒有辦法達到99%。

在機器學習中,不平衡數據是常見場景。不平衡數據一般指正樣本數量遠遠小于負樣本數量。如果數據不平衡,那么分類器總是預測比例較大的類別,就能使得準確率達到很高的水平。比如正樣本的比例為 1%,負樣本的比例為 99%。這時候分類器不需要經過訓練,直接預測所有樣本為負樣本,準確率能夠達到 99%。經過訓練的分類器反而可能沒有辦法達到99%。

不平衡數據的數據處理方法

對于不平衡數據的分類,為了解決上述準確率失真的問題,我們要換用 F 值取代準確率作為評價指標。用不平衡數據訓練,召回率很低導致 F 值也很低。這時候有兩種不同的方法。***種方法是修改訓練算法,使之能夠適應不平衡數據。著名的代價敏感學習就是這種方法。另一種方法是操作數據,人為改變正負樣本的比率。本文主要介紹數據操作方法。

1. 欠抽樣方法

欠抽樣方法是針對多數的負樣本,減少負樣本的數量,反而提高整體 F 值。最簡單的欠抽樣方法是隨機地刪掉一些負樣本。欠抽樣的缺點很明顯,就是會丟失負樣本的一些重要信息,不能夠充分利用已有的信息。

2. 過抽樣方法

欠抽樣方法是針對少數的正樣本,減少正樣本的數量,從而提高整體 F 值。最簡單的過抽樣方法是簡單地復制一些正樣本。過抽樣的缺點是沒有給正樣本增加任何新的信息。過抽樣方法對 SVM 算法是無效的。因為 SVM 算法是找支持向量,復制正樣本并不能改變數據的支持向量。

不平衡數據的數據處理方法

改進的過抽樣方法則采用加入隨機高斯噪聲或產生新的合成樣本等方法。根據不同的數據類型,我們可以設計很巧妙的過抽樣方法。有 博客 在識別交通信號問題上就提出了一個新穎的方法。交通信號處理識別是輸入交通信號的圖片,輸出交通信號。我們可以通過變換交通信號圖片的角度等方法,生成新的交通信號圖片,如下所示。

不平衡數據的數據處理方法

3. SMOTE

Synthetic Minority Over-sampling Technique (SMOTE) 算法是一個最有名的過抽樣的改進。SMOTE 是為了解決針對原始過抽樣方法不能給正樣本增加新信息的問題。算法的思想是合成新的少數類樣本,合成的策略是對每個少數類樣本a,從它的最近鄰中隨機選一個樣本b,然后在a、b之間的連線上隨機選一點作為新合成的少數類樣本。

不平衡數據的數據處理方法

4. 總結

從理論上來說,SMOTE 方法要優于過抽樣方法,過抽樣方法要優于欠抽樣方法。但是很多工業界場景,我們反而采用欠抽樣方法。工業界數據量大,即使正樣本占比小,數據量也足夠訓練出一個模型。這時候我們采用欠抽樣方法的主要目的是提高模型訓練效率。總之一句話就是,有數據任性。。

責任編輯:未麗燕 來源: AlgorithmDog
相關推薦

2021-01-04 10:40:37

Python不平衡數據機器學習

2018-04-20 11:33:22

不平衡數據數據集模型

2023-09-29 22:51:22

數據不平衡Python機器學習

2018-09-11 13:47:35

數據不平衡數據分布數據集

2019-02-25 08:35:22

機器學習數據模型

2023-12-26 15:32:25

不平衡數據過采樣機器學習

2024-10-18 07:10:43

2016-09-07 13:26:25

R語言不平衡數據

2020-10-06 10:44:16

機器學習不平衡數據算法

2017-03-28 09:40:23

機器學習數據不平衡

2017-06-16 22:14:45

機器學習數據不平衡

2018-06-11 16:20:22

數據不平衡數據集算法

2019-03-27 08:51:38

機器學習類失衡算法

2017-03-20 09:25:10

機器學習采樣數據合成

2021-06-06 22:41:30

人才技術預測不平衡

2020-09-21 09:02:56

AI機器學習類不平衡

2025-01-20 09:00:00

2022-05-06 09:48:56

機器學習樣本不平衡

2017-07-21 14:22:17

大數據大數據平臺數據處理

2013-04-23 11:17:47

Hadoop
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日皮视频免费 | 亚洲乱码一区二区三区在线观看 | 久久久久国产精品人 | 精品国产乱码久久久久久牛牛 | 日韩欧美在线视频播放 | 国产在线不卡视频 | 成人午夜精品 | 国产一区 | 亚洲欧美精品在线观看 | 国产精品精品视频一区二区三区 | 天天干狠狠干 | 成人黄色a | 成人一区二区三区在线观看 | 祝你幸福电影在线观看 | 91精品国产乱码久久久久久久久 | 国产精品国产三级国产aⅴ原创 | 91精品久久久 | 久久精品99 | 午夜欧美一区二区三区在线播放 | 亚洲字幕在线观看 | 国产精品久久久久久久久久久免费看 | 欧美成人综合 | 精国产品一区二区三区四季综 | 亚洲中字在线 | 91视频麻豆| 欧美一区二区三区在线免费观看 | 一级欧美一级日韩片 | 欧美一区二区三区视频 | 欧美日韩在线精品 | 亚洲麻豆| 激情黄色在线观看 | 久久久久久国产免费视网址 | 337p日本欧洲亚洲大胆 | 亚洲免费网| 久操av在线 | 日本欧美黄色片 | 中文字幕在线观看视频一区 | 久久久www成人免费无遮挡大片 | 欧美日韩精品影院 | 欧美啊v在线观看 | 国产真实精品久久二三区 |