成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

海量樣本無(wú)從下手?五種抽樣算法分分鐘搞定

大數(shù)據(jù) 數(shù)據(jù)分析 算法
數(shù)據(jù)科學(xué)是研究算法的學(xué)科。本文介紹了一些常見的用于處理數(shù)據(jù)的抽樣技術(shù)。

數(shù)據(jù)科學(xué)是研究算法的學(xué)科。本文介紹了一些常見的用于處理數(shù)據(jù)的抽樣技術(shù)。

[[274956]]

1. 簡(jiǎn)單隨機(jī)抽樣

假設(shè)要從一個(gè)群體中選出一個(gè)集合,該集合中的每個(gè)成員選中的概率相等。

下列代碼演示了如何從數(shù)據(jù)集中選擇100個(gè)采樣點(diǎn)。

  1. sample_df = df.sample(100) 

2. 分層抽樣

[[274957]]

假設(shè)需要估計(jì)選舉中每個(gè)候選人的平均票數(shù)。并且假設(shè)該國(guó)有3個(gè)城鎮(zhèn):

A鎮(zhèn)有100萬(wàn)名工人,B鎮(zhèn)有200萬(wàn)名工人,C鎮(zhèn)有300萬(wàn)名退休人員。

在所有選民中抽取60個(gè)隨機(jī)樣本,但隨機(jī)樣本有可能不能很好地與這些城鎮(zhèn)的特征相適應(yīng),因此會(huì)產(chǎn)生數(shù)據(jù)偏差,從而導(dǎo)致估算結(jié)果出現(xiàn)重大錯(cuò)誤。

相反,如果分別從A,B和C鎮(zhèn)抽取10,20和30個(gè)隨機(jī)樣本,那么,在相同的樣本數(shù)的情況下,用該種方法估算的結(jié)果誤差較小。

使用python可以很容易地做到這一點(diǎn):

  1. from sklearn.model_selection import train_test_split 
  2. X_train, X_test, y_train, y_test = train_test_split(X, y, 
  3.                                                     stratify=y,  
  4.                                                     test_size=0.25) 

3. 水塘抽樣

[[274958]]

假設(shè)有未知數(shù)量的大項(xiàng)目流,并且只供迭代一次。數(shù)據(jù)科學(xué)家可以創(chuàng)建一個(gè)算法,從項(xiàng)目流中隨機(jī)選擇一個(gè)項(xiàng)目以使每個(gè)項(xiàng)目抽中的概率相等。如何實(shí)現(xiàn)這一步驟?

假設(shè)必須從無(wú)限大的項(xiàng)目流中抽取5個(gè)對(duì)象,這樣每個(gè)對(duì)象被抽中的概率都相等。

  1. import randomdef generator(max): 
  2.  
  3.     number = 1 
  4.     while number < max: 
  5.         number += 1 
  6.         yield number 
  7.  
  8. # Create as stream generator 
  9. stream = generator(10000) 
  10.  
  11. # Doing Reservoir Sampling from the stream 
  12. k=5 
  13. reservoir = [] 
  14. for i, element in enumerate(stream): 
  15.     if i+1<= k: 
  16.         reservoir.append(element) 
  17.     else: 
  18.         probability = k/(i+1) 
  19.         if random.random() < probability: 
  20.             # Select item in stream and remove one of the k items already selected 
  21.              reservoir[random.choice(range(0,k))] = element 
  22.  
  23. print(reservoir) 
  24. ------------------------------------ 
  25. [1369, 4108, 9986, 828, 5589] 

從數(shù)學(xué)上可以證明,在樣本中,每個(gè)元素從項(xiàng)目流中被抽中的概率相等。

怎么做呢?

涉及到數(shù)學(xué)時(shí),從小的問題著手總是有用的。

所以,假設(shè)要從一個(gè)只有3個(gè)項(xiàng)目的數(shù)據(jù)流中抽出其中2個(gè)。

由于水塘空間充足,可將項(xiàng)目1放入列表,同理,由于水塘空間仍然充足,可將項(xiàng)目2也放入列表。

再看項(xiàng)目3。事情就變得有趣了,項(xiàng)目3被抽中的概率為2/3.

現(xiàn)在來(lái)看看項(xiàng)目1被抽中的概率:

項(xiàng)目1被抽中的概率等于項(xiàng)目3被抽中的概率乘以項(xiàng)目1被隨機(jī)選為數(shù)據(jù)流中其他兩個(gè)項(xiàng)目的候補(bǔ)的概率,即:

  1. 2/3*1/2 = 1/3 

因此,抽中項(xiàng)目1的概率為:

  1. 1–1/3 = 2/3 

數(shù)據(jù)科學(xué)家可以對(duì)項(xiàng)目2使用完全相同的參數(shù),并且將該參數(shù)運(yùn)用于數(shù)據(jù)流中的其他更多項(xiàng)目。

因此,每個(gè)項(xiàng)目被抽中的概率相同:2/3或一般式k/n

4. 隨機(jī)欠采樣和過采樣

事實(shí)上,不均衡數(shù)據(jù)集十分常見。

重抽樣是一種廣泛用于處理極度不均衡數(shù)據(jù)集的技術(shù)。它指從多數(shù)類樣本中排除部分樣本(欠采樣)和/或從少數(shù)類樣本中添加更多樣本(過采樣)。

首先,創(chuàng)建一些不均衡數(shù)據(jù)的示例。

  1. from sklearn.datasets import make_classification 
  2.  
  3. X, y = make_classification
  4.     n_classes=2class_sep=1.5, weights=[0.9, 0.1], 
  5.     n_informative=3n_redundant=1flip_y=0
  6.     n_features=20n_clusters_per_class=1
  7.     n_samples=100random_state=10 
  8.  
  9. X = pd.DataFrame(X) 
  10. X['target'] = y 

現(xiàn)可以使用以下方法進(jìn)行隨機(jī)過采樣和欠采樣:

  1. num_0 = len(X[X['target']==0]) 
  2. num_1 = len(X[X['target']==1]) 
  3. print(num_0,num_1) 
  4.  
  5. # random undersample 
  6.  
  7. undersampled_data = pd.concat([ X[X['target']==0].sample(num_1) , X[X['target']==1] ]) 
  8. print(len(undersampled_data)) 
  9.  
  10. # random oversample 
  11.  
  12. oversampled_data = pd.concat([ X[X['target']==0] , X[X['target']==1].sample(num_0, replace=True) ]) 
  13. print(len(oversampled_data)) 
  14.  
  15. ------------------------------------------------------------ 
  16. OUTPUT: 
  17. 90 10 
  18. 20 
  19. 180 

5. 使用Imbalanced-learn進(jìn)行欠采樣和過采樣

Imbalanced-learn(imblearn)是一個(gè)解決不均衡數(shù)據(jù)集的Python語(yǔ)言包。

可提供多種方法進(jìn)行欠采樣和過采樣。

(1) 使用Tomek Links進(jìn)行欠采樣:

Imbalanced-learn提供的方法之一是Tomek Links,指的是在兩個(gè)不同類的樣本中最近鄰的對(duì)方。

在這個(gè)算法中,最終要將多數(shù)類樣本從Tomek Links中移除,這為分類器提供了一個(gè)更好的決策邊界。

  1. from imblearn.under_sampling import TomekLinks 
  2.  
  3. tl = TomekLinks(return_indices=Trueratio='majority'
  4. X_tl, y_tl, id_tl = tl.fit_sample(X, y) 

(2) 使用SMOTE算法進(jìn)行過采樣

SMOTE算法(合成少數(shù)類過采樣技術(shù)),即在已有的樣本最近鄰中,為少數(shù)類樣本人工合成新樣本。

  1. from imblearn.over_sampling import SMOTE 
  2.  
  3. smote = SMOTE(ratio='minority'
  4. X_sm, y_sm = smote.fit_sample(X, y) 

Imblearn包中還有許多其他方法可用于欠采樣(Cluster Centroids,NearMiss等)和過采樣(ADASYN和bSMOTE)。

結(jié)語(yǔ)

算法是數(shù)據(jù)科學(xué)的生命線。

抽樣是數(shù)據(jù)科學(xué)中的一個(gè)重要課題。一個(gè)好的抽樣策略有時(shí)可以推動(dòng)整個(gè)項(xiàng)目發(fā)展。而錯(cuò)誤的抽樣策略可能會(huì)帶來(lái)錯(cuò)誤的結(jié)果。因此,應(yīng)當(dāng)謹(jǐn)慎選擇抽樣策略。

 

責(zé)任編輯:趙寧寧 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2018-06-14 09:53:07

移動(dòng)端優(yōu)化蘇寧

2016-01-22 11:40:07

2010-09-06 11:32:48

無(wú)線上網(wǎng)設(shè)置

2012-03-16 17:19:28

2024-07-15 09:08:51

源碼debug根節(jié)點(diǎn)

2022-12-13 10:05:27

定時(shí)任務(wù)任務(wù)調(diào)度操作系統(tǒng)

2015-03-05 10:43:24

阿里云Azure遷移

2022-08-12 10:41:57

接口性能優(yōu)化

2010-08-25 09:46:05

無(wú)線網(wǎng)絡(luò)訪問故障

2010-09-09 10:11:11

無(wú)線網(wǎng)絡(luò)故障

2021-03-23 09:06:34

下載神器文件下載插件

2011-08-22 12:24:58

nagios

2021-07-08 06:30:03

Linux CPULinux 系統(tǒng)

2017-04-13 12:59:43

數(shù)據(jù)分析

2010-08-31 10:22:20

無(wú)線網(wǎng)絡(luò)訪問故障

2020-06-08 09:11:47

Linux 內(nèi)核Linux內(nèi)核

2021-10-20 20:24:53

辦公

2011-08-16 09:55:37

Juniper Ex系

2021-12-01 06:50:50

Docker底層原理

2020-12-18 17:06:50

Windows工具開源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美人妖网站 | 亚洲国产一区二区三区 | 亚洲精品一区二区网址 | 1级黄色大片 | 九九热这里只有精品在线观看 | 日韩欧美日韩在线 | 我要看黄色录像一级片 | 成人三级av | 欧美成人在线网站 | 日韩免费视频 | 农夫在线精品视频免费观看 | 久操国产 | 成人av网站在线观看 | 成人欧美一区二区三区在线播放 | 爱草在线 | 日韩中文字幕第一页 | 国产乱码精品一品二品 | 国产精品区二区三区日本 | 一级一级毛片免费看 | 麻豆一区二区三区精品视频 | 一级欧美一级日韩片免费观看 | 欧美久久国产 | 羞视频在线观看 | 国产探花在线观看视频 | 国产精品久久精品 | 狠狠狠色丁香婷婷综合久久五月 | 国产一级影片 | 亚洲天堂男人的天堂 | 成人免费一级视频 | 91一区二区三区在线观看 | 久久99视频精品 | 日本中文字幕在线观看 | 中文字幕高清在线 | 国产一区二区 | 中文字幕亚洲一区二区三区 | 精品91久久| 国产精品久久久久久久久久久久久 | 成人在线精品视频 | 黄色片视频免费 | 欧美天堂一区 | 91麻豆产精品久久久久久 |