成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python中三個不常見但是非常有用的數據科學庫

開發 后端 大數據
如果你從事數據科學研究有一段時間了,那么pandas, scikit-learn seaborn和matplotlib這些庫你都應該非常的熟悉。

 介紹

如果你從事數據科學研究有一段時間了,那么pandas, scikit-learn seaborn和matplotlib這些庫你都應該非常的熟悉。

[[418006]]

如果您想要擴展您的視野,學習一些更少見但同樣有用的庫。在本文中,我將向您展示一些不太為人所知的但是卻非常好用的python庫。

imbalanced-learn

如果你過去一直在構建一些有監督的機器學習模型,你就會知道目標變量中的類別不平衡可能是一個大問題。這是因為在少數類中沒有足夠的例子來讓算法學習模式。

一個解決方案是創建一些合成樣本,通過使用例如SMOTE(合成少數群體過采樣技術)來增加少數群體類的學習。

幸運的是,imbalance-learn庫將幫助您在任何不平衡數據集上實現這一技術。

您可以通過在終端上執行以下命令來安裝imbalance-learn庫。 

  1. pip install imbalanced-learn 

為了演示如何平衡數據集,我們將使用sklearn下載乳腺癌數據集。 

  1. from sklearn.datasets import load_breast_cancer 
  2. import pandas as pddata = load_breast_cancer() 
  3. df = pd.DataFrame(data.data, columns=[data.feature_names]) 
  4. df[‘target’] = data[‘target’] 
  5. df.head() 

 python中三個不常見但是非常有用的數據科學庫

 下面看目標變量的分布。 

  1. df.target.value_counts()  
python中三個不常見但是非常有用的數據科學庫

數據集確實是均勻分布的,盡管它不是非常不平衡:我們有357名乳腺癌患者和212名健康患者。

我們看看能不能讓它更平衡一點。我們將使用SMOTE對0類進行過采樣。 

  1. from imblearn.over_sampling import SMOTE 
  2. oversample = SMOTE() 
  3. X_oversample, y_oversample = oversample.fit_resample(data.data, data.target) 
  4. pd.Series(y_oversample).value_counts() 

如你所見,數據集現在已經完全平衡了。每個類有357個實例。作為我們操作的結果,創建了145個人工實例。

statsmodels

這是另一個很棒的庫,專門用來建立統計模型。我通常用它來擬合線性回歸

它真的很容易使用,你可以馬上得到很多關于模型的信息,比如R2 BIC、AIC、置信度和它們相應的p值。當使用scikit-learn的線性回歸時,這些信息更難以獲取。

讓我們看看如何使用這個庫來適應線性回歸模型。讓我們先下載一個波士頓房價數據集。 

  1. from sklearn.datasets import load_boston 
  2. import pandas as pd 
  3. data = load_boston() 
  4. df = pd.DataFrame(data.data, columns=[data.feature_names]) 
  5. df[‘target’] = data[‘target’] 
  6. df.head()  
python中三個不常見但是非常有用的數據科學庫

上面是我們的數據集的前五行。有13個特征,我們可以看到一個目標變量是一個連續的數字。這是一個完美的回歸數據集。

現在讓我們使用pip安裝統計模型庫 

  1. pip install statsmodels 

現在,我們可以使用以下代碼嘗試將線性回歸模型與我們的數據相匹配。 

  1. import statsmodels.api as sm 
  2. X = sm.add_constant(df.drop(columns=[‘target’])) # adding a constant 
  3. model = sm.OLS(df.target, X).fit() 
  4. predictions = model.predict(X) 
  5. print_model = model.summary() 
  6. print(print_model)   
python中三個不常見但是非常有用的數據科學庫

我們剛剛將一個線性回歸模型擬合到這個數據集上,并打印出了該模型的詳細摘要。您可以很容易地閱讀所有重要信息,在必要時重新調整功能,并重新運行模型。

我發現與scikit-learn版本相比,使用statsmodels進行回歸更容易,因為我需要的所有信息都在這個簡短的報告中。

missingno

missingno是另一個有用的庫。它可以幫助您可視化缺失值的分布。

您可能已經習慣使用isnull()函數檢查pandas中的缺失值。這可以幫助您獲取每列缺失值的數量,但不能幫助您確定它們的位置。這正是missingo變得有用的時候。

你可以使用下面的命令安裝庫: 

  1. pip install missingno 

現在,讓我們演示如何使用missingo來可視化缺失的數據。為了做到這一點,我們將從Kaggle下載預期壽命數據集。

然后可以使用read_csv()函數加載數據集,然后從missingno庫調用matrix()函數。 

  1. import pandas as pd 
  2. import missingno as msno 
  3. df = pd.read_csv(‘Life Expectancy Data.csv’) 
  4. msno.matrix(df) 
python中三個不常見但是非常有用的數據科學庫

可以看到缺失值的位置。如果懷疑丟失的值位于某個特定位置或遵循某個特定模式,那么它將非常有用。

總結

以上三個庫非常的有用,通過使用它們可以簡化我們的操作,提高我們的工作效率。

 

責任編輯:華軒 來源: 今日頭條
相關推薦

2021-10-21 22:03:00

PythonNumpy函數

2010-07-30 09:07:12

PHP函數

2011-07-05 11:24:52

SQL語句索引

2009-03-24 14:23:59

PHP類庫PHP開發PHP

2020-10-29 10:00:55

Python函數文件

2021-07-06 11:25:20

Chrome前端代碼

2025-02-26 11:05:03

2021-10-30 18:59:15

Python

2023-02-19 15:22:22

React技巧

2011-07-07 17:16:43

PHP

2017-08-02 13:32:18

編程Java程序片段

2022-06-27 19:01:04

Python應用程序數據

2012-04-17 09:44:08

JavaScript

2019-10-18 09:25:45

Python蘋果公司算法

2016-12-14 20:53:04

Linuxgcc命令行

2016-12-14 19:19:19

Linuxgcc命令行

2012-05-25 14:20:08

JavaScript

2018-08-03 10:02:05

Linux命令

2023-06-13 15:15:02

JavaScript前端編程語言

2022-09-02 23:08:04

JavaScript技巧開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99久久中文字幕三级久久日本 | 亚洲看片网站 | 国产亚洲精品久久久久久牛牛 | 日本一级淫片免费啪啪3 | 91久久国产综合久久 | 国产极品粉嫩美女呻吟在线看人 | 欧美综合久久 | 国产九九九九 | 婷婷开心激情综合五月天 | www.久久| 久久久久久久久久久久久91 | 欧美激情精品久久久久久变态 | 草樱av | 成人一区二区三区在线 | 国产精品视频一二三区 | 欧美久久一区二区三区 | 久久成人av| 黄色av免费| 久久久精品网站 | 另类在线 | 2022国产精品 | 精品在线一区二区三区 | 午夜久久久| 亚洲最大福利网 | 999热精品视频 | 伦理午夜电影免费观看 | 欧美在线a | 成人福利网站 | 一区二区三区精品视频 | 97影院2 | 久久一二 | 精品视频在线播放 | 国产日批| 欧美国产日韩在线 | 国产精品久久久久久久久久久免费看 | 亚洲黄色视屏 | 日本视频在线播放 | 亚洲国产成人精品女人久久久 | 三级国产三级在线 | 日韩中文字幕视频 | 成人国产免费视频 |