成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python數(shù)據(jù)分析:探索性分析

大數(shù)據(jù) 數(shù)據(jù)分析
Excel里可以用【數(shù)據(jù)分析】功能里的【描述統(tǒng)計】功能來查看數(shù)據(jù)集常用的統(tǒng)計指標(biāo),但這里只能是對數(shù)值型的數(shù)據(jù)進(jìn)行統(tǒng)計。

一、描述性統(tǒng)計分析

Excel里可以用【數(shù)據(jù)分析】功能里的【描述統(tǒng)計】功能來查看數(shù)據(jù)集常用的統(tǒng)計指標(biāo),但這里只能是對數(shù)值型的數(shù)據(jù)進(jìn)行統(tǒng)計。

 

Python數(shù)據(jù)分析:探索性分析

pandas里可以用describe方法對整個數(shù)據(jù)集做一個描述性統(tǒng)計分析,當(dāng)然這里也只是對數(shù)值型數(shù)據(jù)才可以出結(jié)果,非數(shù)值型數(shù)據(jù)不在統(tǒng)計范圍內(nèi)。

  1. # 描述性統(tǒng)計分析 
  2. df_list.describe() 

得到結(jié)果如下,可以看到count(計數(shù))、mean(均值)、std(標(biāo)準(zhǔn)差)、min(最小值)、max(最大值)、25%、50%、75%分別表示3/4位數(shù)、中位數(shù)和1/4位數(shù)。

 

Python數(shù)據(jù)分析:探索性分析

行列轉(zhuǎn)置

由于字段太多了,所以這里可以轉(zhuǎn)置一下,方便查看,用.T轉(zhuǎn)置

  1. # 行列轉(zhuǎn)置 
  2. df_list.describe().T 

結(jié)果如圖,更符合一個表格的習(xí)慣,可以看到能夠被統(tǒng)計出來的只有數(shù)值型數(shù)據(jù),字符型的數(shù)據(jù)是統(tǒng)計不出來的。

 

Python數(shù)據(jù)分析:探索性分析

觀察到最小入住天數(shù)(minimum_nights)這個字段最小值、1/4位數(shù)、中位數(shù)、3/4位數(shù)都是1,說明大部分房源對最小入住天數(shù)的要求都是1天。同樣的結(jié)論適用于每月評論數(shù)(reviews_per_month)這個字段。

二、分組分析

Excel里用數(shù)據(jù)透視表可以實現(xiàn)數(shù)據(jù)分組計算的功能。

 

Python數(shù)據(jù)分析:探索性分析

看下neighborhood_new字段都有哪些值,用value_counts方法對出現(xiàn)次數(shù)計數(shù)

  1. # 數(shù)值計數(shù) 
  2. df_list["neighborhood_new"].value_counts() 

結(jié)果可以看到neighborhood_new字段下總共有多少個區(qū)縣分類及其出現(xiàn)的次數(shù)按降序排列下來了,可以看到朝陽區(qū)的房源最多,平谷區(qū)的房源最少。

 

Python數(shù)據(jù)分析:探索性分析

還可以用groupby方法實現(xiàn)分組計數(shù)

  1. # 分組 
  2. df_list.groupby("neighborhood_new")["neighborhood_new"].count() 

得到的結(jié)果是一樣的

 

Python數(shù)據(jù)分析:探索性分析

對room_type_new一列也可以分組看下結(jié)果

  1. df_list["room_type_new"].value_counts() 

可以看到房間類型上有3種分類,整套房源(Entire home)最多,合租型的房源(Shared room)最少。

 

Python數(shù)據(jù)分析:探索性分析

三、交叉分析

對區(qū)域分組,統(tǒng)計不同區(qū)域房價的水平,同樣用groupby方法分組,但是可以用agg方法一次使用多種匯總方式。

  1. df_list.groupby("neighborhood_new")["price"].agg(["max","min","mean","count"]) 

結(jié)果如圖,對neighborhood_new字段分組,對分組后的價格求最大最小平均值并計數(shù),可以看到懷柔區(qū)的房價平均值最高,豐臺區(qū)最低。

 

Python數(shù)據(jù)分析:探索性分析

對房間類型分組,并將結(jié)果按均值降序排列

  1. r_p = df_list.groupby("room_type_new")["price"].agg(["max","min","mean","count"]).reset_index() 
  2. r_p.sort_values("mean",ascending = False

結(jié)果如圖,整租的房價均值最高,合租最低,很合理的結(jié)果。

 

Python數(shù)據(jù)分析:探索性分析

透視

對房間類型和區(qū)域做一個透視,使用pivot_table方法,和Excel里的數(shù)據(jù)透視表是一種類型的操作,第一個參數(shù)是要透視的數(shù)據(jù),values參數(shù)是Excel透視表中的值區(qū)域,即要進(jìn)行匯總的字段,index參數(shù)是Excel透視表中的行區(qū)域,columns參數(shù)是列區(qū)域,aggfuc參數(shù)是要對values進(jìn)行匯總的類型。

  1. pd.pivot_table(df_list,values = "price",index = "neighborhood_new"
  2.                 columns = "room_type_new",aggfunc = "mean",margins = True

結(jié)果如圖,可以看到整租、合租、單間在各個區(qū)域中的價格分布。

 

Python數(shù)據(jù)分析:探索性分析

四、相關(guān)性分析

相關(guān)性分析是用來描述變量之間相關(guān)關(guān)系的結(jié)果,用相關(guān)系數(shù)r來表示,r>0表示正相關(guān),r<0表示負(fù)相關(guān),r的絕對值越接近1,表示越高度相關(guān)。Excel里用【數(shù)據(jù)分析】工具里的【相關(guān)系數(shù)】功能可以直接計算出各個字段的相關(guān)系數(shù)。

 

Python數(shù)據(jù)分析:探索性分析

python里可以用corr函數(shù)計算數(shù)據(jù)間的相關(guān)系數(shù),對整個數(shù)據(jù)表計算,并對結(jié)果取小數(shù)點(diǎn)后4位

  1. # 計算相關(guān)系數(shù) 
  2. df_list.corr().round(4) 

結(jié)果如下,就可以得到各個列之間的相關(guān)系數(shù)。

 

Python數(shù)據(jù)分析:探索性分析

但是這里我們其實最關(guān)注的是他們同價格之間的相關(guān)性,也就是圖中標(biāo)紅的部分,可以對這列的數(shù)值排個序。

 

Python數(shù)據(jù)分析:探索性分析
數(shù)值排序

數(shù)值排序就是讓整個數(shù)據(jù)表按照指定列升序或降序排列,用到sort_values方法。對求完相關(guān)系數(shù)后的數(shù)據(jù)框選擇其price列進(jìn)行降序,第一個參數(shù)是對哪一列進(jìn)行排序,第二個參數(shù)ascending = False是降序排列,默認(rèn)是True升序。

  1. # 數(shù)值排序 
  2. corr_p = df_list.corr().round(4) 
  3. corr_p["price"].sort_values(ascending = False

結(jié)果如下,可以看到,房價和經(jīng)緯度(latitude、longitude)的相關(guān)性是最高的,除此以外相比其他變量,可預(yù)定天數(shù)(availability_365)和價格最正相關(guān)的,其次每月評論數(shù)量(reviews_per_month)和價格呈負(fù)相關(guān)。

 

Python數(shù)據(jù)分析:探索性分析

 

 

責(zé)任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2020-10-28 18:28:12

Pandas數(shù)據(jù)分析GUI

2022-11-11 11:35:14

2024-07-30 12:10:22

2024-06-12 11:57:51

2023-12-22 09:14:48

EDA數(shù)據(jù)分析探索性數(shù)據(jù)分析

2024-05-21 13:33:49

2016-10-11 15:32:26

探索性大數(shù)據(jù)

2020-08-18 13:30:01

Python命令數(shù)據(jù)分析

2023-05-11 13:39:39

EDA數(shù)據(jù)分析

2012-09-04 09:20:26

測試軟件測試探索測試

2023-11-30 07:23:53

數(shù)據(jù)分析EDA

2017-04-25 18:35:47

硅谷數(shù)據(jù)科學(xué)家數(shù)據(jù)分析

2016-08-27 16:16:40

大數(shù)據(jù)

2021-04-28 16:00:55

數(shù)據(jù)分析人工智能機(jī)器學(xué)習(xí)

2019-01-28 17:42:33

Python數(shù)據(jù)預(yù)處理數(shù)據(jù)標(biāo)準(zhǔn)化

2024-03-04 11:10:01

2021-04-12 09:00:00

機(jī)器學(xué)習(xí)深度學(xué)習(xí)技術(shù)

2024-10-23 09:00:00

數(shù)據(jù)分析Pandas

2020-05-19 17:09:33

Pandas大數(shù)據(jù)數(shù)據(jù)分析

2015-09-25 10:31:52

數(shù)據(jù)分析r
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久精品免费观看 | 精品国产乱码一区二区三区 | 黑人巨大精品欧美一区二区一视频 | 国产视频中文字幕在线观看 | 2020亚洲天堂| 久草免费在线视频 | 毛片一级网站 | 色性av| 久久久久国产一区二区三区 | 超碰av人人 | 亚洲综合伊人 | 成人高清在线视频 | 四虎影院免费在线播放 | 国产免费福利在线 | av官网在线 | 91成人在线视频 | 欧美色999 | 亚洲一区二区三区免费视频 | 欧美精品一区二区在线观看 | 亚洲播放| 国产精品1区2区3区 欧美 中文字幕 | 国产精品视频在 | 超碰日本| 日韩高清一区 | 亚洲情综合五月天 | 亚洲欧美aⅴ| 精品亚洲一区二区三区 | 日本中文字幕日韩精品免费 | 黄色一级视频 | 国产色网 | 亚洲永久免费 | 国产a级毛毛片 | 日本三级全黄三级三级三级口周 | 毛片免费视频 | 91av视频在线观看 | 亚洲 欧美 综合 | 日本大香伊一区二区三区 | 国产精品久久久爽爽爽麻豆色哟哟 | 一区二区三区国产 | 欧美日韩综合 | 国产精品久久久久久久久久久久冷 |