成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【Kaggle入門級競賽top5%排名經(jīng)驗分享】— 分析篇

大數(shù)據(jù) 數(shù)據(jù)分析
本篇,博主將會從零開始介紹這個項目,教你如何一步一步的把這個項目做好。由于大部分星球的朋友們已經(jīng)完成了分析部分的實戰(zhàn)練習(xí),因此將這部分內(nèi)容拿出來進(jìn)行簡單的分享。

Kaggle作為公認(rèn)的數(shù)據(jù)挖掘競賽平臺,有很多公開的優(yōu)秀項目,而其中作為初學(xué)者入門的一個好的項目就是:泰坦尼克號生還者預(yù)測。

可能這個項目好多朋友也聽說過,可能很多朋友也做過。但是項目完成后,是否有很好的反思總結(jié)呢?很多朋友只是潦草的敷衍過去了,知道大概的套路了就沒再去看。其實,一個再簡單的項目,如果把它做好也能有巨大的收獲。

博主開始做的時候,也是經(jīng)過反復(fù)琢磨和嘗試,并從最初的20%到***的2%,期間學(xué)習(xí)了很多,不得不說這個項目讓我很好的了解了數(shù)據(jù)挖掘。

本篇,博主將會從零開始介紹這個項目,教你如何一步一步的把這個項目做好。由于大部分星球的朋友們已經(jīng)完成了分析部分的實戰(zhàn)練習(xí),因此將這部分內(nèi)容拿出來進(jìn)行簡單的分享。

首先對這個項目進(jìn)行一下介紹。

 

萬變不離其宗,拿到數(shù)據(jù)首先粗率的觀察。

將訓(xùn)練集和測試集進(jìn)行合并,以便后續(xù)數(shù)據(jù)內(nèi)容變換的統(tǒng)一處理。

 

 

合并后一共1309條數(shù)據(jù),并可以看到:age,cabin,embarked,F(xiàn)are四個特征有缺失值,其中cabin缺失比較嚴(yán)重。

 

異常值初始觀察(主要觀察一下***與最小值):

  • Fare:船票價格平均值33.2,中位數(shù)14,平均值比中位數(shù)大很多,說明該特征分布是嚴(yán)重的右偏,又看到***值512,所以512很可能是隱患的異常值。
  • Age:最小值為0.17,***值為80,0.17是大概剛出生一個半月的意思,而80年齡有些過大,需要進(jìn)一步排查。
  • SibSp與Parch:Sibsp***為8,可能是異常,但又看到Parch***值為9。這兩個特征同時出現(xiàn)大的數(shù)值,***放映是這個數(shù)值是有可能的,我們進(jìn)步一觀察。

結(jié)論:通過以上觀察和分析,我們看到了一些可能的異常值,但是也不敢肯定。這需要我們進(jìn)一步通過可視化來清楚的顯示并結(jié)合對業(yè)務(wù)的理解來確定。

 

結(jié)論:

從上面各特征值的類型數(shù)量來看:

  • 一些比較少數(shù)量的特征如Pclass,Sex,SibSp,Embarked,Parch等可進(jìn)行可視化分析。
  • 剩下特征如Name(每個人名字都不一樣),或者Ticket和Cabin由于分類太多對于可視化不是太方便,后續(xù)對這些特征單獨分析。

因此,先對上面5種容易的分類進(jìn)的特征行可視化。

 

對于上面的定類和定序數(shù)據(jù)類型,我們分別可以觀察到各特征值的分布情況,以及與目標(biāo)變量之間的聯(lián)系。

  • Sex: 對于女性而言,男性總?cè)藬?shù)雖多,但是獲救率明顯很低(先救婦女!!!);
  • Pclass: 社會等級為3的總?cè)藬?shù)最多(也就是大多數(shù)人都是普通老百姓),但是獲救率非常低(社會價值高的人優(yōu)先留下);
  • Embarked: 登陸港口S數(shù)量最多,但是獲救率也是***的,C港口獲救率***;
  • SibSp: 兄弟姐妹數(shù)量***為0的人數(shù)最多,但是獲救率***,而為1的獲救率相對較高,超過50%;
  • Parch: 情況基本同SibSp一樣,后續(xù)可以考慮將二者合并;

就以上5個特征來看,Sex和Pclass兩個特征是其中非常有影響的兩個。

以上只是單獨特征對是否生還的簡單分析,但實際上對目標(biāo)變量的影響是由多個因素造成的,而不只是單獨的影響。為此,我們需要知道在某個特定條件下的特征的影響才更加能幫助我們分析:

  • 比如我們想看看Pclass是1的情況下,男性和女性生還概率有何不同;
  • 更具體的比如我們想看看Pclass是1且為male的情況下,Embarked特征的影響是什么樣的;

以下是用FaceGrid進(jìn)行的具體分析:

 

觀察結(jié)果:

  • Pclass為1和2的時候,Q港口數(shù)量幾乎為零,而Pclass3的Q港口人數(shù)甚至比C港口多。這說明社會等級與港口有關(guān)聯(lián),根據(jù)社會等級與港口的對應(yīng)關(guān)系可推測S和C港口為高級港口,而Q港口為普通港口。
  • Pclass為2的港口中,男性與女性在S和C港口的數(shù)量分布呈現(xiàn)相反趨勢,與其他Pclass等級截然不同,這說明Pclass2可能是社會中某個共性群體,這個群體多為女性,而男性很少。既然多為女性,且女性生還概率還大,可推測Pclass2的C港口的生還概率也很高。

 

1. Age分布和特征分析

 

結(jié)論:

很明顯看到,以上Survived與Not Survived特征分布的主要區(qū)別在0 ~15左右。小于15歲以下的乘客(也就是孩子)獲救率非常高,而大于15歲的乘客分布無明顯區(qū)別。

 

結(jié)論:

不同Pclass下的年齡分布也不同,三個分布的中位數(shù)大小按Pclass1 Pclass2 Pclass3排列。這也符合實際情況,Pclass1的乘客是社會上的擁有一定財富和地位的成功人士,年齡比較大,而Pclass3的人數(shù)最多,因為大多數(shù)人還都是普通人(有錢人畢竟少數(shù)),并且這些人多是年輕人,年齡在20-30之間。

 

結(jié)論:

從散點圖來分析:

  • Pclass1和Pclass2的女性幾乎都是Survived的,Pclass3中女性Survived則不是很明顯了;
  • Pclass1的男性生還率***,Pclass2和Pclass3的生還率比較低,但是Pclass2中年齡小的乘客幾乎全部生存;

印證了那個原則:婦女和孩子優(yōu)先營救。

 

 

 

2. Fare分布和特征分析

 

結(jié)論:

觀察到Pclass1相對于2和3的Fare比較高,因為地位高,財富多。但是Pclass1中有幾個大于500的異常值存在,看一下這些異常數(shù)據(jù)。

 

這些異常值中,有兩個名字一樣的Cardeza,又看到Parch都為1,SibSp都為0,F(xiàn)are,Cabin,Embarked,Ticket都一樣,可推測二人是夫妻。另外兩個人的Embarked,Ticket,F(xiàn)are也都一樣,這說明這個大于500的Fare可能不是異常值。后面我們會對這些進(jìn)行特征工程來特殊對待。

 

 

這是上述7個特征的相互關(guān)聯(lián)圖的匯總,對角線為特征自身的kde分布。對于不方便可視化的Name,Cabin,Ticket將在特征工程中進(jìn)一步進(jìn)行處理并挖掘這些數(shù)據(jù)中到底有什么信息是非常有價值的。

責(zé)任編輯:未麗燕 來源: 千鋒大數(shù)據(jù)開發(fā)學(xué)院
相關(guān)推薦

2017-01-22 21:30:39

大數(shù)據(jù)Kaggle函數(shù)

2025-05-22 08:30:00

開源檢測系統(tǒng)主機(jī)入侵

2013-05-06 09:14:26

BigQuery大數(shù)據(jù)分析大數(shù)據(jù)分析入門

2019-11-05 10:26:49

機(jī)器學(xué)習(xí)情緒分析工具AI

2013-03-20 10:48:45

BYOD移動安全

2021-02-08 12:59:12

Git 控制系統(tǒng)

2010-06-23 10:55:10

FreeBSD入門級命

2010-09-13 13:58:17

HTML DOM

2010-09-08 12:45:16

2013-02-19 09:51:03

2020-03-25 11:06:46

無服務(wù)器開源安全工具

2017-01-23 10:21:01

2010-12-14 09:22:27

HTML 5

2022-02-28 16:50:48

Dell PowerPowerVault

2012-09-26 10:22:09

Windows服務(wù)器管理技巧

2017-12-06 09:35:14

云計算信息化

2019-01-09 06:03:15

編程語言開發(fā)Python

2018-09-15 23:23:04

Web開發(fā)機(jī)器學(xué)習(xí)軟件開發(fā)

2022-12-09 10:28:00

人工智能OpenAI

2012-05-01 21:10:41

華為
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 色综合久久88色综合天天 | 日韩欧美三区 | 涩涩视频在线观看免费 | 欧美日韩一区二区在线观看 | 极品国产视频 | 精品视频一区二区三区在线观看 | 黄在线免费观看 | 国产伦一区二区三区 | 一区中文字幕 | 国产精品国产三级国产aⅴ原创 | 美女天天干天天操 | 99精品欧美一区二区蜜桃免费 | 国产成人精品久久二区二区91 | 欧美成人精品在线 | 欧美不卡网站 | 久久国产精品免费视频 | 国产精品日产欧美久久久久 | 欧美精品导航 | 亚洲精选久久 | 国产成人综合久久 | 五月综合激情婷婷 | 日本男人天堂 | 久久久久久久久久久久久9999 | 999久久久久久久 | 我想看一级黄色毛片 | 91色视频在线观看 | 激情91| 99热.com| 亚洲欧洲日本国产 | 夜操 | 国产精品久久久久久久7电影 | 欧美激情精品久久久久 | 色偷偷噜噜噜亚洲男人 | 99热.com| 中文字幕在线精品 | 久久久久久久国产 | 久久精品国产一区二区三区不卡 | 在线免费观看毛片 | 亚洲在线一区二区 | 免费av毛片 | 激情六月丁香婷婷 |