Python數(shù)據(jù)建模指南:從數(shù)據(jù)到模型要怎么做,煉丹師的心路歷程
本文將會(huì)按照以下四個(gè)部分來(lái)講述如何從業(yè)務(wù)數(shù)據(jù)中分析數(shù)據(jù),建立模型,希望對(duì)大家有所幫助!
- 數(shù)據(jù)從哪來(lái)
- 如何分析數(shù)據(jù)
- 機(jī)器學(xué)習(xí)算法簡(jiǎn)介
- 預(yù)測(cè)效果評(píng)估
Part1: 數(shù)據(jù)從哪來(lái)
你眼中的大數(shù)據(jù)分析和實(shí)際的大數(shù)據(jù)分析實(shí)際上是非常不一樣的

你眼中的大數(shù)據(jù)分析和實(shí)際的大數(shù)據(jù)分析
一般來(lái)說(shuō),實(shí)際業(yè)務(wù)的數(shù)據(jù)都是無(wú)法直接拿來(lái)進(jìn)行數(shù)據(jù)建模的,我們需要進(jìn)行一系列的分析和轉(zhuǎn)化,才能夠得到建模所需要的數(shù)據(jù).
數(shù)據(jù)分析項(xiàng)目中數(shù)據(jù)分準(zhǔn)備工作需要花費(fèi)整個(gè)項(xiàng)目60%~70%的時(shí)間,而建模可能恰恰是數(shù)據(jù)分析項(xiàng)目中最(相對(duì))輕松的事情
試想一下,如果你的leader讓你去分析某一個(gè)業(yè)務(wù)數(shù)據(jù),對(duì)你而言你僅僅只是知道這部分?jǐn)?shù)據(jù)叫什么名字,你會(huì)怎么做?會(huì)有哪些問(wèn)題? 數(shù)據(jù)安全,權(quán)限,部門(mén)溝通,業(yè)務(wù)理解,每一個(gè)環(huán)節(jié)都是一個(gè)"坑"!
常見(jiàn)的數(shù)據(jù)準(zhǔn)備的工作:
- 理清業(yè)務(wù)邏輯: 理清業(yè)務(wù)表的字段含義,關(guān)聯(lián)邏輯, 跨部門(mén),跨職級(jí),理解的差異
- 設(shè)定訓(xùn)練目標(biāo): 了解業(yè)務(wù)目標(biāo),根據(jù)實(shí)際數(shù)據(jù)確定模型訓(xùn)練的目標(biāo)
- 數(shù)據(jù)樣本評(píng)估: 極端值,,數(shù)據(jù)分布,方差,信息熵
- 特征工程: 用數(shù)據(jù)去表達(dá)數(shù)據(jù),建立建模所需的大寬表
- 建模: 建模是最輕松的事情?
Part2: 如何分析數(shù)據(jù)
從傳統(tǒng)的統(tǒng)計(jì)學(xué)角度,我們可以對(duì)數(shù)據(jù)進(jìn)行一系列的探索



Part3: 機(jī)器學(xué)習(xí)算法簡(jiǎn)介
在進(jìn)行建模之前我們需要搞懂一個(gè)最最簡(jiǎn)單,也是最最基礎(chǔ)的問(wèn)題,什么是預(yù)測(cè): 用數(shù)據(jù)和統(tǒng)計(jì)科學(xué)做預(yù)測(cè),不僅做量化推斷,還量化推斷的確定性/不確定性

除此之外,為了能夠更好地理解模型,我們還需要知道一些建模的術(shù)語(yǔ)比如: 損失函數(shù),梯度下降等

sklearn的官方文檔,為算法選擇提供了一個(gè)很好的路線路圖



Part4: 預(yù)測(cè)效果評(píng)估
很多時(shí)候,準(zhǔn)確率并不能滿(mǎn)足我們對(duì)模型預(yù)測(cè)性的評(píng)估,因?yàn)闃颖敬嬖诓黄胶?所以我們需要其他的評(píng)估方法,比如ROC,AUC,KS

