成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

兩種最為常用的數(shù)據(jù)挖掘方法論

大數(shù)據(jù) 數(shù)據(jù)分析
在實際項目進行過程中,由于使用者的目標背景和興趣不同,有可能打亂各階段順承的關系。

[[432911]]

本文轉(zhuǎn)載自微信公眾號「數(shù)倉寶貝庫」,作者趙仁乾 等。轉(zhuǎn)載本文請聯(lián)系數(shù)倉寶貝庫公眾號。

01CRISP-DM方法論

CRISP-DM方法論由NCR、Clementine、OHRA和Daimler-Benz的數(shù)據(jù)挖掘項目總結(jié)而來,并被SPSS公司大力推廣。CRISP-DM方法論將數(shù)據(jù)挖掘項目的生命周期分為6個階段,分別是商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評估和準備工作,如圖1所示。在實際項目進行過程中,由于使用者的目標背景和興趣不同,有可能打亂各階段順承的關系。

圖1 CRISP-DM方法論

圖1呈現(xiàn)了CRISP-DM方法執(zhí)行流程的6個階段。各個階段的順序不是保持不變的,有時需要在某個階段向前或向后移動,這取決于每個階段的結(jié)果和下一個階段的具體任務。箭頭指出了各個階段之間的關聯(lián)。

在圖1中,最外圈的循環(huán)表示數(shù)據(jù)挖掘本身的循環(huán)特征。數(shù)據(jù)挖掘是一項持續(xù)的工作。在上一個流程和解決方案中獲得的經(jīng)驗與教訓,可以給下一個項目提供指導。下面簡要介紹每個階段的特點。

1)商業(yè)理解。該階段的特點是從商業(yè)角度理解項目的目標和要求,通過理論分析找出數(shù)據(jù)挖掘可操作問題,制訂實現(xiàn)目標的初步計劃。

2)數(shù)據(jù)理解。該階段開始于原始數(shù)據(jù)的收集,然后是熟悉數(shù)據(jù)、標明數(shù)據(jù)質(zhì)量問題、探索對數(shù)據(jù)的初步理解、發(fā)掘有趣的子集,以形成對探索關系的假設。

3)數(shù)據(jù)準備。該階段包括所有從原始的、未加工的數(shù)據(jù)構(gòu)造數(shù)據(jù)挖掘所需信息的活動。數(shù)據(jù)準備任務可能被實施多次,而且沒有任何規(guī)定的順序。這些任務的主要目的是從源系統(tǒng)根據(jù)維度分析的要求,獲取所需要的信息,同時對數(shù)據(jù)進行轉(zhuǎn)換和清洗。

4)建模。該階段主要是選擇和應用各種建模技術,同時對參數(shù)進行校準,以達到最優(yōu)值。通常,同一類數(shù)據(jù)挖掘問題會有多種建模技術。一些技術對數(shù)據(jù)格式有特殊的要求,因此常常需要返回到數(shù)據(jù)準備階段。

5)評估。在模型最后發(fā)布前,根據(jù)商業(yè)目標評估模型和檢查模型建立的各個步驟。此階段的關鍵目的是,確認重要的商業(yè)問題都得到充分考慮。

6)準備工作。模型完成后,由模型使用者(客戶)根據(jù)當時的背景和目標完成情況,決定如何在現(xiàn)場使用模型。

02SEMMA方法論

除了CRISP-DM方法論,SAS公司還提出了SEMMA方法論。其與CRISP-DM方法論內(nèi)容十分相似,流程為定義業(yè)務問題、環(huán)境評估、數(shù)據(jù)準備、循環(huán)往復的挖掘過程、上線發(fā)布、檢視。其中循環(huán)往復的挖掘過程包含探索、修改、建模、評估和抽樣5個步驟,如圖2所示。

圖2  SEMMA方法論

1)抽樣。該步驟涉及數(shù)據(jù)采集、數(shù)據(jù)合并與抽樣操作,目的是構(gòu)造分析時用到的數(shù)據(jù)。分析人員將根據(jù)維度分析獲得的結(jié)果作為分析的依據(jù),將散落在公司內(nèi)部與外部的數(shù)據(jù)進行整合。

2)探索。這個步驟有兩個任務,第一個是對數(shù)據(jù)質(zhì)量的探索。變量質(zhì)量方面涉及錯誤值(年齡=-30)、不恰當(客戶的某些業(yè)務指標為缺失值,實際上是沒有這個業(yè)務,值應該為“0”)、缺失值(沒有客戶的收入信息)、不一致(收入單位為人民幣,而支出單位為美元)、不平穩(wěn)(某些數(shù)據(jù)的均值變化過于劇烈)、重復(相同的交易被記錄兩次)和不及時(銀行客戶的財務數(shù)據(jù)更新滯后)等。探索步驟主要解決錯誤的變量是否可以修改、是否可以使用的問題。比如,缺失值很多,平穩(wěn)性、及時性很差的變量不能用于后續(xù)的數(shù)據(jù)分析,而缺失值較少的變量需要進行缺失值填補。第二個是對變量分布形態(tài)的探索。對變量分布形態(tài)的探索主要是對變量偏態(tài)和極端值進行探索。由于后續(xù)的統(tǒng)計分析大多是使用參數(shù)統(tǒng)計方法,這要求連續(xù)變量最好是對稱分布的,這就需要我們了解每個連續(xù)變量的分布情況,并制定好變量修改的方案。

3)修改。根據(jù)變量探索的結(jié)論,對數(shù)據(jù)質(zhì)量問題和分布問題涉及的變量分別做修改。數(shù)據(jù)質(zhì)量問題涉及的修改包括錯誤編碼改正、缺失值填補、單位統(tǒng)一等操作。變量分布問題涉及的修改包括函數(shù)轉(zhuǎn)換和標準化,具體的修改方法需要與后續(xù)的統(tǒng)計建模方法相結(jié)合。

4)建模。根據(jù)分析的目的選取合適的模型,這部分內(nèi)容在1.3節(jié)已經(jīng)做了詳細的闡述,這里不再贅述。

5)評估。這里指模型的樣本內(nèi)驗證,即使用歷史數(shù)據(jù)對模型表現(xiàn)的優(yōu)劣進行評估。比如,對有監(jiān)督學習使用ROC曲線和提升度等技術指標評估模型的預測能力。

 

本文摘編自《金融商業(yè)算法建模:基于Python和SAS》,經(jīng)出版方授權(quán)發(fā)布。

 

責任編輯:武曉燕 來源: 數(shù)倉寶貝庫
相關推薦

2021-01-06 08:48:35

CSS 命名模塊

2013-12-25 09:50:27

華為馬悅企業(yè)業(yè)務

2014-05-13 09:56:24

數(shù)據(jù)挖掘

2010-03-05 16:03:30

Python連接數(shù)據(jù)庫

2022-06-27 08:47:29

BEM修飾符元素

2010-11-25 10:21:20

MySql查詢時間段

2020-02-05 14:31:04

兩種互通方法

2020-04-02 07:55:07

分析方法論研發(fā)

2016-03-25 15:37:18

數(shù)據(jù)治理數(shù)據(jù)分析BI

2016-11-17 10:46:10

2025-04-10 11:47:41

2015-03-27 09:31:01

2010-08-20 13:51:44

路由器密碼

2010-08-13 15:12:05

CISCO密碼

2009-11-11 16:36:19

路由協(xié)議介紹

2009-12-18 09:45:12

ADSL無線共享上網(wǎng)

2009-12-14 15:34:54

動態(tài)路由協(xié)議

2015-04-30 12:25:15

mininet數(shù)據(jù)中心

2011-04-06 11:05:21

SQL Server數(shù)交換數(shù)據(jù)

2011-06-23 09:07:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲精品一区二区另类图片 | 成年女人免费v片 | 亚洲一区二区中文字幕在线观看 | 国产高清在线观看 | 午夜影院在线视频 | 成人小视频在线观看 | 亚洲电影在线播放 | 毛片免费视频 | 久久视频免费看 | 国产免费av在线 | 国产精品一区二区福利视频 | 欧美国产日韩一区二区三区 | 久色网| 国产精品毛片一区二区三区 | 中文字幕在线观看一区 | h片在线观看网站 | 亚洲综合日韩精品欧美综合区 | 成人欧美一区二区三区视频xxx | 日韩一级在线 | 欧美精品91爱爱 | 欧美日韩a | 欧美不卡在线 | 国产成在线观看免费视频 | www.se91| 久久99蜜桃综合影院免费观看 | 久久久五月天 | 欧美一区二区三区 | 亚洲精品成人在线 | 欧美黄在线观看 | 小h片免费观看久久久久 | 天天综合国产 | 成人在线视频免费看 | 欧美另类视频在线 | 成人黄色a| 国产日韩久久 | 欧美一区在线视频 | 亚洲综合无码一区二区 | 精品国产乱码久久久久久闺蜜 | 中文成人无字幕乱码精品 | 中文字幕av一区二区三区 | 九九导航 |