成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

數據挖掘工具：誰最適合CRM

作者：數據挖掘者 2009-01-19 16:54:50

CRM(Customer Relationship Management)，即客戶關系管理。這個概念最初由Gartner Group提出來，而在最近開始在企業電子商務中流行。CRM的主要含義就是通過對客戶詳細資料的深入分析，來提高客戶滿意程度，從而提高企業的競爭力的一種手段。本文主要講述適合CRM的數據挖掘工具。

自從我上次斗膽回答“如何選擇數據挖掘工具”之后，已經好幾年過去了。本文主要闡述以下兩個核心觀點：

1. 沒有***的工具,更確切地說，沒有適合所有人的***的工具。

2. 最有用的工具，是那些能夠滿足你所需要的絕大多數數據挖掘任務的工具。

主要的數據挖掘任務

大多數數據挖掘人員都明白，數據挖掘項目中70%到90%的工作是做數據準備。在數據挖掘工具的演進過程中，數據準備功能的開發一直被放在次要位置上。***，你要能夠對模型準確評估，才能比較多個模型，并將它們推薦給市場人員。

數據準備任務

常見的數據準備任務包括：

◆進行數據評估

以判別出：

缺失值(空字符串、空格、空值)

孤立點

共線性評估(自變量之間的相關性)

◆合并多個數據集;

◆從不同輸入格式到通用分析格式的元數據(字段的名稱和類型)映射;

◆將類似變量的值變換為通用格式;

◆某些算法對輸入變量有特殊要求，需要將數值型變量變換為類別型(通過數據分箱和分類)，或者將類別型變換為數值型;

◆將變量值切分為多個字段，或將多個字段合并為一個字段;

◆從現有變量中派生新變量。大多數數據挖掘人員發現，有些***有預測能力的變量，正是派生出來的變量。

大多數數據挖掘工具會把這些數據挖掘功能放在次要的地位，本文則會側重評估常見數據挖掘工具處理這些任務的能力。

除了能支持以上的數據準備任務，一個好的數據挖掘工具還應該包含模型評估的功能，以便比較建模過程中產生的多個模型，并用于支持直效營銷(direct marketing)。

#p#

模型評估工具

在分析理論中，***的模型是具有***精度的模型，可以準確預測出目標變量的類別，同時在驗證數據集上也能表現穩定。這就是說，在預測中我們要考慮響應目標和非響應目標的組合精度。這種方法稱為全局精度方法（Global Accuracy method）。大多數數據挖掘工具使用這種方法來確定“***”模型。但是，它也有美中不足。全局精度評估方法的背后有一個前提假設，就是各種分類錯誤的代價是相同的。這種方法在課堂上表現不錯，但在實際的CRM數據挖掘應用上則可能存在問題，特別是在那些用于直郵營銷的應用上。實際上，這也是過去很多用CRM來支持直郵營銷而未能產生明顯商業價值的一個主要原因。對模型的評估有一些主要原則，而其中只有一部分是營銷部門真正關心的： ***化目標客戶的響應率，最小化所需成本。大多數數據挖掘工具都把注意力集中在預測的組合精度上，卻完全忽略了成本的因素。

在直效營銷活動中，向未響應的潛在客戶（稱為“錯誤肯定”錯誤，false-positive）發送郵件的成本是相當低的；而如果一個潛在客戶可能會響應（稱為“錯誤否定”錯誤，false-negative），你卻沒有向他發送郵件，那么這個代價就相當大了（因為沒有把他發展為客戶，您會損失他所繳納的會員費，而且他也不可能購買您的其它服務）。因此在直銷營銷模型的評估中，就應該盡量最小化錯誤否定的錯誤，而不是錯誤肯定。因為營銷部門只關注響應率和成本，如果前30%的客戶名單中包含了全體響應者的60%，就可以滿足他們的需求。對于直銷營銷來說，盡管前30%的客戶仍會有部分人不會響應（錯誤肯定錯誤），向他們發送郵件依然是值得的。那是因為我們已經聯系了全體響應者中的60%。此時就比隨機發郵件的有效性提高了一倍，也就更加合算。

大多數數據挖掘工具都使用全局精度方法來進行模型評估。它們可能會要求你使用這種方法，通過工具的報表功能來識別出“***”模型。不同算法會產生多個模型，我們不應該只是查看工具提供的精度報告，簡單比較后就判別哪個是***的模型。實際上，更合適的評估應該根據如下條件來做出：按照預測概率值順序排列模型結果，生成評分列表，然后看真正的響應者是否被放在最前面的分段中。盡管分類算法可以輸出分類概率，實際的類別（例如，0或1）還是對分類概率的進一步歸納（例如，<0.5 = 0; ≥ 0.5 = 1）。大量真正的“金塊”隱藏在數據挖掘工具的功能模塊之中。初級的CRM挖掘人員會把注意力放在分類和精度上面，但真正的“金塊”應該是客戶保持、購買傾向以及新客戶獲取的概率值。

我們應該查看累積提升表（cumulative lift table；例如表1），來判別模型是否真正有效地把正確肯定（true-positives）放在了靠前的分組里。累積提升表可以通過以下方式創建：

1.預測概率值按降序方式存儲為有序列表

2.把這個有序列表劃分為10段（分組）

3.計算每組中的實際命中數（actual hits，實際的響應數）

4.計算每個分組的隨機期望值（random expectation），該期望值等于實際響應總數除以10。也就是說，在每個分組中我們期望會有實際響應總數的10%會響應。如果命中率超過了隨機期望值，就意味著模型為該分組帶來了提升。

表1： 提升表

譯者注：

Decile-分組序號;Hits-命中數，即每組內包含的實際響應數，等于TP+FN;

TP-正確肯定;FN-錯誤否定;TN-正確否定;FP-錯誤肯定;

(TP和FN對應于實際的響應，TN和FP對應于實際的非響應)

Random Hits-隨機命中數，即隨機期望值，等于SUM(TP+FN)/10;

% of Total-召回率，等于Hits/SUM(Hits)*100;

Cum % of Total-累積召回率，是% of Total的累積值。

一共劃分了10個分組，實際的總響應數為SUM(Hits)=275，因此每組的隨機期望值為275/10=27.5。***組的命中數為81，明顯超過了隨機期望值，其召回率=81/275=29.45%。第二組的命中數為43，也超過了隨機期望值，其召回率為43/275=15.64%，累積召回率等于第二組的召回率加上前面所有組(即***組)的召回率，等于15.64%+29.45%=45.09%。

從上表中可以看出，該模型劃分肯定和否定的閾值應該是在第二個分組中，這樣才出現了***組都被預測為肯定，但其中有81個是正確的肯定(TP)，而735個是錯誤的肯定(FP);第二組中則同時包含了TP、FN、TN和FP;從第三組之后則都被預測為否定(因為位于閾值之下)，因此包含了FN和TN。

正確肯定(True-Positives，TP)：實際的響應中，被正確預測為響應的個數

錯誤否定(False-Negatives，FN)：實際的響應中，被錯誤預測為非響應的個數

正確否定(True-Negatives，TN)：實際的非響應中，被正確預測為非響應的個數

錯誤肯定(False-Positives，FP)：實際的非響應中，被錯誤預測為響應的個數

通過對提升表的分析可以看到，在第四個分段之后，增量提升(incremental lift，第8列中的”% of Total”)下降到隨機期望(每個分段為10%)之下，而前四個分段包含了超過70%的響應。從下面的增量提升曲線(圖1)中可以明顯看出增量提升和隨機期望的交叉點。

圖1： 增量提升圖示例

在增量提升曲線中標示了各個分段的命中數。在圖1中可以看到，增量提升曲線在第4個分段后和隨機期望線(275個響應的10%，即平均每個分段27.5個響應)交叉。不管營銷經理怎么去看，上述的表格和圖形都可以把必要的信息傳遞給他們。營銷人員可以借助模型評估工具，來設定要給多少個客戶發郵件。以表1為例，營銷人員可以向前四個分段的客戶(占整個評分名單的40%)發郵件，并預期可以命中70%的潛在響應客戶。

我們現在已經了解該如何評估數據挖掘模型，接下來就可以深入分析和調整業務流程，借助模型的結果來提高企業的盈利。業務流程包括：

1.數據挖掘過程

2.知識發現過程

3.業務流程管理(BPM)軟件

4.知識管理系統

5.商業生態系統管理

#p#

數據挖掘過程

Eric King在“如何在數據挖掘上投資：避免預測型分析中昂貴的項目陷阱的框架”一文(發表于2005年10月的“DM Review”)中主張數據挖掘是一段旅程，而非終點。他把這段旅程定義為數據挖掘過程。該過程包含如下要素：

1.一個發現過程

2.具有靈活的框架

3.按照清晰定義的策略進行

4.包含多個檢查點

5.多次定期的評估

6.允許在反饋環路中對函數進行調整

7.組織為疊代式的架構

過程模型

很多數據挖掘工具的廠商都對這個過程進行了簡化，使之更加清晰。 SAS將數據挖掘過程劃分為五個階段：抽樣(Sample)，解釋(Explain)，處理(Manipulate)，建模(Model)，評估(Assess)。過去人們常用循環式的飲水器來比喻數據挖掘過程。水(數據)首先涌上***層(分析階段)，形成漩渦(精煉和反饋)，等到聚積了足夠多“已經處理過”的水之后，就溢出來流到下一個更低的層中。不斷地進行這種“處理”，直到水流到***層。在那里它被抽回頂層，開始新一輪的“處理”。數據挖掘和這種層次式的疊代過程非常相像。甚至在很多數據挖掘算法的內部處理也是如此，比如神經網絡算法，就是在數據集上多次運行(epochs)，直至發現***解。 Insightful Miner已經在其用戶界面中內建了簡單過程模型。這種集成可以幫助用戶把必要的數據挖掘任務組織起來，讓任務能夠按照正確的順序來處理。

但使用飲水器來比喻數據挖掘過程還不算恰當，因為它沒有反映出反饋環路，而反饋環路在數據挖掘過程中是很常見的。例如，通過數據評估可以發現異常的數據，從而要求從源系統中抽取更多的數據。或者，在建模之后，會發現需要更多的記錄才能反映總體的分布。

在CRISP過程模型中進行了解決這個問題的嘗試，該模型是由Daimler-Benz、ISL (Clementine的開發者)和NCR共同制定的。 CRISP同時也被集成到Clementine挖掘工具(現在屬于SPSS公司)的設計中。 CRISP幾乎反映了完整的數據挖掘環境。

圖2： CRISP圖例

使用數據建模其實和做陶土模型或者大理石模型差不多。藝術家首先從一大堆材料開始著手，經過許多次的加工和檢查，才誕生了最終的藝術品。很多人在建模過程中常常沒有充分理解建模的本質，由此帶來了一系列問題，使得建模變得很復雜。 Eric King發現數據挖掘是一個循環的過程(就象上圖中的CRISP流程圖)，而非線性的過程。這種循環式的數據挖掘過程會讓您想起Wankel轉式汽車發動機。這種發動機是一圈一圈旋轉的(而非上下運動)，不斷輸出動能來驅動汽車。與之相似，數據挖掘過程也是不斷循環，產生信息來幫助我們完成商業目標。信息就是推動商業的“能量”。在挖掘過程中會有很多對前一個階段的反饋(例如，在完成初步建模之后可能需要獲取更多的數據)。

不過，在CRISP流程中還是遺漏了一個要素——那就是對數據倉庫或源系統的反饋。前一次CRM營銷活動的結果應該導入數據倉庫，為后續的建模提供指導，并能跟蹤營銷活動間的變化趨勢。我在CRISP流程圖中加入了這些反饋，以紅線表示(見圖2)。

通過數據挖掘過程的結構，我們可以得知數據挖掘工具必需能完成那些任務，但是工具常常會缺少對部分功能的支持。當產生了挖掘結果時，你會怎么使用這些結果呢? 此外，針對挖掘結果所采取的這些行動又將如何影響后續的挖掘? 數據挖掘工具應該具備的一些功能包括：

1.將模型導出到多種數據庫結構中

2.模型的導出格式，適合于決策支持和商業行動的應用

3.挖掘算法的輸出數據，可以為另外的算法所用

4.能夠比較不同算法的結果

【編輯推薦】

數據挖掘技術在沃爾瑪的應用
基于數據挖掘技術的客戶關系管理
深入探討數據倉庫緩慢變化維的解決方案
Oracle中OSFA和數據倉庫簡介
建立數據倉庫的八條基本準則
Sybase數據倉庫大鵬證券應用案例

責任編輯：楊鵬飛來源： IDMer(數據挖掘者)

數據挖掘 CRM 孤立點共線性評估

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：毛片网站在线观看视频 | 男人的天堂在线视频 | www.久久影视 | 国产精品一区二区免费 | 18成人在线观看 | 久久大 | 色婷婷综合久久久中字幕精品久久 | 亚洲黄色片免费观看 | 精品三级| 少妇一级淫片免费播放 | 国产精品中文字幕在线 | 中文字幕第十页 | 国产精品日韩 | 久久一| 四虎影视1304t | 99精品网| 亚洲国产成人精品久久久国产成人一区 | 国产最好的av国产大片 | 中文字幕成人av | 日韩av在线不卡 | 免费在线观看成年人视频 | 亚洲欧美日韩在线 | 在线亚洲电影 | 99精品国产一区二区三区 | 亚洲久在线 | 中文字幕在线观看成人 | 一区二区免费 | 成人久久久 | 欧美综合一区二区三区 | 97超碰站 | 国产精品一区二区三区在线 | 99精品免费| 美国a级毛片免费视频 | 亚洲a在线观看 | 欧美日韩精品国产 | 人人操日日干 | 国产日韩精品视频 | 日本a视频| 国产视频在线观看一区二区三区 | 国产欧美一区二区三区另类精品 | 欧美自拍第一页 |