SQL Server數(shù)據(jù)挖掘之如何實現(xiàn)Web路徑流挖掘
最近與一個客戶的開發(fā)團隊探討和學習SQL Server的數(shù)據(jù)挖掘及其應用。有幾個比較有意思的問題,整理出來
關(guān)于數(shù)據(jù)挖掘的基本知識和學習資料,可以參考http://msdn.microsoft.com/zh-cn/library/bb510517.aspx
上一篇:SQL Server數(shù)據(jù)挖掘之理解聚類算法和順序聚類算法
上一篇解釋了聚類算法和順序聚類算法,這一篇講解一個實例,就是我們常說的Web 路徑流挖掘分析。Web路徑流是讓我們發(fā)現(xiàn)用戶使用網(wǎng)站的習慣的一種表示方式,例如我們想知道用戶是先到什么頁面,然后再到什么頁面,由此我們可以給用戶分組,并且根據(jù)他們的習慣定制更好的頁面導航設(shè)計。
按照數(shù)據(jù)挖掘的基本流程,我們一步一步來做
1.定義問題:通過分析得到不同用戶群使用網(wǎng)站的路徑及其規(guī)律
2.準備數(shù)據(jù):
為此,我們準備兩個表格,分別保存客戶信息(如下)
以及客戶點擊頁面的記錄表(這里作為演示,我只填寫了一些范例數(shù)據(jù))
#p#
3.建立模型:
準備數(shù)據(jù)源和數(shù)據(jù)源視圖
創(chuàng)建挖掘模型。這個業(yè)務場景,我們適合用“順序分析和聚類分析”
#p#
#p#
#p#
#p#
點擊“Finish”之后,檢查模型的設(shè)計
#p#
4.部署和處理
【備注】因為數(shù)據(jù)不多,所以看到的結(jié)果比較簡單。有興趣的朋友可以實際準備一些數(shù)據(jù)進行分析
【編輯推薦】