終于有人把數據挖掘講明白了

作者：丁兆云等 2022-01-05 18:27:44

隨著大型數據庫的建立和海量數據的不斷涌現，人們迫切需要強有力的數據分析工具。但現實情況往往是“數據十分豐富，而信息相當貧乏”。

快速增長的海量數據被收集、存放在大型數據庫中，沒有強有力的工具，以人類現有的能力很難理解它們。因此，有人說大數據是數據“墳墓”。當采用數據挖掘工具進行數據分析時，可以發現隱藏在大數據之中重要的數據內容、模式，能對商務決策、知識庫、科學和醫學研究等做出巨大貢獻。為解決數據和信息之間的鴻溝，我們應系統地學習數據挖掘知識，開發數據挖掘工具，將數據“墳墓”變成知識“金礦”。

1數據挖掘過程

數據挖掘(data mining)又譯為資料探勘、數據采礦，是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的但又潛在有用的信息和知識的過程。

數據挖掘的具體過程描述如下：

1)數據：進行數據挖掘首先要有數據，可以根據任務的目的選擇數據集，并篩選自己需要的數據，或者根據實際情況構造自己需要的數據。

2)預處理：確定數據集后，就要對數據進行預處理，使數據能夠為我們所用。數據預處理可以提高數據質量，包括準確性、完整性和一致性。進行數據預處理的方法有數據清理、數據集成、數據規約和數據變換等。

3)變換：進行數據預處理后，對數據進行變換，將數據轉換成一個分析模型，這個分析模型是針對數據挖掘算法建立的。建立一個真正適合數據挖掘算法的分析模型是數據挖掘成功的關鍵。

4)數據挖掘：對經過轉換的數據進行挖掘，除了選擇合適的挖掘算法外，其余一切工作都能自動地完成。

5)解釋/評估：解釋并評估結果，最終得到知識。其使用的分析方法一般視數據挖掘操作而定，通常會用到可視化技術。

數據挖掘的具體過程如圖1所示。

圖1　數據挖掘過程

2數據挖掘的內容

2.1　關聯規則挖掘

從大規模數據中挖掘對象之間的隱含關系稱為關聯分析(Associate Analysis)或者關聯規則挖掘(Associate Rule Mining)，它可以揭示數據中隱藏的關聯模式，幫助人們進行市場運作、決策支持等。

考察一些涉及許多物品的事務。事務1中出現了物品甲，事務2中出現了物品乙，事務3中同時出現了物品甲和乙。那么，物品甲和乙在事務中的出現是否有規律可循呢?在數據庫的知識發現中，關聯規則就是描述這種在一個事務中物品同時出現的規律的知識模式。更確切地說，關聯規則通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響。

一般采用可信度、支持度、期望可信度、作用度四個參數來描述一個關聯規則的屬性。

在關聯規則的四個屬性中，支持度和可信度能夠比較直接地形容關聯規則的性質。如果不考慮關聯規則的支持度和可信度，那么在事務數據庫中可以發現無窮多的關聯規則。事實上，人們一般只對滿足一定的支持度和可信度的關聯規則感興趣。因此，為了發現有意義的關聯規則，需要給定兩個閾值：最小支持度和最小可信度，前者規定了關聯規則必須滿足的最小支持度;后者規定了關聯規則必須滿足的最小可信度。

經典故事案例：關聯規則挖掘經典的案例即為購物籃中的啤酒和尿布的故事。“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中，在美國有嬰兒的家庭中，一般由母親在家中照看嬰兒，年輕的父親前去超市購買尿布。父親在購買尿布的同時，往往會順便為自己購買啤酒，這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。

比如對于如下購物籃數據：

顧客1：{牛奶、果醬、面包}

顧客2：{牛奶、雞蛋、面包、糖}

顧客3：{面包、黃油、牛奶}

我們可以推測牛奶→面包為一組關聯規則，即顧客購買了牛奶，可以推測該顧客下一步很有可能會購買面包。

2.2　分類

分類算法是數據挖掘中的關鍵技術，它通過對數據訓練集的分析研究，發現分類規則，從而具備預測新數據類型的能力。分類也是監督式機器學習方法，根據訓練集學習模型，進一步利用模型對新數據的類別標簽進行預測。分類算法主要包括兩個階段：①構建模型階段，通過分析學習已知的訓練數據集，訓練并構建一個準確率可以接受的模型，該模型用于描述特定的數據類集;②使用階段，使用訓練后的模型對未知數據對象進行分類。具體過程如下所示。