淺談數(shù)據(jù)挖掘的基本概念及其最常用算法
當(dāng)前,大數(shù)據(jù)的理論和應(yīng)用正在國民經(jīng)濟(jì)和生活的各個領(lǐng)域如火如荼的進(jìn)行。很多人對大數(shù)據(jù)的基本概念和特點已經(jīng)有所了解,那么我們僅僅將大數(shù)據(jù)進(jìn)行獲取、存儲、檢索和共享是不夠的,怎么樣才能在大數(shù)據(jù)中找出未知的且有價值的信息和知識呢?
知識發(fā)現(xiàn)(KDD)就是從大數(shù)據(jù)中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。

知識發(fā)現(xiàn)的流程圖
數(shù)據(jù)挖掘是大數(shù)據(jù)知識發(fā)現(xiàn)(KDD)中不可缺少一部分,是大數(shù)據(jù)理論和應(yīng)用中非常重要的一部分。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但潛在的有用信息和知識的過程。大部分人是通過一個案例認(rèn)識到數(shù)據(jù)挖掘:這是因為沃爾瑪通過數(shù)據(jù)分析發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段;沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。雖然這個故事很可能是假的, 但是確實讓不少人開始接觸數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘基本框架
數(shù)據(jù)挖掘的最常用的幾種算法:
(1)預(yù)測建模:將已有數(shù)據(jù)和模型用于對未知變量的語言。
- 分類,用于預(yù)測離散的目標(biāo)變量
- 回歸,用于預(yù)測連續(xù)的目標(biāo)變量
(2)聚類分析:發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。
(3)關(guān)聯(lián)分析(又稱關(guān)系模式):反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。用來發(fā)現(xiàn)描述數(shù)據(jù)中強(qiáng)關(guān)聯(lián)特征的模式。
(4)異常檢測:識別其特征顯著不同于其他數(shù)據(jù)的觀測值。
有時也把數(shù)據(jù)挖掘分為:分類,回歸,聚類,關(guān)聯(lián)分析。

數(shù)據(jù)挖掘的四種典型算法
數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有區(qū)別,也有關(guān)系,我們將在以后的文章中對其進(jìn)行介紹。