成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文帶你了解什么是數(shù)據(jù)挖掘

大數(shù)據(jù)
大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,利用網(wǎng)絡(luò)和生活中產(chǎn)生的大量數(shù)據(jù)發(fā)現(xiàn)問(wèn)題并創(chuàng)造價(jià)值,使得數(shù)據(jù)挖掘成了一門(mén)新的學(xué)科和技術(shù)。那么什么是大數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的過(guò)程是什么,以及它的具體算法又有哪些?今天這篇文章,將帶你一起了解數(shù)據(jù)挖掘的那些事兒。

大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,利用網(wǎng)絡(luò)和生活中產(chǎn)生的大量數(shù)據(jù)發(fā)現(xiàn)問(wèn)題并創(chuàng)造價(jià)值,使得數(shù)據(jù)挖掘成了一門(mén)新的學(xué)科和技術(shù)。那么什么是大數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的過(guò)程是什么,以及它的具體算法又有哪些?今天這篇文章,將帶你一起了解數(shù)據(jù)挖掘的那些事兒。

01、首先,數(shù)據(jù)挖掘到底是什么?

官方的定義,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

通俗易懂的說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中,發(fā)現(xiàn)那些我們想要的“東西”。

02 這個(gè)“東西”具體指什么?

一種被稱(chēng)為預(yù)測(cè)任務(wù)。

也就是說(shuō)給了一定的目標(biāo)屬性,讓去預(yù)測(cè)目標(biāo)的另外一特定屬性。如果該屬性是離散的,通常稱(chēng)之為‘分類(lèi)’,而如果目標(biāo)屬性是一個(gè)連續(xù)的值,則稱(chēng)之為‘回歸’。

另一種被稱(chēng)為描述任務(wù)。

這是指找出數(shù)據(jù)間潛在的聯(lián)系模式。比方說(shuō)兩個(gè)數(shù)據(jù)存在強(qiáng)關(guān)聯(lián)的關(guān)系,像大數(shù)據(jù)分析發(fā)現(xiàn)的一個(gè)特點(diǎn):買(mǎi)尿布的男性通常也會(huì)買(mǎi)點(diǎn)啤酒,那么商家根據(jù)這個(gè)可以將這兩種商品打包出售來(lái)提高業(yè)績(jī)。另外一個(gè)非常重要的就是聚類(lèi)分析,這也是在日常數(shù)據(jù)挖掘中應(yīng)用非常非常頻繁的一種分析,旨在發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,可以在沒(méi)有標(biāo)簽的情況下將所有的數(shù)據(jù)分為合適的幾類(lèi)來(lái)進(jìn)行分析或者降維。

其他的描述任務(wù)還有異常檢測(cè),其過(guò)程類(lèi)似于聚類(lèi)的反過(guò)程,聚類(lèi)將相似的數(shù)據(jù)聚合在一起,而異常檢測(cè)將離群太遠(yuǎn)的點(diǎn)給剔除出來(lái)。

03 數(shù)據(jù)挖掘的一般過(guò)程包括以下幾個(gè)方面:

  1. 數(shù)據(jù)預(yù)處理
  2. 數(shù)據(jù)挖掘
  3. 后處理

首先來(lái)說(shuō)說(shuō)數(shù)據(jù)預(yù)處理。之所以有這樣一個(gè)步驟,是因?yàn)橥ǔ5臄?shù)據(jù)挖掘需要涉及相對(duì)較大的數(shù)據(jù)量,這些數(shù)據(jù)可能來(lái)源不一導(dǎo)致格式不同,可能有的數(shù)據(jù)還存在一些缺失值或者無(wú)效值,如果不經(jīng)處理直接將這些‘臟’數(shù)據(jù)放到模型中去跑,非常容易導(dǎo)致模型計(jì)算的失敗或者可用性很差,所以數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中都不可或缺的一步。

至于數(shù)據(jù)挖掘和后處理相對(duì)來(lái)說(shuō)就容易理解多了。完成了數(shù)據(jù)的預(yù)處理,我們通常進(jìn)行特征構(gòu)造,然后放到特定的模型中去計(jì)算,利用某種標(biāo)準(zhǔn)去評(píng)判不同模型或組合模型的表現(xiàn),最后確定一個(gè)最合適的模型用于后處理。后處理的過(guò)程相當(dāng)于已經(jīng)發(fā)現(xiàn)了那個(gè)我們想要找到的結(jié)果,然后去應(yīng)用它或者用合適的方式將其表示出來(lái)。

這里涉及到數(shù)據(jù)挖掘的一系列算法,主要分為分類(lèi)算法,聚類(lèi)算法和關(guān)聯(lián)規(guī)則三大類(lèi),這三類(lèi)基本上涵蓋了目前商業(yè)市場(chǎng)對(duì)算法的所有需求。而這三類(lèi)里,最為經(jīng)典的則是下面這十大算法。 

1、分類(lèi)決策樹(shù)算法C4.5

C4.5,是機(jī)器學(xué)習(xí)算法中的一種分類(lèi)決策樹(shù)算法,它是決策樹(shù)(決策樹(shù),就是做決策的節(jié)點(diǎn)間的組織方式像一棵倒栽樹(shù))核心算法ID3的改進(jìn)算法。

2、K平均算法

K平均算法(k-means algorithm)是一個(gè)聚類(lèi)算法,把n個(gè)分類(lèi)對(duì)象根據(jù)它們的屬性分為k類(lèi)(k

3、支持向量機(jī)算法

支持向量機(jī)(Support Vector Machine)算法,簡(jiǎn)記為SVM,是一種監(jiān)督式學(xué)習(xí)的方法,廣泛用于統(tǒng)計(jì)分類(lèi)以及回歸分析中。

4、The Apriori algorithm

Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,其核心是基于兩階段“頻繁項(xiàng)集”思想的遞推算法。其涉及到的關(guān)聯(lián)規(guī)則在分類(lèi)上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。

5、最大期望(EM)算法

最大期望(EM,Expectation–Maximization)算法是在概率模型中尋找參數(shù)最大似然估計(jì)的算法,其中概率模型依賴(lài)于無(wú)法觀測(cè)的隱藏變量。最大期望經(jīng)常用在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的數(shù)據(jù)集聚領(lǐng)域。

6、Page Rank算法

Page Rank根據(jù)網(wǎng)站的外部鏈接和內(nèi)部鏈接的數(shù)量和質(zhì)量,衡量網(wǎng)站的價(jià)值。

7、Ada Boost 迭代算法

Ada boost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類(lèi)器(弱分類(lèi)器),然后把這些弱分類(lèi)器集合起來(lái),構(gòu)成一個(gè)更強(qiáng)的最終分類(lèi)器(強(qiáng)分類(lèi)器)。

8、kNN 最近鄰分類(lèi)算法

K最近鄰(k-Nearest Neighbor,KNN)分類(lèi)算法,是一個(gè)理論上比較成熟的方法,也是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一。該方法的思路是:如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類(lèi)別,則該樣本也屬于這個(gè)類(lèi)別。

9、Naive Bayes 樸素貝葉斯算法

Naive Bayes 算法通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,并選擇具有最大后驗(yàn)概率的類(lèi)作為該對(duì)象所屬的類(lèi)。樸素貝葉斯模型所需估計(jì)的參數(shù)很少,對(duì)缺失數(shù)據(jù)不太敏感,其算法也比較簡(jiǎn)單。

10、CART: 分類(lèi)與回歸樹(shù)算法。

分類(lèi)與回歸樹(shù)算法(CART,Classification and Regression Trees)是分類(lèi)數(shù)據(jù)挖掘算法的一種,有兩個(gè)關(guān)鍵的思想:第一個(gè)是關(guān)于遞歸地劃分自變量空間的想法;第二個(gè)想法是用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝。

結(jié)語(yǔ):

一入數(shù)據(jù)挖掘深似海,從此奮斗到天明。光是這十大算法,就夠你啃上好一段時(shí)間了......

但請(qǐng)不要恐慌,想想自己可以利用機(jī)器的力量、數(shù)學(xué)的力量理解世界的運(yùn)行規(guī)律,去預(yù)測(cè)或者利用研究到的東西做一些有意思的事情,這也是一種不可多得的享受!

【本文為51CTO專(zhuān)欄作者“移動(dòng)Labs”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】

戳這里,看該作者更多好文

責(zé)任編輯:未麗燕 來(lái)源: 移動(dòng)Labs
相關(guān)推薦

2022-09-29 13:09:38

DataClassPython代碼

2025-01-15 09:06:57

servlet服務(wù)器Java

2022-09-06 11:21:49

光網(wǎng)絡(luò)光纖

2022-03-14 08:01:06

LRU算法線(xiàn)程池

2023-05-17 11:33:45

梯度下降機(jī)器學(xué)習(xí)

2019-04-19 14:03:52

APISDK接口

2023-04-11 08:01:32

Web 開(kāi)發(fā)源代碼映射

2023-11-20 08:18:49

Netty服務(wù)器

2023-11-06 08:16:19

APM系統(tǒng)運(yùn)維

2022-11-11 19:09:13

架構(gòu)

2018-10-22 08:14:04

2020-10-08 14:32:57

大數(shù)據(jù)工具技術(shù)

2024-05-27 00:00:00

.NET游戲引擎C#

2019-11-14 09:16:56

物聯(lián)網(wǎng)技術(shù)路由器

2023-10-27 08:15:45

2022-02-24 07:34:10

SSL協(xié)議加密

2023-11-08 08:15:48

服務(wù)監(jiān)控Zipkin

2024-05-07 08:49:36

Hadoop數(shù)據(jù)存儲(chǔ)-分布式存儲(chǔ)

2020-02-02 15:14:24

HTTP黑科技前端

2022-04-28 09:22:46

Vue灰度發(fā)布代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 手机在线不卡av | 成人午夜电影网 | 国产99视频精品免费播放照片 | 中文字幕国产视频 | 精品1区2区 | 欧美二区三区 | 国产精品久久久久久久久久久久午夜片 | 成人免费在线观看 | 男人天堂av网站 | 91麻豆精品国产91久久久久久久久 | 国产精品久久二区 | 久久高清| 日韩av一区二区在线观看 | 欧美性乱| 国产综合视频 | 99国产精品99久久久久久 | 中文字幕第7页 | 亚洲网址在线观看 | 亚洲精品一区二区三区 | 蜜桃日韩 | 久久av网站 | 欧美日韩国产一区二区 | 久久亚洲一区 | 国产日韩精品在线 | 久久久久9999亚洲精品 | av色站| 天天干天天干 | 偷拍自拍在线观看 | 免费人成在线观看网站 | 日韩中文字幕在线视频 | 2020国产在线 | 日韩一区中文字幕 | 国产精品久久国产精品99 | 日韩国产精品一区二区三区 | 精品亚洲一区二区三区四区五区高 | 亚洲精品在线视频 | 国产欧美精品一区二区 | 一区二区三区免费 | 久久国内精品 | 亚洲精品一区二区三区在线 | 日韩在线观看视频一区 |