成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據挖掘領域十大經典算法之—樸素貝葉斯算法(附代碼)

大數據 算法
NaïveBayes算法,又叫樸素貝葉斯算法,樸素:特征條件獨立;貝葉斯:基于貝葉斯定理。屬于監督學習的生成模型,實現簡單,沒有迭代,并有堅實的數學理論(即貝葉斯定理)作為支撐。在大量樣本下會有較好的表現,不適用于輸入向量的特征條件有關聯的場景。

簡介

NaïveBayes算法,又叫樸素貝葉斯算法,樸素:特征條件獨立;貝葉斯:基于貝葉斯定理。屬于監督學習的生成模型,實現簡單,沒有迭代,并有堅實的數學理論(即貝葉斯定理)作為支撐。在大量樣本下會有較好的表現,不適用于輸入向量的特征條件有關聯的場景。

數據挖掘領域十大經典算法之—樸素貝葉斯算法(附代碼)

基本思想

(1)病人分類的例子

某個醫院早上收了六個門診病人,如下表:

 

現在又來了第七個病人,是一個打噴嚏的建筑工人。請問他患上感冒的概率有多大?

根據貝葉斯定理:

 

因此,這個打噴嚏的建筑工人,有66%的概率是得了感冒。同理,可以計算這個病人患上過敏或腦震蕩的概率。比較這幾個概率,就可以知道他最可能得什么病。

這就是貝葉斯分類器的基本方法:在統計資料的基礎上,依據某些特征,計算各個類別的概率,從而實現分類。

(2)樸素貝葉斯分類器的公式

假設某個體有n項特征(Feature),分別為F1、F2、…、Fn?,F有m個類別(Category),分別為C1、C2、…、Cm。貝葉斯分類器就是計算出概率***的那個分類,也就是求下面這個算式的***值:

 

由于 P(F1F2…Fn) 對于所有的類別都是相同的,可以省略,問題就變成了求

 

的***值。

樸素貝葉斯分類器則是更進一步,假設所有特征都彼此獨立,因此

 

上式等號右邊的每一項,都可以從統計資料中得到,由此就可以計算出每個類別對應的概率,從而找出***概率的那個類。

雖然”所有特征彼此獨立”這個假設,在現實中不太可能成立,但是它可以大大簡化計算,而且有研究表明對分類結果的準確性影響不大。

(3)拉普拉斯平滑(Laplace smoothing)

也就是參數為1時的貝葉斯估計,當某個分量在總樣本某個分類中(觀察樣本庫/訓練集)從沒出現過,會導致整個實例的計算結果為0。為了解決這個問題,使用拉普拉斯平滑/加1平滑進行處理。

它的思想非常簡單,就是對先驗概率的分子(劃分的計數)加1,分母加上類別數;對條件概率分子加1,分母加上對應特征的可能取值數量。這樣在解決零概率問題的同時,也保證了概率和依然為1。

eg:假設在文本分類中,有3個類,C1、C2、C3,在指定的訓練樣本中,某個詞語F1,在各個類中觀測計數分別為=0,990,10,即概率為P(F1/C1)=0,P(F1/C2)=0.99,P(F1/C3)=0.01,對這三個量使用拉普拉斯平滑的計算方法如下:

  1. 1/1003 = 0.001,991/1003=0.988,11/1003=0.011 

實際應用場景

  • 文本分類
  • 垃圾郵件過濾
  • 病人分類
  • 拼寫檢查

樸素貝葉斯模型

樸素貝葉斯常用的三個模型有:

  • 高斯模型:處理特征是連續型變量的情況
  • 多項式模型:最常見,要求特征是離散數據
  • 伯努利模型:要求特征是離散的,且為布爾類型,即true和false,或者1和0

代碼實現

基于多項式模型的樸素貝葉斯算法(在github獲取)

 

測試數據集為MNIST數據集,獲取地址train.csv

運行結果

 

 

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2018-10-27 15:47:35

CART算法決策樹

2016-01-29 11:00:55

數據挖掘算法大數據

2018-05-03 09:36:53

算法數據挖掘C4.5

2018-04-25 08:10:50

算法k-means代碼

2013-02-25 09:46:35

數據挖掘算法ICDM

2011-01-26 09:14:43

數據挖掘

2018-11-14 09:40:05

排序算法Java編程語言

2021-10-31 07:38:37

排序算法代碼

2019-08-28 11:08:51

排序算法Java

2017-07-18 10:50:38

前端JavaScript排序算法

2022-03-10 12:03:33

Python算法代碼

2017-07-24 10:36:37

Python機器學習樸素貝葉斯

2021-11-08 15:12:48

排序算法面試

2010-08-31 14:01:48

CSS

2017-07-27 14:21:44

2012-09-24 10:13:35

貝葉斯

2018-02-01 18:45:12

機器學習算法線性回歸

2017-11-07 11:17:40

樸素貝葉斯畫像數據數據挖掘

2021-01-26 05:33:07

排序算法快速

2011-05-17 13:39:01

算法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美性tv | 欧美日韩国产综合在线 | 国产一二区视频 | 日韩欧美高清dvd碟片 | 久久aⅴ乱码一区二区三区 亚洲欧美综合精品另类天天更新 | 日韩视频在线免费观看 | 国产高清一区二区三区 | 91精品国产91久久久久久最新 | 精品欧美一区二区在线观看欧美熟 | 亚洲精品一区二区三区在线 | 伊久在线 | 91免费观看 | 欧产日产国产精品国产 | 亚洲啪啪 | 在线看片网站 | 成人高潮片免费视频欧美 | 男女视频在线免费观看 | 99精品国产一区二区三区 | 九九热最新地址 | 国产一级在线 | 精品综合久久久 | 日本在线中文 | 午夜视频在线免费观看 | 欧美久久一区 | 欧美日韩在线成人 | 欧美8一10sex性hd | 特黄特黄a级毛片免费专区 av网站免费在线观看 | 91色在线视频 | 夜夜夜操 | 亚洲免费观看 | 国产精品久久久久久久久久久久冷 | 国产 日韩 欧美 在线 | 亚洲视频在线观看免费 | 正在播放国产精品 | 国产免费自拍 | 国产精品区二区三区日本 | 99这里只有精品视频 | 日韩av一区二区在线观看 | 欧美激情综合 | 中文字幕日韩在线 | 亚洲一区在线免费观看 |