成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python密度聚類算法-DBSCAN實踐

開發 后端 算法
去年學聚類算法的R語言的時候,有層次聚類、系統聚類、K-means聚類、K中心聚類,最后呢,被DBSCAN聚類算法迷上了。

本文主要內容:

  1. 前言
  2. DBSCAN聚類算法
  3. 參數選擇
  4. DBSCAN算法迭代可視化展示
  5. 常用評估方法:輪廓系數
  6. 用Python實現DBSCAN聚類算法

一、前言

去年學聚類算法的R語言的時候,有層次聚類、系統聚類、K-means聚類、K中心聚類,最后呢,被DBSCAN聚類算法迷上了。

為什么呢,首先它可以發現任何形狀的簇,其次我認為它的理論也是比較簡單易懂的,今年在python這門語言上我打算好好研究DBSCAN。

下面貼上它的官方解釋:

  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)是一種基于密度的空間聚類算法。
  • 該算法將具有足夠密度的區域劃分為簇,并在具有噪聲的空間數據庫中發現任意形狀的簇,它將簇定義為密度相連的點的最大集合。

二、DBSCAN聚類算法

文字描述不好懂,先看下面這個圖:

 

Python密度聚類算法-DBSCAN實踐

上面這些點是分布在樣本空間的眾多樣本,現在我們的目標是把這些在樣本空間中距離相近的聚成一類。

我們發現A點附近的點密度較大,紅色的圓圈根據一定的規則在這里滾啊滾,最終收納了A附近的5個點,標記為紅色也就是定為同一個簇。

其它沒有被收納的根據一樣的規則成簇。

形象來說,我們可以認為這是系統在眾多樣本點中隨機選中一個,圍繞這個被選中的樣本點畫一個圓,規定這個圓的半徑以及圓內最少包含的樣本點,如果在指定半徑內有足夠多的樣本點在內,那么這個圓圈的圓心就轉移到這個內部樣本點,繼續去圈附近其它的樣本點,類似傳銷一樣,繼續去發展下線。

等到這個滾來滾去的圈發現所圈住的樣本點數量少于預先指定的值,就停止了。那么我們稱最開始那個點為核心點,如A,停下來的那個點為邊界點,如B、C,沒得滾的那個點為離群點,如N)。

基于密度這點有什么好處呢?

我們知道kmeans聚類算法只能處理球形的簇,也就是一個聚成實心的團(這是因為算法本身計算平均距離的局限)。但往往現實中還會有各種形狀,比如下面兩張圖,環形和不規則形,這個時候,那些傳統的聚類算法顯然就悲劇了。

于是就思考,樣本密度大的成一類唄,這就是DBSCAN聚類算法。

 

Python密度聚類算法-DBSCAN實踐

三、參數選擇

上面提到了紅色圓圈滾啊滾的過程,這個過程就包括了DBSCAN算法的兩個參數,這兩個參數比較難指定,公認的指定方法簡單說一下:

半徑:半徑是最難指定的 ,大了,圈住的就多了,簇的個數就少了;反之,簇的個數就多了,這對我們最后的結果是有影響的。我們這個時候K距離可以幫助我們來設定半徑r,也就是要找到突變點,比如: 以上雖然是一個可取的方式,但是有時候比較麻煩 ,大部分還是都試一試進行觀察,用k距離需要做大量實驗來觀察,很難一次性把這些值都選準。

MinPts:這個參數就是圈住的點的個數,也相當于是一個密度,一般這個值都是偏小一些,然后進行多次嘗試

四、DBSCAN算法迭代可視化展示

國外有一個特別有意思的網站,它可以把我們DBSCAN的迭代過程動態圖畫出來。

 

Python密度聚類算法-DBSCAN實踐

網址:naftaliharris[1]

 

Python密度聚類算法-DBSCAN實踐

設置好參數,點擊GO! 就開始聚類了!

五、常用評估方法:輪廓系數

這里提一下聚類算法中最常用的評估方法——輪廓系數(Silhouette Coefficient):

 

Python密度聚類算法-DBSCAN實踐

計算樣本i到同簇其它樣本到平均距離ai,ai越小,說明樣本i越應該被聚類到該簇(將ai稱為樣本i到簇內不相似度);

計算樣本i到其它某簇Cj的所有樣本的平均距離bij,稱為樣本i與簇Cj的不相似度。定義為樣本i的簇間不相似度:bi=min(bi1,bi2,...,bik2);

說明:

  • si接近1,則說明樣本i聚類合理;
  • si接近-1,則說明樣本i更應該分類到另外的簇;
  • 若si近似為0,則說明樣本i在兩個簇的邊界上;

六、用Python實現DBSCAN聚類算法

導入數據:

  1. import pandas as pd 
  2. from sklearn.datasets import load_iris 
  3. # 導入數據,sklearn自帶鳶尾花數據集 
  4. iris = load_iris().data 
  5. print(iris) 

輸出:

 

Python密度聚類算法-DBSCAN實踐

使用DBSCAN算法:

  1. from sklearn.cluster import DBSCAN 
  2.  iris_db = DBSCAN(eps=0.6,min_samples=4).fit_predict(iris) 
  3. # 設置半徑為0.6,最小樣本量為2,建模 
  4. db = DBSCAN(eps=10, min_samples=2).fit(iris) 
  5.   
  6. # 統計每一類的數量 
  7. counts = pd.value_counts(iris_db,sort=True
  8. print(counts) 

 

Python密度聚類算法-DBSCAN實踐

可視化:

  1. import matplotlib.pyplot as plt 
  2. plt.rcParams['font.sans-serif'] = [u'Microsoft YaHei'
  3.  
  4. fig,ax = plt.subplots(1,2,figsize=(12,12)) 
  5.  
  6. # 畫聚類后的結果 
  7. ax1 = ax[0] 
  8. ax1.scatter(x=iris[:,0],y=iris[:,1],s=250,c=iris_db) 
  9. ax1.set_title('DBSCAN聚類結果',fontsize=20) 
  10.  
  11. # 畫真實數據結果 
  12. ax2 = ax[1] 
  13. ax2.scatter(x=iris[:,0],y=iris[:,1],s=250,c=load_iris().target) 
  14. ax2.set_title('真實分類',fontsize=20) 
  15. plt.show() 

 

Python密度聚類算法-DBSCAN實踐

我們可以從上面這個圖里觀察聚類效果的好壞,但是當數據量很大,或者指標很多的時候,觀察起來就會非常麻煩。

這時候可以使用輪廓系數來判定結果好壞,聚類結果的輪廓系數,定義為S,是該聚類是否合理、有效的度量。

聚類結果的輪廓系數的取值在[-1,1]之間,值越大,說明同類樣本相距越近,不同樣本相距越遠,則聚類效果越好。

輪廓系數以及其他的評價函數都定義在sklearn.metrics模塊中,在sklearn中函數silhouette_score()計算所有點的平均輪廓系數。

  1. from sklearn import metrics   
  2. # 就是下面這個函數可以計算輪廓系數(sklearn真是一個強大的包) 
  3. score = metrics.silhouette_score(iris,iris_db)  
  4. score 

結果: 0.364

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2020-05-13 15:57:59

聚類分析算法監督學習

2025-05-22 10:06:49

2024-08-08 12:33:55

算法

2018-05-28 15:33:09

無監督學習算法Python

2023-11-26 18:26:26

聚類評價指標監督學習

2024-10-18 17:14:13

2018-04-16 12:14:34

數據科學機器學習神經網絡

2017-05-15 11:10:10

大數據聚類算法

2022-05-17 09:14:50

聚類算法python

2023-10-31 09:00:00

2022-07-29 10:31:33

算法Python

2014-07-02 10:34:08

聚類算法算法

2011-07-26 10:16:14

SQL Server數據挖掘

2011-07-25 15:39:49

SQL SERVER數聚類算法順序聚類算法

2019-10-12 10:11:02

數據集聚類算法

2023-04-02 14:16:45

凸集算法集合

2023-05-10 08:00:00

聚類分析數據分析聚類算法

2017-04-05 09:20:14

聚類算法機器學習大數據

2017-04-07 13:00:49

機器學習大數據聚類算法

2023-12-01 16:27:05

機器學習無監督學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 无码日韩精品一区二区免费 | 中文字幕在线视频免费观看 | 操皮视频 | 免费人成在线观看网站 | 成年女人免费v片 | 国产一级片在线播放 | 国产欧美久久一区二区三区 | 国产精品久久久久久久久久久久冷 | 中文在线一区二区 | 极品销魂美女一区二区 | 不卡视频在线 | 国产精品自拍视频 | 欧美黄a | 欧美精品乱码久久久久久按摩 | 午夜男人视频 | 欧美亚洲日本 | 亚洲日韩欧美一区二区在线 | 九九热免费视频在线观看 | 五月综合久久 | 中文av网站 | 国产高清视频一区 | 一a级片 | 欧美精品一区二区三区在线播放 | 国产精品区二区三区日本 | 精品一二区 | 成人精品在线观看 | 精品国产99 | 国产一级电影网 | 日韩中文字幕 | 国产日韩欧美 | 国产精品久久久久久久久久免费 | 成人片免费看 | 国产精品无码久久久久 | 国产精品黄色 | 在线观看免费高清av | 亚洲另类视频 | 91中文视频 | 成人av一区二区在线观看 | 亚洲一区毛片 | 中文在线一区 | 国产成人精品视频 |