成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何為數據集選擇正確的聚類算法

大數據 算法
應用聚類算法比選擇最佳算法要容易得多。 每種類型都有其優缺點,如果您想要一個整潔的集群結構,就必須認真考慮。本文介紹了最廣泛的聚類算法及其深入闡述。根據每種方法的特殊性,提供了對使用其應用的建議。

應用聚類算法比選擇最佳算法要容易得多。 每種類型都有其優缺點,如果您想要一個整潔的集群結構,就必須認真考慮。

數據聚類是安排正確的整個數據模型的重要步驟。為了進行分析,應根據共同點整理信息。 主要的問題是,什么樣的公共參數提供最好的結果以及“最好”包含什么意思。

本文介紹了最廣泛的聚類算法及其深入闡述。根據每種方法的特殊性,提供了對使用其應用的建議。

四種基本算法以及如何選擇

根據聚類模型,可以區分四種常見的算法類別。一般而言,算法不少于100種,但是它們的流行程度以及應用領域都不是較為廣泛。

基于整個數據集對象之間距離的計算,被稱為基于連接的或分層的。根據算法的“方向”,它可以聯合或相反地分割信息數組——聚集和分裂的名稱就是從這種精確的變化中出現的。最流行或者說最合理的類型是凝聚型,您首先輸入數據點的數量,然后將這些數據點合并成越來越大的集群,直到達到極限。

基于連接的集群化最突出的例子是植物分類。數據集的“樹”開始于一個特定的物種,結束于一些植物“王國”,每個“王國”由更小的集群(門、類、目等)組成。

在應用了其中一種基于連接的算法之后,您將收到一個數據樹狀圖,它將向您展示信息的結構,而不是其在集群上的明顯分離。這樣的特性既有好處也有壞處:算法的復雜性可能會變得過于復雜,或者根本不適用于層次結構很少甚至沒有層次結構的數據集。還會出現糟糕的性能:由于大量的重復,完整的處理將花費大量時間。最重要的是無法得到精確的結構使用層次算法。

如何為數據集選擇正確的聚類算法

同時,需要從計數器輸入的數據歸結為數據點的數量,不會對最終結果產生實質性的影響,或者是預先設定的距離度量,它是粗略測量的。

根據我的經驗,基于中心體的集群是最常見的模型,因為它比較簡單。該模型旨在將數據集的每個對象分類到特定的集群中。集群的數量(k)是隨機選擇的,這可能是該方法最大的“弱點”。這種算法由于與k近鄰(k-nearest neighbor, kNN)方法的相似性,在機器學習中特別受歡迎。

如何為數據集選擇正確的聚類算法

計算過程包括多個步驟。首先,選擇輸入數據,將數據集劃分的大致聚類數。聚類的中心應放置在盡可能遠的位置,這將提高結果的準確性。

其次,該算法找到數據集的每個對象與每個聚類之間的距離。最小坐標確定了將對象移動到哪個群集。

之后,將根據所有對象坐標的平均值重新計算聚類的中心。重復算法的第一步,但是重新計算了集群的新中心。除非達到某些條件,否則此類迭代將繼續。例如,當集群的中心距上次迭代沒有移動或移動不明顯時,該算法可能會結束。

盡管數學和編碼都很簡單,但k均值仍有一些缺點,因此我無法在所有可能的地方使用它。那包括:

  • 疏忽了每個集群的邊緣,因為優先級設置在集群的中心,而不是邊界;
  • 無法創建一個數據集結構,該結構的對象可以按等量的方式分類到多個群集中;
  • 需要猜測最佳k值,或者需要進行初步計算以指定此量規。

同時,期望最大化算法可以避免那些復雜情況,同時提供更高的準確性。簡而言之,它計算每個數據集點與我們指定的所有聚類的關聯概率。用于該聚類模型的主要“工具”是高斯混合模型(GMM),假設數據集的點通常遵循高斯分布。

k-means算法基本上是EM原理的簡化版本。它們都需要手動輸入集群數,這是此方法所要面對的主要問題。除此之外,計算原理(對于GMM或k均值)很簡單:集群的近似范圍是在每次新迭代中逐漸指定的。

與基于質心的模型不同,EM算法允許對兩個或多個聚類的點進行分類-它僅向您展示每個事件的可能性,您可以使用該事件進行進一步的分析。更重要的是,每個聚類的邊界組成了不同度量的橢球體,這與k均值不同,在k均值中,聚類在視覺上表示為圓形。但是,該算法對于對象不遵循高斯分布的數據集根本不起作用。這是該方法的主要缺點:它更適用于理論問題,而不是實際的測量或觀察。

最后,基于數據密度的聚類成為數據科學家心中最青睞的非官方方法,包括模型的要點,將數據集劃分為聚類,計數器會輸入ε參數,即“鄰居”距離。因此,如果對象位于ε半徑的圓(球)內,則它與群集有關。

如何為數據集選擇正確的聚類算法

DBSCAN(基于密度的應用程序噪聲空間聚類)算法會逐步檢查每個對象,將其狀態更改為“已查看”,將其分類到集群或噪聲中,直到最后處理整個數據集。使用DBSCAN確定的集群可以具有任意形狀,因此非常精確。此外,算法不會讓你計算集群的數量,它是自動確定的。

不過,即使是DBSCAN這樣的杰作也有缺點。如果數據集是由可變密度的數據集組成,則該方法的結果較差。如果對象的位置太近,并且無法輕松估算出ε參數,那么這也不是您的選擇

綜上所述,不存在錯誤選擇的算法——它們中的一些只是更適合特定的數據集結構。為了選擇最好的、更合適的算法,您需要全面了解它們的優點、缺點和特性。

有些算法可能在一開始就被排除在外,例如它們不符合數據集規范。為了避免重復的工作,你可以花一點時間來整理和記憶信息,而不是選擇試錯的道路。

責任編輯:未麗燕 來源: IT168
相關推薦

2022-10-31 15:04:59

2017-11-09 08:51:28

2021-03-28 17:14:38

數據庫APP技術

2023-10-31 09:00:00

2021-03-15 07:55:55

API網關微服務架構

2015-06-08 10:07:04

公有云云服務商選擇公有云遷移

2023-08-09 17:43:40

光纖電纜光纖終端盒

2022-04-27 18:20:19

綜合布線交換機網絡

2023-04-02 14:16:45

凸集算法集合

2023-05-10 08:00:00

聚類分析數據分析聚類算法

2012-10-30 09:28:52

2019-06-20 05:53:49

物聯網設備連接協議物聯網

2017-11-13 12:53:14

時間序列數據數據k-均值

2019-05-07 11:18:51

機器學習人工智能計算機

2013-07-23 10:31:59

冗余數據遠程數據中心數據中心

2018-04-20 10:54:52

數據集成數據科學工具

2018-04-23 14:58:27

大數據

2018-07-03 15:26:35

算法機器學習數據

2017-11-20 13:32:54

微服務數據庫開發

2024-03-28 09:00:00

NoSQL數據庫
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久亚洲一区 | 婷婷狠狠 | 国产农村妇女精品一区 | 欧美精品一区在线 | 日韩免费在线视频 | 中文字幕欧美日韩 | 久久久国产一区 | 久久这里有精品 | 草草视频在线观看 | 秋霞a级毛片在线看 | av免费网站在线观看 | 亚洲欧美一区二区三区国产精品 | 好姑娘高清在线观看电影 | 91精品国产91| 欧美片网站免费 | 精品国产不卡一区二区三区 | 国产视频二区 | 狠狠操电影 | 久久久www | 一区二区三区免费网站 | 久久久久亚洲精品 | 国产精品久久777777 | www久久久| 久久九九99 | 男女激情网 | 欧美激情在线精品一区二区三区 | 日本网站免费观看 | 黄色精品| 日韩不卡在线 | 99精品欧美一区二区三区综合在线 | 日韩精品一区二区三区中文在线 | 日韩欧美成人精品 | 国产精品亚洲精品久久 | 国产精品自在线 | 欧美日韩在线播放 | 国产精品美女 | 91电影 | 国精品一区二区 | 欧美激情国产日韩精品一区18 | 亚洲一区有码 | 中文字幕在线一区 |