成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

走進大數據之拓撲數據分析方法

大數據 數據分析
拓撲數據分析(TDA),顧名思義,就是把拓撲學與數據分析結合的一種分析方法,用于深入研究大數據中潛藏的有價值的關系。相比于主成分分析、聚類分析這些常用的方法,TDA不僅可以有效地捕捉高維數據空間的拓撲信息,而且擅長發現一些用傳統方法無法發現的小分類。這種方法也因此曾在基因與癌癥研究領域大顯身手。

拓撲數據分析(TDA),顧名思義,就是把拓撲學與數據分析結合的一種分析方法,用于深入研究大數據中潛藏的有價值的關系。

相比于主成分分析、聚類分析這些常用的方法,TDA不僅可以有效地捕捉高維數據空間的拓撲信息,而且擅長發現一些用傳統方法無法發現的小分類。這種方法也因此曾在基因與癌癥研究領域大顯身手。

[[182447]]

1.什么是拓撲數據分析

拓撲學研究的是一些特殊的幾何性質,這些性質在圖形連續改變形狀后還能繼續保持不變,稱為“拓撲性質”。而在復雜的高維數據內部也存在著類似的結構性質,我們可以形象地稱之為數據的形狀(特征)。

和通常研究的成對關系相比,這種相互關系的形狀之中可能潛藏了巨大的研究價值。要理解數據的形狀,就必須求助于拓撲學。TDA所做的就是抽取這種形狀并進行分析。

那么到底如何來刻畫數據的形狀呢?下圖是一個簡單的例子:

走進大數據之拓撲數據分析方法

左邊是一只手的采樣數據點,宏觀看來像一只手。右邊則是經過拓撲數據分析得到的圖,有點像一只手的骨架。從左邊到右邊,就是一次形狀重構的過程。這種重構用了很少量的點和邊去刻畫原始數據集,同時保留了原始數據的基本特征。

2.拓撲數據分析的三個要點

1)TDA的輸入可以是一個距離矩陣,表示任意兩數據點之間的距離。

它研究的是與坐標無關的形狀,完全不受坐標的限制。這也意味著拓撲形狀的構建依賴于距離函數的定義,或者說相似度概念的定義。坐標無關的特性,使得TDA可以整合來自不同平臺的數據,盡管這些數據的結構不太一樣,你只需要給出合理的距離函數。這是TDA的一個優點,通用性。

舉個例子,TDA在癌癥分析領域的成功,這種通用性是一個重要原因。因為不同癌癥數據集的指標、結構都不盡相同,而TDA可以輕松整合。

2)TDA研究的數據形狀,可以容忍數據小范圍的變形與失真。

想象在一塊橡皮上寫了一個字母”A”,你用力擠壓拉扯這塊橡皮,字母”A”雖然有點扭曲變形,但是“一個三角形帶兩個腳”這樣的基本特征仍然存在。從上面“手”的例子也可以看出,TDA對小誤差的容忍度很大。

3)如果我們要粗略的描繪一個湖泊輪廓,最簡潔的就是使用一個多邊形。

拓撲處理的是抽象的形狀,最典型的例子就是用六邊形來表示圓,這只需要用到6個點和6條邊。

TDA使用這種形式壓縮數據,用有限的點和邊來表示大量的數據,并且保留了數據重要的特征。

3.拓撲數據分析的主要步驟

用一個濾波函數對每個數據點計算一個濾波值。這個濾波函數可以是數據矩陣的線性投影,比如PCA。也可以是距離矩陣的密度估計或者中心度指標,比如L-infinity(L-infinity的取值是該點到離它最遠的點的距離,是一個中心度指標)。

數據點按照其濾波值,從小到大被分到不同的濾波值區間里。參照下圖中“手”被切成等寬的塊。但需要注意的是,相鄰的濾波值區間設置有一定的重疊區域,也就是重疊區域的點同時屬于兩個區間(這一點很重要)。

對每個區間里的數據分別做聚類。

把上一步驟中各區間聚類的得到的小類放在一起,每一個小類用一個大小不同的圓表示。若兩個類之間存在相同的原始數據點(這就是區間需要相互重疊的原因),則在它們之間加上一條邊。

對上述圓和邊組成的圖形施加一層力學布局,讓其達到平衡,就得到最終的“數據圖形”。

下圖是一個簡單的示意圖,便于理解:

走進大數據之拓撲數據分析方法

走進大數據之拓撲數據分析方法

4.案例:ayasdi公司關于NBA球員的研究

有一份關于NBA球員的數據集,這份數據集編碼了球員在場上表現的各個方面,包括籃板、助攻、失誤、搶斷、封鎖、犯規、得分等各項指標的每分鐘頻率。對這份數據集進行拓撲化后,得到了下面這張圖。

走進大數據之拓撲數據分析方法

籃球運動員的位置一般分為控球后衛、得分后衛、小前鋒、大前鋒、中鋒。然而在上圖的網絡中,我們看到了比傳統的五個位置更為精細的結構。比如在網絡的左側,守衛被細分成了三個組,攻擊守衛、防守守衛、擊球守衛。在網絡的中下部我們可以看到三個比較小的塊,其中有“NBA全明星”(Allstar NBA) 和“NBA全明星第二梯隊”(Allstar NBA 2nd Team)。

“NBA全明星”這個組幾乎由NBA歷史上最優秀的球員組成,“第二梯隊”雖然也都是由全能的優秀球員組成但表現上可能不如全明星組。

有意思的是,在全明星組中還有一些不太知名的球員,這些球員也許就是潛在的未來明星球員。

寫在最后

拓撲數據分析作為一種強大的工具,已經開始被廣泛的應用。在未來基于TDA的算法肯定會不斷的提出和完善。目前關于TDA詳細的中文資料比較少,附上一份簡單的python實現以供交流>>>

責任編輯:未麗燕 來源: 36大數據
相關推薦

2013-01-21 10:55:52

大數據Ayasdi拓撲數據

2021-10-19 17:52:56

數據分析標簽

2017-04-28 08:13:08

大數據框架HDFS

2020-07-16 17:26:05

數據分析轉化用戶

2015-08-14 10:28:09

大數據

2015-08-19 13:50:19

數據分析

2019-10-14 15:57:36

數據分析多維度二八法

2015-07-23 09:34:57

大數據數據分析

2013-04-09 09:28:20

大數據大數據全球技術峰會

2021-09-07 11:14:36

數據分析互聯網

2021-10-27 19:31:37

數據分析Mece

2022-08-03 14:30:52

大數據數據分析數據收集

2015-08-11 15:52:52

大數據數據分析

2021-10-26 00:00:53

數據分析指標

2021-09-26 18:38:36

數據分析DEA

2021-10-12 15:25:08

大數據數據分析

2022-03-29 14:49:14

大數據數據分析

2021-09-09 17:38:55

數據分析矩陣

2021-08-06 11:01:23

大數據數據分析技術

2015-10-28 10:01:52

數據分析大數據小數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日夜夜免费精品 | 国产亚洲欧美日韩精品一区二区三区 | 玖玖国产| 91亚洲精品国偷拍自产在线观看 | 日本一道本视频 | 久久九九影视 | 久久人人网 | 四虎影音 | 精品一区二区久久久久久久网站 | 亚洲 欧美 日韩 精品 | 欧美激情一区二区三区 | 欧美一级毛片免费观看 | 日韩三级在线 | 九九免费在线视频 | 黄网站在线观看 | 99精品久久久久 | 午夜精品三区 | 亚洲一区二区三区免费在线观看 | 在线观看黄色大片 | 日日日视频 | 婷婷久久精品一区二区 | 求毛片 | 免费看欧美一级片 | 四虎在线观看 | 久久久久久国产精品三区 | 日韩av啪啪网站大全免费观看 | 成人亚洲精品 | 久久久久久九九九九 | 国产我和子的乱视频网站 | 久久麻豆精品 | 亚洲一区二区三 | 欧美日韩国产在线观看 | 国产一区二区在线免费观看 | 国产精品久久久久久久久免费桃花 | 久久久久久久久蜜桃 | 国产不卡视频在线 | 中文字幕成人 | www狠狠爱com | 国产二区精品视频 | 精品一区在线免费观看 | 99在线资源 |