成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

大數據 數據分析 算法
本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,并指出該方法可以高效地進行可視化分析,有望為人工智能黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典最優 TDA 算法的指數級加速。

本文介紹了拓撲數據分析(TDA)的基本原理,給出了案例展示,并指出該方法可以高效地進行可視化分析,有望為人工智能黑箱提供可解釋性。近日,中科大潘建偉團隊在光量子處理器上成功運行了 TDA 方法,量子版本的 TDA 能夠實現對經典*** TDA 算法的指數級加速。

機器學習和人工智能都是「黑箱」技術——這是使用機器學習、人工智能進行數據研究遭受的批評之一。雖然它們能自動提供有用的答案,但是卻不能給人類提供可解讀的輸出。因此,我們往往不能了解它們在做什么,又是如何做到的。

Ayasdi 對這個問題提出了解決方法,其中利用了該公司的核心技術——拓撲數據分析(TDA)。該方法能夠提供強有力的、具有詳細解釋的輸出。然而,在這篇文章中,我們將把工作擴展到目前 TDA 的「比較」方法之外。當前的方法使用的拓撲網絡由數據集的數據點(行)構建。在這項新的工作中,Ayasdi 將特征(列)也融合在網絡當中,據此展示了一個改進的、易解釋的結果。

首先介紹一下該解釋方法的工作原理。

假設我們有一個數據集,并且在其中已經辨別出了一些子組。這些子組可能是數據的一個組成部分(例如,某種疾病有許多不同的形式,比如炎癥性腸病,或該數據含有一個幸存者/非幸存者的信息),或者說,這些子組是由行集合的某拓撲模型通過分割或熱點分析創建的。

如果選擇其中的兩個子組,Ayasdi 技術允許研究者根據他們的 Kolmogorov-Smirnov 分數(KS 分數)生成特征列表。每個特征有兩個分布——每個子組各有一個分布。KS 分數衡量兩個子組之間的差異。與本結構相關的也就是標準統計意義上的 P 值。

其解釋是,排列在***位的變量是最能區分兩個子組的變量,而其余的特征是按其區分能力排列的。因此,解釋機制的輸出是一個有序的特征表。通常,通過查看列表能獲得有用的解釋,即,是何因素導致了不同子組之間的區別。

 

\

然而,該列表解釋起來往往很復雜。就像 Google 搜索后會得到一長串回復一樣,人們很可能會發現列表頂部分布不成比例,較低的響應又不為人們所關注。我們怎樣才能進一步提高這些「比較列表」的透明度和可理解性呢?

重要的是,要記住,Ayasdi 構造的拓撲模型假定給出了一個數據矩陣,以及數據集行的差異性或距離函數。通常,該距離函數是歐幾里得距離,但是也可以選擇其他距離函數,例如相關距離、各種角度距離等。獲得數據矩陣 M 后,人們可以將它轉置為一個新的矩陣 M^T。其中,初始矩陣的列是轉置矩陣的行,反之亦然,如下圖所示。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

在完成這個操作之后,可以為 M^T 矩陣的行集合(即原始矩陣 M 的列)構建拓撲模型。在集合中,人們可以選擇不同的距離函數。我們不會深入討論這一點,但總而言之,對任何數據矩陣行的通用可選項對于這個新矩陣也適用。

現在,假設我們有一個數據矩陣 M,以及在上述數據集中的一個子組 G。該子組可能通過先驗信息得來,也可能通過在 M 矩陣中行的拓撲模型分割得來。對于矩陣 M 中的每一列 c_i(即轉置矩陣 M^T 的每一行),我們現在可以計算子組 G 中每一行的均值,即 c_i 的平均值。

我們將把它記為 fi,G。當這個數字包含 i 時,我們在 M^T 的行集合上獲得一個函數。因此,再次重申,M 矩陣中的行的一個子組將在 M^T 的行集合上產生一個函數。Ayasdi 拓撲模型的功能之一是,通過對應于節點的行,能夠利用數據矩陣的行函數的平均值對拓撲模型的節點進行著色。這對于了解數據屬性而言是一個非常有用的方法。尤其地,我們現在可以利用 M^T 矩陣的行集合中子組 G 的著色情況,查看該組的特征。

請看下例。

荷蘭癌癥研究所(NKI)構建了一個數據集,其中包括來自 272 名乳腺癌患者采樣的微陣列分析。本案例中的微陣列分析提供了為研究篩選的一組基因中每個基因的 mRNA 表達水平。從這些基因中,我們選擇了 1500 個表達水平最高的基因。我們得到一個 272 x 1500 的矩陣,其中 1500 列對應于數據集中具有最大方差的 1500 個基因,272 行對應于樣本總量。對于這個數據集,數據矩陣中行集合的拓撲分析已經在 [1] 和 [2] 中進行了。

我們的拓撲模型展示如下。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

上圖表明,拓撲模型包括一個很長的「樹干」部分,然后分裂成兩個「小枝」。在數據集中,存在一個名為 eventdeath 的二進制變量。如果患者在研究期間存活,則 eventdeath = 0;如果患者死亡則 eventdeath = 1。令人感興趣的是,患者存活情況與圖的結構相對應。一種方法是通過變量 eventdeath 的平均值進行著色。其結果如下所示。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

我們可以看到,上面的「小枝」呈深藍色。這表明 eventdeath 變量值低,實際上其值為零——這意味著每個患者都存活了下來。然而,下面「小枝」的存活率差得多,尖端節點幾乎完全由無法存活的患者組成。我們希望理解這種現象,看看數據中的哪些特征與「小枝」的產生有關,從而了解變量 eventdeath 的迥異行為。為此,我們可以從拓撲模型中選擇多種不同的子組。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

在上圖中,A 組為高生存率組,B 組為低生存率組,C 組可以表征為與其他兩組差異最大的組(根據組間距離進行確定)。如上所述,基于這三個組,我們可以在 1500 個特征上創建 3 個函數。

如果我們建立一組特征的拓撲模型,我們可以用每個函數的平均值來給它著色。下面的三張圖片展示了其結果。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

在比較 A 組和 B 組著色情況時,我們發現其差異十分顯著。A 組著色后,某個區域呈亮紅色,而 B 組著色后相應區域呈亮藍色。結果可見下圖。左側的模型是 A 組著色,右側模型是 B 組著色。

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

組 I 和組 II 的顏色明顯不同。組 I 在 A 組中主要為紅色,而在 B 組中主要為藍色(小固相區域除外)。組 II 恰好相反,在 A 組中為藍色,在 B 組中為紅色。這些組可能與高雌激素受體表達有關,其中在組 I 中呈正相關,在組 II 中呈負相關。眾所周知,雌激素受體表達是乳腺癌存活與否的「強信號」。如果我們比較所有三組(如下圖):

拓撲數據分析TDA,有望打破人工智能黑箱的神奇算法

我們也可以看到,C 組似乎是 B 組的一個「較弱」形式,其中右上角的藍色區域面積較小,下面區域的紅色較弱。在左側的「島」上,C 組也顯示出比 A 、B 組更強的紅色著色。理解哪些基因參與了 A、B、C 三組右上角的強紅色塊將是非常有意思的。此外,研究哪些基因參與了左側「島」的表達也很有趣。了解這些基因組需要使用各種基于網絡的生物學通路分析的工具。

總而言之,我們已經展示了如何對數據集中的特征空間使用拓撲建模,而不是利用行集合直接從數據集尋找洞察。具有超過 4 個特征的數據集不能直接使用標準圖形技術直觀地理解,但是具有成百上千個特征的數據集通過這種方式理解起來卻很容易。該方法能直接識別行為一致的特征組,這通常在基因組和更普遍的生物學數據的分析中存在。

參考文獻

[1] M. Nicolau, A. Levine, and G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival, Proc. Natl. Acad. Sci., vol. 108, no. 17, 7265-7270, (2011).

[2] P. Lum, G. Singh, A. Lehman, T. Ishkhanov, M. Vejdemo-Johansson, M. Alagappan, and G. Carlsson, Extracting insights from the shape of complex data using topology, Scientific Reports 3, Article number 1236, (2013).

責任編輯:未麗燕 來源: 機器之心編譯
相關推薦

2024-04-29 08:46:33

2024-07-30 13:34:21

2024-01-25 14:30:08

人工智能

2021-05-27 15:22:19

人工智能AI深度學習

2016-09-20 10:26:24

人工智能大數據

2023-07-26 15:52:05

2019-05-24 11:44:02

人工智能數據分析自動化

2023-08-08 16:42:31

2017-12-25 14:34:19

人工智能網絡深度學習

2021-08-16 16:20:11

混合云人工智能數字化

2024-03-22 14:56:43

2018-06-25 11:35:01

2019-05-17 10:08:55

大數據IT人工智能

2024-04-02 15:37:04

2025-03-26 08:20:00

人工智能數據分析睡眠

2024-01-19 08:00:00

2021-03-17 15:08:34

人工智能程序機器學習

2021-11-12 09:28:18

人工智能數據分析工具

2018-02-06 10:00:14

數據分析云計算人工智能

2019-12-16 13:52:17

人工智能機器學習數據分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久99精品久久久久久 | 伊人99 | 91美女在线观看 | 黄色91在线 | 免费一区| 中文字幕视频在线 | 伊人久久综合影院 | 午夜性色a√在线视频观看9 | 99小视频| 精品一区二区av | 午夜大片 | 97免费在线观看视频 | 国产精品99久久久精品免费观看 | 国产色99| 亚洲欧美精品 | 色一情一乱一伦一区二区三区 | 欧美一区二区三区四区在线 | 午夜噜噜噜 | 国产一区二区三区四区 | 91精品国产综合久久久久久丝袜 | www日日日 | 亚洲一区| 久久一二区 | 久久久久国产一区二区 | 亚洲欧洲在线视频 | 久久久久久亚洲精品 | 午夜免费网站 | 国产在线播放一区二区三区 | 欧美黄色一级毛片 | h片在线观看免费 | www.久 | 精品www| 亚洲一区二区三区视频免费观看 | 在线色网 | 日本又色又爽又黄又高潮 | 欧美一级片在线看 | 精品久久国产 | 9久久| 极品电影院 | 国产真实精品久久二三区 | 在线观看视频一区二区三区 |