成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何實現大規模高維數據的可視化?

原創
大數據 數據可視化
數據可視化是脫胎于計算機圖形學的計算機學科領域,廣泛應用于科學實驗和互聯網商業應用。它分為科學可視化和信息可視化兩個子領域。

【51CTO.com原創稿件】數據可視化是脫胎于計算機圖形學的計算機學科領域,廣泛應用于科學實驗和互聯網商業應用。它分為科學可視化和信息可視化兩個子領域。

科學可視化主要是針對化學、物理和醫學上的試驗數據,將實驗結果用美觀可讀的方式展現給科學工作者,方便其進行后續的工作,美國的國家實驗室比如 LLNL 都有專門的團隊開展可視化方面的工作。

信息可視化更多的是針對互聯網和商業數據,主要是把數據用更清晰和直觀的方式傳遞給用戶,美國的紐約時報是這方面做得非常好的公司。

整個可視化領域的頂級會議是 IEEE Visualization。信息可視化領域的頂級會議是 IEEE InfoVis。可視化領域的頂級期刊是 IEEE TVCG (IEEE Transactions on Visualization and Computer Graphics)。美國猶他大學(University of Utah)的 SCI Institute 是全世界在可視化研究領域做得最好的研究機構之一,在國際上享有盛名。

高維數據的可視化是可視化領域中非常具有挑戰性的一類問題。常見的解決方案包括 Parallel Coordinate,Star Plot,降維至低維空間進行可視化等。Jian Tang 等在 WWW 2016 上發表了題為 Visualizing Large-Scale and High-Dimensional Data 的文章,講述了他們是如何解決大規模高維數據的可視化問題的。下面我們來看一下他們提出的方法,分為兩步:

第一步將高維空間的數據利用K-近鄰算法重新構建社交網絡模型,第二步將新構建的社交網絡模型映射到低維空間進行可視化,參見下圖:

如何實現大規模高維數據的可視化?

作者在執行第一步時,采取了類似 t-SNE 算法中的方式,而在執行第二步時采取了優化最大似然函數的方式。

首先,定義高維空間中映射到低維空間的兩個點的坐標是如何實現大規模高維數據的可視化?定義在低維空間中兩個點之間存在一條邊的概率是:如何實現大規模高維數據的可視化? f 函數可以按照如下方式進行定義:如何實現大規模高維數據的可視化?帶權邊的生成概率為如何實現大規模高維數據的可視化?整個低維空間的社交網絡生成概率為:

如何實現大規模高維數據的可視化?

通過對 O 的求解,我們可以得到高維空間數據在低維空間的映射。注意在生成概率公式中存在對于負邊概率的大量計算。因為負邊的數量與節點的數量是成二次方關系的,因此作者對于負邊采取了負采樣的策略。也就是給定點i,隨機選取節點 j 與之構成負邊。選擇 j 的概率為如何實現大規模高維數據的可視化?

為了避免在梯度下降過程中難以選擇學習率的問題,作者采用了在其本人的其他文獻中提出的 Edge Sampling 優化方法對似然函數進行優化。Edge Sampling 優化方法將圖的每一條邊看作沒有權重的邊,在進行梯度下降優化的時候根據邊的權重對每一條邊進行采樣。

后續,作者選取了文本數據,并且利用了 KNN 分類器對降維處理之后的數據進行分類,從準確性和時間兩方面對 t-SNE 和作者提出的算法進行了對比,發現作者提出的方法要優于經典的 t-SNE 算法。

如何實現大規模高維數據的可視化?
圖 1. 本文研究方法與 t-SNE 算法效果對比

下圖為英文 Wikipedia 文章的可視化。每篇文章被認為是高維空間中的一個點。作者在 Wikipedia 數據集上進行了聚類,并對不同的類染上了不同的顏色。

如何實現大規模高維數據的可視化?
圖2. 英文 Wikipeida 文章可視化。不同的顏色代表不同的文章分類。

Jian Tang , Jingzhou Liu , Ming Zhang , Qiaozhu Mei , Visualizing Large-scale and High Dimensional Data

[[210035]]

汪昊,恒昌利通大數據部負責人,美國猶他大學碩士,在百度,新浪,網易,豆瓣等公司有多年的研發和技術管理經驗,擅長機器學習,大數據,推薦系統,社交網絡分析,計算機圖形學,可視化等技術。在 TVCG 和 ASONAM 等國際會議和期刊發表論文 5 篇。本科畢業論文獲國際會議 IEEE SMI 2008 最佳論文獎。

【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:未麗燕 來源: 51CTO.com
相關推薦

2023-12-14 09:00:00

數據可視化Python數據集

2017-10-14 13:54:26

數據可視化數據信息可視化

2020-03-11 14:39:26

數據可視化地圖可視化地理信息

2014-05-28 15:23:55

Rave

2017-02-16 09:30:04

數據可視化信息

2009-08-03 21:43:03

IT運維可視化摩卡

2009-08-24 14:12:46

IT運維管理表單設計工具摩卡軟件

2018-08-10 14:45:52

Python網絡爬蟲mongodb

2020-10-26 15:33:13

可視化數據項目

2016-01-29 20:23:23

華為

2022-06-29 08:28:58

數據可視化數據可視化平臺

2021-04-09 10:42:03

數據可視化框架大數據

2017-02-23 09:42:53

大數據數據可視化技術誤區

2022-06-09 13:45:18

vivoK8S集群Kubernetes

2017-03-28 14:57:23

kylinsuperset可視化

2015-10-29 09:36:48

2022-09-29 11:16:21

Python數據可視化

2014-12-31 16:48:43

Touch touchevent多點觸摸

2009-04-09 09:32:00

VoWLANWLAN

2010-09-01 15:16:49

WLAN交換機結構
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲视频在线看 | 久久久91精品国产一区二区三区 | 精品国产一二三区 | 欧美国产精品一区二区三区 | 国产精品久久久久久吹潮 | 午夜亚洲 | 99久久久久久99国产精品免 | 亚洲精品久久久久久一区二区 | 日韩精品亚洲专区在线观看 | 亚洲视频免费观看 | 99久久精品国产一区二区三区 | 欧美一级二级在线观看 | 欧美精品1区2区3区 精品国产欧美一区二区 | 黄网站免费在线 | 日韩中出| 中文字幕视频在线 | 欧美精品一区二区三区在线播放 | 日韩欧美在线观看 | 久在线视频 | 久久亚洲国产精品 | 国产日韩欧美一区二区 | 理论片免费在线观看 | 久久亚洲视频网 | 我我色综合 | 色综合美女| 久久99国产精品久久99果冻传媒 | 亚洲日本一区二区三区四区 | 国产成人在线免费 | 午夜欧美一区二区三区在线播放 | 在线中文字幕视频 | 色吊丝在线 | 日韩欧美亚洲 | 国产蜜臀97一区二区三区 | 中文字幕一区二区三区在线观看 | 黄色在线观看 | 欧美日韩综合 | 日韩欧美三级在线 | 久久网国产 | 97国产精品 | 中文字幕国产精品视频 | 91 久久|