數(shù)據(jù)挖掘的方法很多,實(shí)用易懂的就這一種
六人定律,相信大家一定都不會陌生。簡單的說,你只需要通過6個人,就可以認(rèn)識到世界上所有的人。足以說明,世界就像一張網(wǎng),任何事物之間都能找到關(guān)系。
大數(shù)據(jù)時代,我們把這樣的網(wǎng)絡(luò)叫關(guān)系網(wǎng)絡(luò),那么,如何從關(guān)系網(wǎng)絡(luò)中挖掘出有價值的信息?以下為你一一道來。
什么是關(guān)系網(wǎng)絡(luò)
關(guān)系網(wǎng)絡(luò)有時也叫社會網(wǎng)絡(luò),是指社會參與者及其間的關(guān)系的集合。也可以說,一個關(guān)系網(wǎng)絡(luò)是由多個點(diǎn)(社會參與者)和各點(diǎn)之間的連線(參與者之間的關(guān)系)組成的集合。
這里的參與者不但指具體的個人,還可指一個群體、公司或其他集體性的社會單位或?qū)嶓w。每個參與者在網(wǎng)絡(luò)中的位置被稱為"節(jié)點(diǎn)(node)"或“頂點(diǎn)(Vertex)”,參與者之間的關(guān)系稱為“邊(Edge)”。
常見的關(guān)系網(wǎng)絡(luò)可能由以下關(guān)系構(gòu)成:
- 親屬關(guān)系:父母、子女、夫妻關(guān)系等。
- 社會關(guān)系:社會角色也是關(guān)系性的,如老板/職員、教師/學(xué)生、醫(yī)生/病人關(guān)系等。
- 個人之間的評價關(guān)系:贊成、喜歡、信任、尊重等。
- 行為上的互動關(guān)系:參與者之間的自然交往,如談話、參加會議、拜訪、提建議等。
- 隸屬關(guān)系:如參加一項(xiàng)協(xié)會、屬于某些俱樂部等。
- 物質(zhì)或資本的傳遞:商業(yè)往來、物資交流。
- 非物質(zhì)資源的轉(zhuǎn)換關(guān)系:參與者之間的交往、信息的交換等。
- 空間關(guān)系:城市之間的關(guān)系,遷入和遷出。
職位的升遷,地位的變動。
關(guān)系網(wǎng)絡(luò)分析方法
要分析關(guān)系網(wǎng)絡(luò),從了解一些基本概念開始。
1、“圖”的概念
為方便計算機(jī)處理關(guān)系網(wǎng)絡(luò),在計算機(jī)理論中,把關(guān)系網(wǎng)絡(luò)抽象為“圖”的概念。這里的“圖”不是圖形,也不是照片,而是一種數(shù)據(jù)結(jié)構(gòu)。“圖”由下面三種關(guān)鍵元素構(gòu)成:
- 節(jié)點(diǎn)(Node):即頂點(diǎn)(Vertex)
- 邊(Edge):表示節(jié)點(diǎn)之間的關(guān)系
- 屬性(Property):節(jié)點(diǎn)和邊都可以有自己的屬性
“圖”中的屬性用于描述節(jié)點(diǎn)或邊的特征。例如,對于某學(xué)校關(guān)系網(wǎng)絡(luò),點(diǎn)的屬性可能有姓名、角色等,邊的屬性可能有同學(xué)、師生、同事等。

2、有向圖和無向圖
圖也分為有向圖和無向圖,分別用有箭頭的連線和無箭頭的連線表示。有向圖中的關(guān)系是有方向的,如借貸關(guān)系、權(quán)力關(guān)系等。無向圖中的關(guān)系是無方向的,例如參會、交談等。所有的關(guān)系網(wǎng)絡(luò)都可以抽象為“圖”的形式來表述。

3、最短路徑
有個很著名的理論,世界上任意兩個人之間最多經(jīng)過6個人就能建立聯(lián)系。也就是說,你只需要通過6個人,就可以和美國總統(tǒng)特朗普說上話。但是,如何找到這6個人呢?最短路徑算法就用于這樣的場景,用于找到源節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最短路徑。它的主要特點(diǎn)是以起始點(diǎn)為中心向外層層擴(kuò)展,直到擴(kuò)展到終點(diǎn)為止。Dijkstra(迪杰斯特拉)算法是典型的單源最短路徑算法,是很有代表性的最短路徑算法。
如下圖所示,通過最短路徑計算,我們很容易在一個復(fù)雜的網(wǎng)絡(luò)中找到任意兩個節(jié)點(diǎn)(我和特朗普)之間的最短路徑。

4、度和權(quán)重
點(diǎn)的“度”數(shù),是指與該點(diǎn)相連的邊的條數(shù)。對于有向圖,“度”也可以細(xì)分為出度和入度。與節(jié)點(diǎn)相連的邊越多,說明該點(diǎn)越重要,所以節(jié)點(diǎn)的“度”數(shù)反映了一個點(diǎn)的重要程度。
再說說點(diǎn)的權(quán)重,權(quán)重是表示點(diǎn)的重要程度的另一種方式。權(quán)重有很多種評價方式,可以用點(diǎn)的某項(xiàng)屬性度量值為權(quán)重,例如:注冊資本等。也可以用某種算法求出點(diǎn)的權(quán)重,例如:PageRank。
可以用度數(shù)或權(quán)重在”圖”中直觀表示節(jié)點(diǎn)的重要程度。下圖是《悲慘世界》人物關(guān)系,用PageRank為直徑表示不同人物的重要性,可以看到,Valjean是其中的核心人物(主角)。

5、中介中心性
中介中心性在我們WonderDM中又稱節(jié)點(diǎn)影響度。中介中心性指的是一個結(jié)點(diǎn)擔(dān)任其它兩個結(jié)點(diǎn)之間最短路徑的橋梁的次數(shù)。一個結(jié)點(diǎn)充當(dāng)“中介”的次數(shù)越高,它的中介中心度就越大。中介中心性是研究一個參與者在多大程度上居于其他兩個參與者之間,因而是一種"控制能力"指數(shù)。
下圖是《悲慘世界》人物關(guān)系,用中介中心性為直徑表示人物節(jié)點(diǎn)。可以看到,F(xiàn)antine是其中的關(guān)鍵人物。

6、模塊化
模塊化(Modularity)是關(guān)系網(wǎng)絡(luò)分析中用于分析網(wǎng)絡(luò)結(jié)構(gòu)的一種方法。根據(jù)一個群組內(nèi)部比群組外部具有更高密度的聯(lián)結(jié)的原則,它將網(wǎng)絡(luò)分成不同的群組,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用來偵測網(wǎng)絡(luò)的社群結(jié)構(gòu)。通俗的說,找出網(wǎng)絡(luò)由哪些小圈子組成。
以微博轉(zhuǎn)發(fā)數(shù)據(jù)形成的關(guān)系網(wǎng)絡(luò)為例,將此網(wǎng)絡(luò)模塊化之后按模塊進(jìn)行分組配色,可以很鮮明的看到整個網(wǎng)絡(luò)形成了若干個不同的圈子,可以對圈子內(nèi)的個體詳細(xì)了解后,定位該圈子的群組特征。

7、K-Core
一個圖的k-Core是指反復(fù)去除“度”小于k的節(jié)點(diǎn)后,所余下的子圖,所有的節(jié)點(diǎn)度數(shù)都為k。K-Core算法是簡化復(fù)雜網(wǎng)絡(luò)并得到核心子網(wǎng)絡(luò)的算法之一,其簡單有效可以運(yùn)用到很多領(lǐng)域。K-Core可以幫助我們從復(fù)雜的關(guān)系網(wǎng)絡(luò)中提取高度相關(guān)的子結(jié)構(gòu)(如社區(qū)、團(tuán)體、關(guān)聯(lián)企業(yè)等)。例如可以在采購欺詐模型中,幫助我們分析買家或賣家之間行為異常的團(tuán)伙或找出整個交易網(wǎng)絡(luò)中處在核心位置的供應(yīng)商或采購商。
如下圖所示,使用K-Core算法,我們在一個復(fù)雜的關(guān)系網(wǎng)絡(luò)中,找到若干關(guān)聯(lián)度比較高的客戶群體。

小結(jié)
現(xiàn)在是萬物互聯(lián)的時代,可謂萬物皆有關(guān)系,關(guān)系網(wǎng)絡(luò)分析可以應(yīng)用到幾乎所有社會活動當(dāng)中。利用關(guān)系網(wǎng)絡(luò)分析手段,結(jié)合時空數(shù)據(jù)、地理關(guān)系等建立可視化表征,可以揭示對象間的關(guān)聯(lián)和對象時空相關(guān)的模式及規(guī)律,億信華辰的數(shù)據(jù)挖掘產(chǎn)品WonderDM提供了涵蓋分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及時間序列等五大類、十余個小類的核心數(shù)據(jù)挖掘算法,同時支持?jǐn)U展數(shù)據(jù)挖掘算法,讓用戶能夠快速找到與業(yè)務(wù)更為貼合的數(shù)據(jù)挖掘模型。可以廣泛應(yīng)用于金融、銀行、保險、物流、交通、安防、互聯(lián)網(wǎng)等各行各業(yè)。