你的「在看」有人看,清華研究者從微信「看一看」發現了這些規律
微信點「看一看」最活躍用戶竟是爸媽輩,小年輕最「安靜」…… 清華大學唐杰等人最近的一項研究透過微信「看一看」的數據分析了用戶點擊閱讀文章和點「在看」的行為模式,并從人口統計情況、二元和三元關聯、自我中心網絡結構這些不同方面進行了分析。
該研究還提出了一個預測模型,預測準確率相比其他方法有所提升。目前,該論文已發表在《IEEE Transactions on Knowledge and Data Engineering》(TKDE) 期刊上。

- 論文鏈接:https://arxiv.org/pdf/2103.02930.pdf
- GitHub 鏈接:https://github.com/zfjsail/wechat-wow-analysis
微信文章的「在看」按鈕,想必大家都不陌生。在發現頁點開「看一看」,微信用戶就能看到朋友點過「在看」的文章,也可以點擊這些文章進行閱讀,或者點個「在看」。
微信「看一看」頁面示例。(「wow button」是「在看」按鈕。)
那么,哪些因素會影響用戶點擊閱讀這些文章和點「在看」的行為呢?
哪些因素影響了「看一看」用戶的行為
該研究從三個層面進行了分析。
- 從用戶人口統計信息來看,不同性別和年齡段的用戶「在看」和點擊行為的變化很大,在考慮跨屬性因素時,情況更加復雜;
- 就二元關聯來看,當其活躍朋友是結構洞和意見領袖時,用戶的行為可能截然不同;
- 而對于自我中心網絡(Ego Network),「在看」和點擊閱讀文章的概率于用戶活躍朋友構成的連通分支(connected component)數量強相關。
下面是具體分析結果。
用戶人口統計信息

表 1、圖 2 和圖 3 給出了不同性別和年齡的用戶在「看一看」中點「在看」和點擊閱讀文章的概率。從中,我們可以發現:
- 男性的點擊概率明顯高于女性,女性點「在看」的概率略高于男性(參見表 1);
- 20+ 和 30+ 的年輕人是線上社交圈的中流砥柱,但他們點「在看」和點擊閱讀文章的概率在所有年齡段中是最低的(參見圖 2);
- 當同時考慮性別和年齡屬性時,情況又有所不同:不到 20 歲的人中,男性比女性更活躍;但超過 40 歲的人中女性點「在看」的比例更大,超過 60 歲的人中女性點擊閱讀文章的比例更大(參見圖 3)。
二元和三元關聯
為了方便起見,該研究在二元關聯中僅考慮用戶與一個活躍朋友的互動,在三元關聯中僅考慮用戶與兩個活躍朋友的互動。研究者從人口統計屬性與社會角色兩個方面進行分析。
1. 二元關聯與人口統計屬性
下表 2 展示了用戶性別和朋友性別對用戶活躍率的影響。從中可以看到,就點擊行為而言,當二人性別相同時,用戶的點擊概率更高;但對于「在看」行為而言,當朋友是女性時,用戶點「在看」的概率更高。

從年齡來看,下圖 4 展示了用戶年齡與朋友年齡對用戶「在看」行為概率的影響。從中我們可以發現,當用戶比較年輕(< 40 歲)時,相比于同齡人,他們更易受年齡較大朋友的影響;年齡較大用戶則更易受同齡朋友的影響。

2. 二元關聯與社會角色
下表 4 展示了用戶與朋友具備不同社會角色——意見領袖 (OL) 和普通人 (OU) 時,對用戶活躍率的影響。從中可以發現,當活躍朋友并非意見領袖時,用戶點「在看」和點擊閱讀文章的概率更高。

下表 5 展示了結構洞 (SH) 和普通人 (OU) 這兩種社會角色對用戶活躍率的影響。(「結構洞」指社會網絡中的空隙,即社會網絡中某個或某些個體和有些個體發生直接聯系,但與其他個體不發生直接聯系,即無直接關系或關系間斷,從網絡整體看好像網絡結構中出現了洞穴。)
可以看出,當朋友是結構洞時,普通用戶的活躍率更高。而對于本身是結構洞的用戶,當朋友非結構洞時其點擊概率更高,但差別并不顯著。

3. 三元關聯與人口統計屬性
下圖 5 展示了用戶性別和朋友性別對用戶活躍率的影響。可以看出,當兩個朋友的性別與用戶性別相同時,用戶的活躍率最高。這顯示出很強的同質偏好性(homophily)。

下圖 6 展示了用戶年齡與朋友年齡對用戶活躍率的影響。從中我們可以發現,如果一個朋友與用戶同齡另一個較小,則用戶的活躍率高;年長用戶更關注年輕用戶。

自我中心網絡屬性
此外,研究者還探討了用戶活動與其自我中心網絡屬性的關聯,發現用戶的線上行為(點擊閱讀和「在看」)受朋友圈(自我中心網絡中的朋友)影響很大。自我中心網絡指用戶的活躍朋友的誘導子圖(induced subgraph)。
該研究從自我中心網絡中的朋友數量、連通分支 (#CC) 數量、cleaned 自我中心網絡(k 核子圖)中的 #CC 這三個方面分析自我中心網絡的屬性。
下圖 8 展示了活躍朋友數量增加對用戶活躍率的影響。從圖中可以看出,對于點擊和「在看」行為而言,趨勢完全不同。

通過這些分析,研究者得到以下發現:
- 男性更喜歡點擊閱讀文章,女性更喜歡點「在看」,年輕人在「看一看」中的活躍度最低;
- 在二元或三元關聯方面,用戶和其朋友之間存在有趣的「同質相吸」現象(如性別),但當不止一個活躍朋友時,屬性多樣性(如區域)與用戶的活動呈正相關;
- 根據自我中心網絡拓撲結構,「在看」和點擊行為的模式差異極大。例如,在活躍朋友數量固定的情況下,用戶點「在看」的概率與活躍朋友構成的連通分支呈負相關,但點擊行為卻相反。當自我中心網絡得到清理后,這一模式更加明顯。
預測模型
既然發現了一些模式或規律,我們可以利用它們預測用戶的線上行為嗎?該研究創建了一個預測模型 DiffuseGNN。
如上圖所示,DiffuseGNN 模型包含五步:預處理自我中心網絡、輸入層、特征平滑層、層級圖表示學習和輸出層。
該模型的核心組件和基礎 idea 如下所示:
- 對于輸入用戶特征,研究者考慮了不同的用戶特征,如用戶人口統計信息(性別、年齡等)和預訓練用戶嵌入,并試圖建模特征交互;
- 然后通過在可訓練的調整后頻譜域(trainable modulated spectral domain)中傳播初始特征,來學習用戶嵌入,這樣學得的用戶嵌入就可以捕捉自我中心網絡中的有用信息,并過濾噪聲;
- 接下來,研究者進一步將學得的中間表示輸入到層級圖表示模型中,該模型通過迭代聚類節點來學習子圖嵌入;
- 該研究還使用新型注意力模型建模用戶特征與朋友特征之間的相互作用。
實驗
研究者在其收集的微信「看一看」數據和公開的微博數據集上測試了該模型對用戶行為的預測效果,并選取了多類方法進行對比,包括:1)傳統分類器:LR 和 RF;2)建模特征交互的深度學習方法:xDeepFM;3)基于自我中心網絡的 SOTA 用戶行為預測方法:DeepInf 和 Wang et al.;4)層級圖表示學習方法:SAGPool、ASAP 和 StructPool。其中第 3 和第 4 類都是基于 GNN 的方法。
下表 7 展示了實驗結果,從中可以看出 DiffuseGNN 模型的性能持續優于基線方法。

此外,該研究還探討了不同模型組件對用戶行為預測的影響,參見表 7 底部數據。從中我們可以發現,移除預訓練嵌入和特征平滑步會導致較大的性能下降;增加二階特征對基于微信數據的用戶行為預測略有幫助,對基于微博數據集的用戶行為預測效果較好;該模型在不使用人工制作用戶特征的情況下也取得了不錯的性能。