KDD2025 | 多標簽節點分類場景下,阿里安全&浙大對圖神經網絡增強發起挑戰
ACM SIGKDD(簡稱 KDD)始于 1989 年,是全球數據挖掘領域歷史最悠久、規模最大的國際頂級學術會議。KDD 2025 將于 2025 年 8 月 3 日在加拿大多倫多舉辦。
近日,阿里安全交互內容安全團隊與浙江大學軟件學院周晟老師團隊針對多標簽分類場景的圖神經網絡增強技術的聯合研究成果《Correlation-Aware Graph Convolutional Networks for Multi-Label Node Classification》被 KDD 2025 收錄。這也是 NeurIPS 2024 之后,雙方合作的第二篇頂會成果。
論文地址:https://arxiv.org/pdf/2411.17350
圖神經網絡(GNNs)已經在圖數據挖掘的節點分類、鏈接預測的任務中都取得了巨大成功。對于節點分類任務,傳統圖神經網絡主要關注各節點數據單標簽類別的場景。而在現實世界中,許多節點屬于多個類別,而不是單一類別,如社交網絡中的用戶多興趣,風險用戶往往關聯了多個風險域,使得 GNNs 在處理多標簽場景時可能會面臨新的問題。
在這項工作中,我們分析了多標簽分類場景對于 GNN 本身消息傳遞機制帶來的潛在問題,將其歸納為節點特征和拓撲結構的模糊性,進而提出了 CorGCN 進行解決。
具體來講,CorGCN 首先學習與多標簽相關的節點特征并將它們分解為多個標簽感知特征;基于此,進一步分解出多個標簽感知圖進行圖增強;最終在標簽感知圖上進行關聯增強的圖卷積。
1. 研究背景
本研究重點關注于如何增強圖神經網絡在多標簽節點分類的能力。在現實世界中,圖上的節點更多情況下屬于多個類別,而不是單一類別,使得 GNNs 在處理多標簽場景時可能會面臨著特征和拓撲結構的模糊性問題,這降低了圖數據中信息傳遞的準確度,并影響了圖數據中的標簽相關性建模。
我們首先將多標簽節點分類場景的特點歸納如下,圖 1 給出示意和 PCG 數據集 [1] 上的分析實驗。
圖 1:(a)多標簽節點分類區別示例;(b)-(c) PCG 數據集上的模糊特征和模糊拓撲。
(1)模糊特征(Ambiguous Feature):在單標簽設置中,節點可以通過轉換特征從鄰域節點中聚合特定類型的標簽模式。然而,在多標簽設置中,與非圖數據上的數據特征存在模糊問題類似,一個節點的特征可能與多個標簽相關,特征所代表的模式是模糊的。因此,從這些模糊特征中聚合信息將影響節點表示的區分能力。圖 1-(b) 展示了在現實世界的圖中,分配相似特征的節點可能共享不同的標簽數量。
(2)模糊拓撲(Ambiguous Topology):在單標簽設置中,連接的節點通常共享相同的單一標簽(也稱為同配性假設 [2]),因此沿邊傳播的模式通常是確定性的。然而,在多標簽設置中,連接的節點都有多個標簽,沿邊傳播的模式通常是模糊的。這種模糊性使得我們難以確定應該從哪些連接的節點中聚合特定標簽的信息。直接從所有鄰居那里聚合信息將進一步累積模糊性,損害 GNN 學習到的表示的區分能力,最終影響特定標簽的推斷。圖 1-(c) 展示了在現實世界的圖中,連接的節點可能共享不同的標簽數量。
因而,在模糊特征和模糊拓撲的情況下進行圖神經網絡的消息聚合也會具有以下問題需要解決:
- 標簽獨特性(Label Distinctiveness):如前所述,多標簽圖中的節點屬性和邊可能同時受到多個標簽的影響。直接從這樣的圖中提取信息,混合節點標簽可能導致標簽獨特性的喪失,導致對每個標簽的探索不足。
- 標簽相關性(Label Correlation):在多標簽設置中,節點與多個標簽的關聯意味著這些標簽之間存在相關性。現有多標簽學習方法的成功也證明了充分利用這些標簽間相關性可以顯著提高表示的質量。
基于此分析,本文提出了基于標簽關聯感知圖神經網絡,從而為 GNN 更好地適配于多標簽節點分類場景提供思路。
2. 研究方法
本研究論文提出了一種名為 Correlation-Aware Graph Convolutional Network(CorGCN)的方法,整體思路如圖 2 所示,包括:
- 關聯感知圖分解(Correlation-Aware Graph Decomposition):首先學習與標簽相關的節點特征,并將它們分解為多個標簽感知特征。然后,基于分解后的特征,進一步分解出多個標簽感知圖進行圖增強。
- 關聯增強圖卷積(Correlation-Enhanced Graph Convolution):每一層包括在每個標簽感知圖視圖中的鄰域內標簽消息傳遞以及標簽感知消息之間的標簽間相關性傳播。
圖 2:CorGCN 的整體架構示意。
2.1 關聯感知圖分解(Correlation-Aware Graph Decomposition)
由于在多標簽場景中,圖的節點特征和拓撲結構存在不明確性,我們的目標是將它們分解成多個圖。然而,直接進行分解會導致關鍵的多標簽相關性屬性的丟失。因此,我們需要基于已經包含了標簽相關性的表示來進行分解,因此本階段存在兩個遞進的步驟:節點特征分解和拓撲結構分解。
節點特征分解(Feature Decomposition):該模塊首先建模節點-標簽和標簽-標簽之間的相關性,然后基于此進行節點特征在不同標簽空間的分解。
具體而言,首先對于 K 個標簽分別初始化一個可學習標簽表征 E^l,而 n 個節點的原始特征定義為 E^x。
這兩類表征會利用對比學習和最終的分類損失進行相關性學習。隨后我們通過相似度投影得到相關性建模后分解到 K 個標簽空間的節點表征,每個節點的分解后表征為 E_i^proj。
拓撲結構分解(Structure Decomposition):基于關聯感知分解的節點表征,該模塊旨在為每個標簽及其相關標簽分解圖結構(消息傳遞路徑),以增強消息傳播的圖結構。
具體而言,利用原始圖結構 A^0 在每個標簽 k 的表征空間中進行中心節點與鄰域信息的融合:
隨后,基于融合后的標簽 k 角度的表征,利用 top-k 相似度構造標簽 k 的傳播圖 G^k,如下所示:
此外,結合相關標簽感知的節點特征和原始圖拓撲,可以獲得多標簽感知圖 G_0 = (A_0, E_x) 以通過消息傳遞捕獲相關結構模式,從而最終可以得到如下的感知相關性的分解圖 CDG:
2.2 關聯增強圖卷積(Correlation-Enhanced Graph Convolution)
先前對于多標簽節點分類的研究主要進行了統一的鄰域消息傳遞。我們認為這種方法有兩個主要的局限性:(1)以統一的方式傳遞來自鄰域的模糊消息;(2)相關性忽視,即在傳遞消息時忽略了標簽之間的相關性。因此,我們進一步為??????(Correlation-Enhanced Graph Convolution,相關性增強圖卷積)配備了相關性增強的圖卷積。
標簽內消息傳遞(Intra-Label Message Passing):在每個標簽視圖的圖中進行標簽內消息傳遞。
標簽間相關性傳播(Inter-Label Correlation Propagation):在標簽內消息傳遞之后,CorGCN 模型通過標簽間相關性傳播來模擬不同標簽視圖之間的相關性。
最終,基于標簽內和標簽間消息傳播后得到的表征,模型進行最終的分類預測:
模型的訓練目標與多標簽分類模型一致采用交叉熵損失函數。
2.3 擴展到龐大標簽空間(Extension to Large Label Space)
在一些現實世界的圖結構中,節點可能存在于一個非常大的多標簽空間中,例如復雜的現實世界社交網絡和大型蛋白質相互作用網絡。對于具有非常大標簽空間的實際圖結構,CorGCN 可以擴展到多標簽節點分類,以實現高效學習。
具體而言,我們可以通過 K-means 聚類將預訓練的標簽表示凝練形成宏觀標簽表示,以減少標簽表示的數量和圖分解視圖的數量,提高計算效率。
3. 實驗評估
本文在 Humloc [1]、PCG [1]、Blogcatalog [3]、PPI [4] 和 Delve [5] 這五個數據集上進行了廣泛的對比和探索性實驗,驗證了所提出的 CorGCN 的有效性。
對比實驗
本研究的部分對比實驗如表 1 所示,CorGCN 與 9 個代表性的基線模型(包含代表性 GNN 模型、圖結構學習模型和多標簽節點分類模型)的對比結果驗證了 CorGCN 的有效性。
表 1:部分對比實驗結果。
泛化性實驗
如圖 3 所示,通過泛化性實驗分析可以發現模型能為多個代表 GNN 架構帶來表現提升,進一步驗證了 CorGCN 的廣泛適用性。
圖 3:GNN 架構泛化性實驗。
4. 業務潛力
多標簽節點分類在阿里風控場景具有重要意義。如在龐大的用戶(節點)網絡中,異常/風險用戶往往可能具有多個風險域的風險信號,這些風險域往往不是相互獨立的,業務之間具有關聯性。挖掘多個風險域之間的相關性對于整體業務表現具有重要意義,這將作為未來的進一步研究。
5. 總結
在這篇論文中,我們針對當前圖神經網絡在進行多標簽分類時面臨的潛在問題進行了重點分析,提出了一種數據側的圖分解增強方式和模型側的消息傳播增強,以提高現有圖神經網絡在多標簽分類場景的能力。在實驗測試中,我們驗證了所提出模型的有效性。詳細內容可查看原文。