文本圖格式大一統!首個大規模文本邊基準TEG-DB發布 | NeurIPS 2024
文本屬性圖Text-Attributed Graphs(TAGs)是一種在節點上有豐富文本信息的圖結構, TAGs 廣泛應用于社交網絡(social network)、引用網絡(citation network)和推薦系統(recommendation system)等實際場景中。由于其強大且通用的表達能力,該領域近年來得到了快速發展。
然而目前TAGs面臨三大挑戰:
- 現有的TAGs數據集一般僅在節點上包含文本信息,而邊的信息往往被簡化為二元或分類屬性。邊文本(edge text)的缺乏限制了對文本實體間復雜語義關系的表達和理解(比如一個實體局部的一些概念如何與另一實體的局部相關),阻礙了圖數據挖掘技術的進一步發展;
- 文本圖數據格式和實驗設置不統一,難以進行模型之間的比較;
- 由于缺乏全面的基準測試和分析,對圖模型處理邊文本信息能力仍然了解的很欠缺。
論文地址:https://arxiv.org/abs/2406.10310
代碼地址:https://github.com/Zhuofeng-Li/TEG-Benchmark
數據集地址:https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets
為了解決這一問題,上海大學、山東大學、埃默里大學等學術機構的研究人員聯合推出了TEG-DB,一個全面的基于文本邊的圖數據集和基準測試(A Comprehensive Dataset and Benchmark of Textual-Edge Graphs)。
目前,論文已被NeurIPS Datasets and Benchmark Track 2024接收。
其主要有三個特點:
- TEG-DB datasets提供了涵蓋4個領域9個統一格式的TEG數據集,規模從小到大不等,均包含豐富的節點和邊的原始文本數據,這些數據集填補了TEGs領域的空白,旨在為相關研究提供重要數據集資源。
- 研究人員開發了TEGs研究的標準化流程,涵蓋數據預處理、加載和模型評估等關鍵階段。
- 研究人員進行了廣泛的基準實驗,并對基于TEGs的方法進行了全面分析,深入探討了不同模型及不同規模pre-trained language models(PLMs)生成的嵌入的效果、在GNNs中使用分離和交織嵌入方法(seperate and entangled embedding methods)的影響、邊文本的作用以及不同領域數據集的影響。
TEG Datasets
為了構建同時滿足節點和邊具有豐富文本信息的數據集,研究人員選擇了來自不同領域和規模的9個數據集。
具體包括4個來自Goodreads的圖書推薦領域用戶-書籍評論網絡,2個來自Amazon的電商購物網絡,1個來自Semantic Scholar的學術引用網絡,以及 2個來自Reddit和Twitter的社交網絡。數據集統計請見下表:
TEG Methods
基于 PLM 的范式
PLM通過大規模文本訓練,能夠理解詞語、短語和句子的語義關系和上下文。
基于PLM的方法首先將TEG中節點和邊的文本通過PLM進行嵌入表示 (embed),例如對于節點u,通過embed其自身以及所連接的邊文本,可以得到 embedding 作為節點u初始化特征 (feature) 。之后使用多層感知器(MLP)整合TEG中的語義信息,獲得最終的節點表征。公式如下:
圖片
其中,表示第k層MLP中節點u的表示,Tu和
分別為節點u和連接節點v與u邊ev,u的原始文本,節點v是u的鄰居,ψ為MLP的可訓練參數。
盡管PLM顯著提升了節點的表征能力,但由于未考慮TEG拓撲結構,限制了其對TEG中完整語義信息的捕捉。
基于 Edge-aware GNN 的范式
GNN通過消息傳遞 (message passing)來提取圖結構中有意義的表征信息,具體定義如下:
其中,表示GNN第k層中節點u的表征,初始特征向量
通過使用PLM對節點的原始文本進行embed獲得。從節點v到節點u的邊,其特征ev,u同樣由PLM對于邊的原始文本進行embed得到。k代表GNN的層數,N表示鄰居節點集合,u為目標節點,ω為GNN中的學習參數。
然而,這種方法存在兩個主要問題:
- 現有的圖機器學習方法如GNN對于邊通常基于連通性(即二元屬性表示是否有連接)和邊屬性(如類別或數值屬性)進行操作,而非基于文本屬性。然而在TEG中,邊包含了豐富的文本,這便導致GNN遠不足以處理這些復雜的文本信息所產生的語義關系。
- 基于GNN的方法在捕捉節點以及邊文本的上下文語義方面存在局限性。在TEG中,邊和節點的文本通常交織在一起,在嵌入過程中將它們分別進行嵌入表示(seperate embedding),可能導致相互依賴關系信息的丟失,從而削弱GNN在整個消息傳遞過程中的有效性。
基于Entangled GNN的范式
傳統GNN方法將邊和節點文本分離進行嵌入(seperate embedding),可能導致大量信息損失,特別是在TEG中。
例如,在一個citation network中,每個節點表示一篇論文,一條邊可能表示某篇論文引用、批評或使用了另一篇論文的某一部分。
因此,邊文本是不能獨立于論文節點存在的,這便對節點以及邊seperate embedding方法提出了挑戰。
為避免文本嵌入后節點和邊交互時的信息丟失,提出了一種新的方法 Entangled GNN,先將邊文本和節點文本Entangle在一起,再進行embed,作為節點的初始化embedding。隨后對節點進行消息傳遞操作。
該方法的公式如下:
其中,表示GNN第k層中節點u的表示。Tv、Tu和
分別表示節點v、節點u及其連接邊的原始文本。k為GNN的層數,N表示鄰居節點集合,u為目標節點,ω為GNN中的學習參數。
相比于現有方法,該方法的優勢在于能夠有效保留節點與邊之間的語義關系,更適合捕捉復雜的關系。
LLM as Predictor 的范式
利用LLM強大的文本理解能力,LLM可以直接被用于解決圖級別問題。具體而言,為每個數據集采用一個包含相應的節點和邊文本的text prompt,從而讓LLM回答特定問題,例如節點分類或鏈接預測。
可以正式定義如下:
其中,f是提供圖信息的prompt,G表示一個TEG,Q為問題。
TEG實驗結果
Baselines
在基于PLM的范式中,使用三種不同規模的PLM對節點文本進行編碼,以生成節點的初始嵌入。三種模型分別是:大模型GPT-3.5-TURBO,中型模型Bert-Large,以及小型模型Bert-Base。
在基于Edge-aware GNN的范式中,選擇了五種流行的Edge-aware GNN模型:GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用與PLM范式相同的三種規模的PLM對節點和邊的文本進行編碼,之后這些文本嵌入作為節點和邊的初始特征。
在基于Entangled GNN的范式中,實驗設置與Edge-aware GNN相同除了使用Entangled方式通過GPT-3.5-TURBO對于節點和邊的文本進行編碼。
在LLM as Predictor的范式中,選擇通過API訪問GPT-3.5-TURBO和GPT-4,以平衡性能和成本。
Node Classification
下表展示了不同數據集上節點分類在中的效果:
Link Prediction
下表展示了不同數據集上鏈接預測的效果:
總結
研究人員推出了首個Textual-Edge Graph基準,TEG-DB,旨在深入研究TEG上的圖表示學習。
與傳統的僅包含節點文本信息的TAG不同,TEG涵蓋了節點和邊的文本內容。
研究人員收集并提供了9個全面的TEG數據集,以促進NLP和GNN社區對于TEG的合作與探索,其Benchmark對各種學習方法進行了全面評估,確認了它們的有效性和局限性。
此外,研究人員計劃繼續挖掘和構建更多研究導向的TEG,以推動該領域的持續發展。
團隊介紹
文章第一作者為上海大學的本科生李卓風,通訊作者為埃默里大學計算機系的趙亮教授。
共同作者包括埃默里大學的博士生胡云桐、張錚、凌辰,本科生 Sirui Li,中國石油大學本科生劉眾源,約翰·霍普金斯大學碩士生 Xiangnan Zhang,山東大學本科生 Zixing Gou。