成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

文本圖格式大一統!首個大規模文本邊基準TEG-DB發布 | NeurIPS 2024

人工智能 新聞
最近,來自上海大學、山東大學和埃默里大學等機構的研究人員首次提出了文本邊圖的數據集與基準,包括9個覆蓋4個領域的大規模文本邊圖數據集,以及一套標準化的文本邊圖研究范式。該研究的發表極大促進了文本邊圖圖表示學習的研究,有利于自然語言處理與圖數據挖掘領域的深度合作。

文本屬性圖Text-Attributed Graphs(TAGs)是一種在節點上有豐富文本信息的圖結構, TAGs 廣泛應用于社交網絡(social network)、引用網絡(citation network)和推薦系統(recommendation system)等實際場景中。由于其強大且通用的表達能力,該領域近年來得到了快速發展。

然而目前TAGs面臨三大挑戰:

  1. 現有的TAGs數據集一般僅在節點上包含文本信息,而邊的信息往往被簡化為二元或分類屬性。邊文本(edge text)的缺乏限制了對文本實體間復雜語義關系的表達和理解(比如一個實體局部的一些概念如何與另一實體的局部相關),阻礙了圖數據挖掘技術的進一步發展;
  2. 文本圖數據格式和實驗設置不統一,難以進行模型之間的比較;
  3. 由于缺乏全面的基準測試和分析,對圖模型處理邊文本信息能力仍然了解的很欠缺。

論文地址:https://arxiv.org/abs/2406.10310

代碼地址:https://github.com/Zhuofeng-Li/TEG-Benchmark

數據集地址:https://huggingface.co/datasets/ZhuofengLi/TEG-Datasets

為了解決這一問題,上海大學、山東大學、埃默里大學等學術機構的研究人員聯合推出了TEG-DB,一個全面的基于文本邊的圖數據集和基準測試(A Comprehensive Dataset and Benchmark of Textual-Edge Graphs)。

目前,論文已被NeurIPS Datasets and Benchmark Track 2024接收。

其主要有三個特點:

  1. TEG-DB datasets提供了涵蓋4個領域9個統一格式的TEG數據集,規模從小到大不等,均包含豐富的節點和邊的原始文本數據,這些數據集填補了TEGs領域的空白,旨在為相關研究提供重要數據集資源。
  2. 研究人員開發了TEGs研究的標準化流程,涵蓋數據預處理、加載和模型評估等關鍵階段。
  3. 研究人員進行了廣泛的基準實驗,并對基于TEGs的方法進行了全面分析,深入探討了不同模型及不同規模pre-trained language models(PLMs)生成的嵌入的效果、在GNNs中使用分離和交織嵌入方法(seperate and entangled embedding methods)的影響、邊文本的作用以及不同領域數據集的影響。

TEG Datasets

為了構建同時滿足節點和邊具有豐富文本信息的數據集,研究人員選擇了來自不同領域和規模的9個數據集。

具體包括4個來自Goodreads的圖書推薦領域用戶-書籍評論網絡,2個來自Amazon的電商購物網絡,1個來自Semantic Scholar的學術引用網絡,以及 2個來自Reddit和Twitter的社交網絡。數據集統計請見下表:

TEG Methods

基于 PLM 的范式

PLM通過大規模文本訓練,能夠理解詞語、短語和句子的語義關系和上下文。

基于PLM的方法首先將TEG中節點和邊的文本通過PLM進行嵌入表示 (embed),例如對于節點u,通過embed其自身以及所連接的邊文本,可以得到 embedding 圖片作為節點u初始化特征 (feature) 。之后使用多層感知器(MLP)整合TEG中的語義信息,獲得最終的節點表征。公式如下:

圖片圖片

其中,圖片表示第k層MLP中節點u的表示,Tu圖片分別為節點u和連接節點v與u邊ev,u的原始文本,節點v是u的鄰居,ψ為MLP的可訓練參數。

盡管PLM顯著提升了節點的表征能力,但由于未考慮TEG拓撲結構,限制了其對TEG中完整語義信息的捕捉。

基于 Edge-aware GNN 的范式

GNN通過消息傳遞 (message passing)來提取圖結構中有意義的表征信息,具體定義如下:

圖片


其中,圖片表示GNN第k層中節點u的表征,初始特征向量圖片通過使用PLM對節點的原始文本進行embed獲得。從節點v到節點u的邊,其特征ev,u同樣由PLM對于邊的原始文本進行embed得到。k代表GNN的層數,N表示鄰居節點集合,u為目標節點,ω為GNN中的學習參數。

然而,這種方法存在兩個主要問題:

  1. 現有的圖機器學習方法如GNN對于邊通常基于連通性(即二元屬性表示是否有連接)和邊屬性(如類別或數值屬性)進行操作,而非基于文本屬性。然而在TEG中,邊包含了豐富的文本,這便導致GNN遠不足以處理這些復雜的文本信息所產生的語義關系。
  2. 基于GNN的方法在捕捉節點以及邊文本的上下文語義方面存在局限性。在TEG中,邊和節點的文本通常交織在一起,在嵌入過程中將它們分別進行嵌入表示(seperate embedding),可能導致相互依賴關系信息的丟失,從而削弱GNN在整個消息傳遞過程中的有效性。

基于Entangled GNN的范式

傳統GNN方法將邊和節點文本分離進行嵌入(seperate embedding),可能導致大量信息損失,特別是在TEG中。

例如,在一個citation network中,每個節點表示一篇論文,一條邊可能表示某篇論文引用、批評或使用了另一篇論文的某一部分。

因此,邊文本是不能獨立于論文節點存在的,這便對節點以及邊seperate embedding方法提出了挑戰。

為避免文本嵌入后節點和邊交互時的信息丟失,提出了一種新的方法 Entangled GNN,先將邊文本和節點文本Entangle在一起,再進行embed,作為節點的初始化embedding。隨后對節點進行消息傳遞操作。

該方法的公式如下:

圖片


其中,圖片表示GNN第k層中節點u的表示。Tv、Tu圖片分別表示節點v、節點u及其連接邊的原始文本。k為GNN的層數,N表示鄰居節點集合,u為目標節點,ω為GNN中的學習參數。

相比于現有方法,該方法的優勢在于能夠有效保留節點與邊之間的語義關系,更適合捕捉復雜的關系。

LLM as Predictor 的范式

利用LLM強大的文本理解能力,LLM可以直接被用于解決圖級別問題。具體而言,為每個數據集采用一個包含相應的節點和邊文本的text prompt,從而讓LLM回答特定問題,例如節點分類或鏈接預測。

可以正式定義如下:

其中,f是提供圖信息的prompt,G表示一個TEG,Q為問題。

TEG實驗結果

Baselines

在基于PLM的范式中,使用三種不同規模的PLM對節點文本進行編碼,以生成節點的初始嵌入。三種模型分別是:大模型GPT-3.5-TURBO,中型模型Bert-Large,以及小型模型Bert-Base。

在基于Edge-aware GNN的范式中,選擇了五種流行的Edge-aware GNN模型:GraphSAGE、GeneralConv、GINE、EdgeConv和GraphTransformer。使用與PLM范式相同的三種規模的PLM對節點和邊的文本進行編碼,之后這些文本嵌入作為節點和邊的初始特征。

在基于Entangled GNN的范式中,實驗設置與Edge-aware GNN相同除了使用Entangled方式通過GPT-3.5-TURBO對于節點和邊的文本進行編碼。

在LLM as Predictor的范式中,選擇通過API訪問GPT-3.5-TURBO和GPT-4,以平衡性能和成本。

Node Classification

下表展示了不同數據集上節點分類在中的效果:

Link Prediction

下表展示了不同數據集上鏈接預測的效果:

總結

研究人員推出了首個Textual-Edge Graph基準,TEG-DB,旨在深入研究TEG上的圖表示學習。

與傳統的僅包含節點文本信息的TAG不同,TEG涵蓋了節點和邊的文本內容。

研究人員收集并提供了9個全面的TEG數據集,以促進NLP和GNN社區對于TEG的合作與探索,其Benchmark對各種學習方法進行了全面評估,確認了它們的有效性和局限性。

此外,研究人員計劃繼續挖掘和構建更多研究導向的TEG,以推動該領域的持續發展。

團隊介紹

文章第一作者為上海大學的本科生李卓風,通訊作者為埃默里大學計算機系的趙亮教授。

共同作者包括埃默里大學的博士生胡云桐、張錚、凌辰,本科生 Sirui Li,中國石油大學本科生劉眾源,約翰·霍普金斯大學碩士生 Xiangnan Zhang,山東大學本科生 Zixing Gou。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-09 09:50:00

VeactReact

2023-10-20 09:43:56

模型訓練

2017-12-15 17:14:10

云端

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2014-07-29 13:25:43

WWDC 2014 S

2025-03-18 09:29:54

2012-02-28 09:54:01

Windows 8微軟賬戶

2024-04-23 13:38:00

AI數據

2023-07-17 08:03:03

Shell腳本SQL

2024-12-10 09:49:53

2025-02-03 12:16:01

視頻生成AI

2023-03-13 13:40:20

機器學習AI

2024-03-20 09:29:41

2025-03-13 10:18:42

2024-09-10 10:07:19

2017-06-27 10:49:48

Intel 300Wi-Fi芯片

2025-01-17 10:30:00

2024-01-24 09:24:19

自動駕駛算法
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产综合在线视频 | 一区二区在线观看av | 美女亚洲一区 | 日日夜夜免费精品视频 | 亚洲成av人片在线观看 | 中文字幕中文字幕 | 久久久99精品免费观看 | 一区二区三区视频免费看 | 综合二区 | 亚洲精品视频在线看 | 天天夜夜操 | 精品国产一区二区在线 | 皇色视频在线 | 最新av在线播放 | 欧美日韩国产一区二区三区 | 精品国产精品三级精品av网址 | 久一久 | 久久久久久久电影 | 午夜视频在线播放 | 中文字幕视频免费 | 国产成人精品一区二区三区 | 视频在线日韩 | 亚洲男人的天堂网站 | 日本高清不卡视频 | 亚洲精品9999久久久久 | 成人伊人 | 久久久久亚洲 | 日日夜夜91 | 日本黄色大片免费看 | 久久久久国产一区二区三区 | 欧美精品在线一区二区三区 | 亚洲一区视频在线 | 精品久久久久久国产 | 日韩二三区 | 91色综合| 欧美日本久久 | 欧美视频区 | 国产精品18hdxxxⅹ在线 | 国产一级特黄视频 | 欧美另类视频在线 | av黄色在线 |