KG+LM超越傳統架構！海德堡提出全新圖語言模型GLM | ACL 2024

作者：新智元 2024-09-20 15:37:21

人工智能新聞

近日，來自海德堡大學的研究人員推出了圖語言模型 (GLM)，將語言模型的語言能力和知識圖譜的結構化知識，統一到了同一種模型之中。

語言模型（LM）的成功似乎掩蓋了旁人的光輝。

比如知識圖譜（knowledge graph，KG），這個整合了實體關系的結構化知識庫。

通常來說，語言模型代表了語言能力，而知識圖譜蘊含了結構信息。

長期以來，對于KG的利用大致可以分為兩類：

第一類是將KG線性化后嵌入LM，這種做法并不能充分利用其結構信息；

第二類是使用圖神經網絡 (GNN) 來保留圖結構，但GNN無法表示文本特征，也無法與LM的預訓練特征結合。

——有沒有辦法結合二者的優點，既保留預訓練LM的能力，又充分利用KG來增強模型對于圖概念和三元組的理解？

當然有，不然小編就不會寫，那就是來自海德堡大學的研究人員推出的圖語言模型 (GLM)。

論文地址：https://aclanthology.org/2024.acl-long.245.pdf

GLM集成了兩種方法的優勢并彌補了它們的缺點。

作者使用預訓練LM來初始化GLM的參數，同時又設計新的架構來促進有效知識分配，這使得GLM能夠同時處理圖和文本信息。

下表展示了對關系分類任務的實證評估結果，在這些較為復雜的任務中，模型需要對來自文本和圖的互補輸入進行推理，還需要推斷不存在于文本中的信息。

數據表明，GLM在監督和零樣本測試中，超越了基于LM和GNN的基線。

此外，通過線性探測實驗，作者還證明了GLM的架構變化與原始LM權重高度兼容。

圖語言模型

KG對于組織大量數據、促進信息檢索，以及揭示決策中隱藏的見解至關重要。

KG擅長明確地表示多種關系，一般使用三元組的形式：節點是實體，邊代表它們之間的關系，以下將這類復雜的結構統稱為GoT。

為了有效地使用GoT，我們需要對其組件進行有意義的編碼。

上面提到了利用語言模型和GNN的問題，本質上來說，兩種結構由不同的基本原理驅動，LM利用語義編碼，而GNN執行結構推理。

融合

在圖語言模型的設計中，作者通過文本和結構信息的早期融合來解決這個問題。

首先是使用LM現成的參數來初始化——一方面是保留預訓練的能力，另一方面是從頭訓練太貴了。

通過對LM的自注意力模塊進行一些非侵入性的更改，將LM轉換為Graph Transformers（GT），同時保持與其預訓練參數的兼容性。

在對圖進行編碼時，LM用來處理三元組線性組織的文本信息，而GT則沿著圖結構聚合信息。

因此，GLM繼承了LM對三元組的文本理解，而其中的GT模塊允許直接執行結構推理，無需額外的GNN層。

重要的是，文本序列可以看作一種特殊類型的圖，在GLM中的處理模式與原始LM相同。

Graph Transformer的設計

Self-Attention中的Attention可以寫成

除了熟悉的Q、K、V， Bp表示位置編碼，而M為mask矩陣。

在Transformer中，位置編碼 (PE) 用于通知語言模型文本中token的順序。

包括絕對PE（對token的絕對位置進行編碼）和相對PE（token對之間的相對位置），絕對PE通常加在輸入序列里面。

相對PE為每個可能的距離學習一個標量：

對于GT來說，定義圖中節點或邊的絕對位置并不簡單。因此，本文采用相對PE。

給定圖中的有向非循環路徑，我們可以將路徑上任意一對節點之間的距離定義為節點之間的跳數，也就獲得了相對距離（PE）。

M（mask）矩陣

在普通Transformer中，自注意力是針對輸入中所有可能的標記對進行計算的。

相比之下，GNN中的節點通常只關注相鄰節點，更遠的節點之間的信息必須跨多個GNN層傳播。

對于圖來說，這種稀疏消息傳遞方法有時是首選，因為在大多數圖中，鄰域大小隨著半徑的增加呈指數增長。

因此，在GT中引入圖先驗可能是有益的，比如只在局部鄰域計算自注意力（M中相連的節點對應設置為0）。

另一方面，事實證明，圖的全局視圖可以實現高效、遠程的信息流。所以作者搞了兩個版本：本地GLM和全局GLM。

如上圖所示，G2G的連接就屬于全局視野，本地GLM不處理這種關系。

在本地GLM中，自注意力機制僅限于來自同一三元組的token，而外部所有token的注意力都設置為 0（因此也不需要PE）。

盡管如此，因為屬于一個概念的token可以由多個三元組共享，所以消息可以通過圖跨多個層傳播（類似于GNN中的標準消息傳遞）。

所以即使非相鄰節點沒有直接連接，仍然可以通過消息傳遞共享信息。

比如，在第一個本地GLM層中，「狗」通過三元組「黑色貴賓犬是一只狗」和「狗是一種動物」來表示。那么，在第二層中，「動物」的表示會受到「黑色貴賓犬」的影響，盡管兩者之間沒有直接聯系。

另外，研究人員還形式化了全局GLM，（對標自注意力）可以將任何節點連接到每個其他節點。這種形式需要為任意token對設置PE，包括那些不在同一三元組中出現的token。

為此，全局GLM引入了新的圖到圖（G2G）相對位置。LM中沒有學習G2G連接的參數，因此這里使用相對位置（ +∞ ）來初始化參數，表示相應的token出現在文本段落中很遠的地方。

預處理

GT架構引入了圖先驗，而LM的參數初始化賦予了其語言理解能力。

對模型進行修改的整體思想是，三元組應該盡可能地類似于自然語言，以使LM能夠學習，而圖推理應該通過消息傳遞來工作。

類似于LM分詞器將文本轉換為詞表中的向量，GoT也需要同樣的處理以便GLM可以像LM那樣處理圖。

為了實現這一點，研究人員首先將GoT轉換為Levi圖，用包含關系名稱作為文本特征的節點替換每條邊，并將新節點連接到原始邊的頭部和尾部，保留原始邊的方向。

接下來，將每個節點拆分為多個節點，每個新節點對應單個token，建立新的邊連接相鄰節點，保留原來的方向。

在這種表示中，每個三元組都表示為一個token序列，就像標準LM一樣。

位置編碼

如前所述，使用token對之間的相對位置進行編碼，——只需將三元組視為一段文本，并計算該文本中的token距離。

請注意，轉換后GoT的token序列，不一定與輸入三元組的token序列完全相同。這里單獨對Levi圖中的每個節點進行標記，以確保多個三元組共享概念的一致。

當token不屬于同一個三元組時，為了確定這些token對之間的距離，之前的工作考慮了它們之間的最短路徑的長度。

然而，這中PE對于LM來說并不自然，因為如果在最短路徑中以錯誤的方向遍歷，三元組將以相反的順序出現。

因此，本文省略了不具有結構信息的token之間的PE，使用局部 (?GLM) 和全局 (gGLM)。

實驗結果

作者在兩個關系（標簽）分類實驗中評估了GLM嵌入GoT的能力（對哪個關系屬于給定的頭實體和尾實體進行分類）。

ConceptNet子圖實驗用來分析結構圖屬性的影響；而在維基數據子圖和相關維基百科摘要的實驗，用于測試文本和圖形交錯輸入的能力。

研究人員構建了一個平衡的英語CN子圖數據集，其中包含13,600個訓練實例、1,700個開發實例和1,700個測試實例，并以17個不同關系作為標簽，將要預測的關系替換為T5模型的第一個掩碼<extra_id_0>。

GLM對圖進行編碼，為每個token生成嵌入，線性分類頭根據掩碼的嵌入給出最終預測，這里使用靜態模板來表達未屏蔽的關系。

ConceptNet子圖中關系分類的實驗表明，GLM優于基于LM和GNN的編碼方法——即使繼承的LM參數在GLM訓練期間沒有更新。

維基數據子圖和維基百科摘要上的KG群體實驗表明，GLM可以對GoT和文本的交錯輸入進行推理，是LM所不具備的新能力。

責任編輯：張燕妮來源：新智元

AI 技術模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

KG+LM超越傳統架構！海德堡提出全新圖語言模型GLM | ACL 2024

圖語言模型

融合

Graph Transformer的設計

預處理

實驗結果