聊一聊生成式視角下的實體對齊
引言
基于知識圖譜嵌入的方法在實體對齊領域取得了巨大成功。本文以生成模型的視角重新解構了目前實體對齊方法的范式,展示了其與生成模型間的相似之處,并從理論上揭示了現有的基于生成對抗網絡的方法的局限性。通過引入新的互變分自編碼器(Mutual-VAE)作為生成模型,本文構建了一個生成式實體對齊框架(GEEA)。GEEA實現了知識圖譜之間的實體轉換,并且能夠從隨機噪聲中生成新的實體。通過理論分析、實體對齊實驗,以及實體合成實驗等,系統地展示了生成模型在實體對齊及實體合成任務上的強大能力。
背景
實體對齊的結果往往被用于豐富不同的知識圖譜,但不同的知識圖譜中通常存在一些目標知識圖譜中沒有的實體,這些實體被稱為“懸掛實體(dangling entity)”。如果可以將這些實體從源知識圖譜轉換到目標知識圖譜,將在許多任務中節省大量時間和精力。
從隨機變量生成新實體可以應用到多個新興領域,如元宇宙、游戲、劇本設計等。在這些領域中虛擬角色仍依賴于手工編寫或隨機算法,而豐富、相互聯系的角色對構建沉浸式虛擬世界至關重要。這些內容可以利用知識圖譜來存儲,并通過實體合成生成新的具有豐富關系的角色信息。
方法
如下圖所示,本文設計的生成式實體對齊框架可分為5個模塊:
- 變分自編碼器利用不同的變分自編碼器可分別將不同模態的信息編碼到預設的正態空間,再通過對應的解碼器將其重新解釋為輸入向量。通過采用適當的損失函數,該變分自編碼器模塊可學習到生成隨機樣本的能力。
- 重構先驗信息變分自編碼器所輸入輸出的信息均為嵌入向量,與原始的圖結構信息等并不一致。因此框架中還包含一個先驗重構層,其目標是將不同模態的嵌入重新轉換為原始的輸入特征。
- 知識融合對于不同模態的輸入嵌入可通過融合層得到一個歸一化的嵌入,這樣就可以利用對應的損失函數來最小化多模態、不同源的知識間的差異,使得模塊學習到知識融合的能力。
- 分布對齊值得注意的是,在第1步中,被變分自編碼器所編碼后的輸出可以通過訓練使其服從于正態分布,這樣便可在生成階段從正態分布中采樣再經過解碼層獲得輸出向量,之后通過第2步重構其先驗特征。
- 重構后驗信息由于所涉及到多種知識表示,必須保證變分自編碼器所生成的不同模態的輸出能夠互洽。通過將生成的不同模態的輸出向量重新輸入至第3步中的融合層,便可得到一個重構后的融合向量,這樣就可以對比其與原有向量間的差異來評估自洽性。
實驗
如下圖所示,在多個實體對齊數據集上,引入了生成目標的GEEA顯著優于其他方法。
同時,在實體合成結果上,本文所提出的GEEA也要優于一些生成模型或是生成模型與實體對齊模型的結合:
下表展示了一些實體合成的結果,其中輸入的源知識圖譜實體在目標知識圖譜中并不存在。可以看出,GEEA所生成的屬性和鄰居甚至包含了一些原本知識圖譜中并不存在但正確的內容。對于圖片信息,由于目前方法均采用預訓練的圖片向量而非引入視覺模型的緣故,在GEEA中直接取距離最近的目標知識圖譜圖片作為輸出。
總結
本文對如何利用生成模型進行實體對齊與實體合成進行了理論分析,并提出GEEA來解決現有基于生成模型方法的局限性。實驗證明,GEEA在實體對齊和實體合成任務均較現有方法有著顯著優勢。未來工作將專注于設計新的多模態編解碼器以進一步增強模型的生成能力。
本文轉載自:??ZJUKG??
作者:郭凌冰
